کاربرد الگوریتم های داده کاوی در تشخیص داده های ژئوشیمیایی خارج از ردیف چند متغیره

Autor: حمید گرانیان, زهرا خواجه میری
Jazyk: English<br />Persian
Rok vydání: 2020
Předmět:
Zdroj: نشریه مهندسی معدن, Vol 14, Iss 45, Pp 63-82 (2020)
Druh dokumentu: article
ISSN: 1735-7616
2676-4482
DOI: 10.22034/ijme.2020.37386
Popis: تشخیص داده‌های خارج از ردیف چند متغیره به کمک الگوریتم‌های داده‌کاوی یکی از نکات ضروری پیش‌پردازش داده‌های اکتشافات ژئوشیمیایی محسوب می‌شود. در این مقاله چهار الگوریتم برآورد چگالی کرنل (KDE)، ضریب خارج از ردیف بودن محلی (LOF)، OPTICS-OF و SVDD که به ترتیب جزو روش‌های آماری، روش‌های مبتنی بر مجاورت، روش‌های مبتنی بر خوشه‌بندی و روش‌های مبتنی بر دسته‌بندی هستند، معرفی شده و کاربرد آنها بر روی داده‌های ژئوشیمیایی ورقه 100000/1 روم با ماتریس داده 41×902 بررسی شده است. برای این منظور ابتدا روش ilr برای باز کردن سیستم عددی داده‌ها بکار رفته و سپس داده‌ها در بازه صفر تا یک استاندارد شده است. نتایج پیاده شده چهار الگوریتم فوق بر روی مجموعه داده‌های استاندارد شده، نشان می‌دهد که در رویکرد تشخیص نمونه‌های دارای خطا، 10 نمونه که دارای بالاترین احتمال خارج از ردیف بودن هستند و در هر چهار الگوریتم نیز یکسان می‌باشند را می‌توان برای بررسی بیشتر به عنوان نمونه‌های انتخابی برای نمونه‌برداری تکراری در نظر گرفت. در رویکرد تشخیص نمونه‌های غیر نرمال، از 150 نمونه‌ی انتخابی 5/74% از نمونه‌ها در هر چهار الگوریتم و 1/16% و 4/9% نیز به ترتیب در یک و دو الگوریتم به عنوان داده‌ی خارج از ردیف شناسایی شده است. مقایسه نتایج الگوریتم‌های انتخابی با روش کلاسیک فاصله ماهالانوبیتس نشان دهنده‌ی برتری آنها در هر دو رویکرد است. همچنین پیشنهادی می‌شود از الگوریتم‌های تشخیص داده‌های خارج از ردیف چند متغیره می‌توان برای تعیین نمونه-برداری‌های تکراری، محاسبه ماتریس موقعیت و پراکندگی در آمار چند متغیره مقاوم پس از حذف داده‌های غیر نرمال و تعیین آنومالی‌های ژئوشیمیایی استفاده کرد.
Databáze: Directory of Open Access Journals