کامپیوتر و IT
دانلود تحقیق کامپیوتر
تکنیک های داده کاوی در تحلیل پایگاه داده های حوادث
مقدمه تکنیک های داده کاوی در تحلیل پایگاه داده های حوادث
داده کاوي شامل تکنيک هاي متنوعي مي باشد که مي تواند در دو گروه دسته بندي شود:
• تکنيک هاي کلاسيک مانند آمارها و مجاورت
• تکنيک هاي نسل بعدي مانند درخت تصميم گيري و قوانين انجمني
1-7-2- تکنيک هاي کلاسيک
1-1-7-2- آمارها:
به طورکلي در بررسي پايگاه داده حوادث، گروه بندي رکوردها با مقادير مشابه، به شناسايي الگوها کمک خواهد کرد. برای مثال محاسبه ي تعداد رکوردها يي که علت اصلي حادثه، خطاي انساني است (Anand, Keren, Tretter, Wang, O’Connor, & Mannan, 2006).
در فرآيند اکتشاف پايگاه-داده، زمانی استفاده از آمار سودمند است که نیاز به اطلاعات زیر باشد:
• شناسايي الگوها در پايگاه داده.
• پيشگويي احتمال رخدادهايي که اتفاق خواهند افتاد.
• شناسايي الگوهاي مهم، مانند پیوند بين علل و وقايع.
• توسعه ي مدل هاي پیش بینی.
2-1-7-2- مدل هاي رگرسيون:
تکنيک هاي سنتي مانند مدل رگرسيون، در پيدا کردن معياري بين يک متغير هدف و متغيرهاي وابسته مفید هستند. فهميدن کاربردهاي عملي مدل هاي رگرسيون در پايگاه داده حوادث مشکل است.
3-1-7-2 نزديکترين همسايگي :
نزديکترين همسايگي، يک تکنيک پيشگويي است که مقدار يک متغير مورد نياز را برطبق مقادير اين متغير، در حالت هاي ديگري که خصوصيات مشابه دارند پیش بینی مي-کنند.
پایگاه داده های حوادث:
آژانس هاي عظيم و گروه هاي علاقه مند، هرکدام برطبق اهداف و مقصود خود به جمع آوري داده های حوادث مي-پردازند. آژانس حفاظت از محيط امريکا(EPA )، نيازمند امکانات پوششي، تحت برنامه ي مديريت ريسک-(RMP ) مي باشد تا بتواند حوادث را با توجه به يک سري از معيارها و امکانات گزارش دهد. اين اطلاعات در بخش هاي 5 ساله جمع آوري شده اند. مجموعه داده ها با رکوردهايي از سال 1995 تا 1999 قبلا به صورت عمومي بر روي وب سايت EPA موجود بودند اما به دنبال رخدادهاي 11 سپتامبر، اين مجموعه داده، ديگر به صورت عمومي موجود نمي باشد. به علاوه تکه اي از داده ها که شامل رکوردهايي از سال 1999 تا 2004 مي باشند هرگز به صورت عمومي آشکار نشدند (Keren, Anand, & Mannan, 2006).
در حالي که پايگاه داده حوادث RMP-EPA موجود نمي باشد، دو منبع ديگر به صورت عمومي موجود است:
1. آژانسي براي نمونه مواد سمي و ثبت بيماري ها-( ATSDR).
2. "نمونه هاي خطرناک و پايش رخدادهاي خيلي خيلي فوري"، مجموعه داده (HSEES ) و گارد ساحلي آمريکا "مرکز پاسخگويي ملي"، پايگاه داده ( NRC).
HSEES، شامل داده هايي با کيفيت بالا و معتبر مي باشد. محدوديت اصلي HSEES اينست که موادي که درگير در یک حادثه هستند ثبت نمی شود. به علاوه داده ها فقط از 15 ايالت آمريکا جمع آوري شده اند که درواقع مجموعه داده نسبتا کوچکي مي شود (Keren, Anand, & Mannan, 2006).مرکز پاسخگويي ملي(NRC)، نقطه ي ائتلافي براي تمامي گزارشات مرتبط با نفت، مواد شيميايي، راديولوژي، بيولوژي و تخليه اتولوژي به درون محيط، در هر مکاني درآمريکا و سرزمين هاي تحت قلمرويش مي باشد. NRC، 24 ساعت در شبانه روز، 7 روز در هفته و 365 روز سال فعال است. به علاوه گزارشات به صورت عمومي جمع آوري مي شوند، اين گزارشات به مکان جغرافيايي خاصي محدود نیستند و با توافقنامه هاي انجام شده با چندين آژانس ديگر، اين اطلاعات دراختیار گارد ساحلي امريکا قرار می گیرند.
داده هاي جمع آوري شده توسط NRC به شکل فايل هاي Excel برروي وب سايت NRC موجود هستند(از سال 1982 تا 2010 ). در اين زمينه یک حکم قانوني وجود دارد که اگر ماده شيميايي آزاد شده در محیط، بالاتر از حد تعیین شده باشد باید به این پایگاه داده گزارش شود (Keren, Anand, & Mannan, 2006).یکی از مشکلات سيستم NRC-IRIS جمع آوری گزارشات حوادث، نزدیک به زمان وقوع حادثه است که باعث می شود تا رکوردهای پایگاه داده، اغلب داراي مستند سازي خوبي نباشند. علاوه برآن تعداد زیادی رکورد تکراری برای هر گزارش ایجاد می شود، زيرا هر شخصی به آساني می-تواند حادثه را به پایگاه داده گزارش دهد و به عنوان یک رکورد جدید ثبت کند. يکي دیگر از محدوديت هاي پايگاه داده NRC، نبود جزئیات حوادث است. به طور مثال نمی توان به کمک اين داده ها، علت اصلي حوادث را مورد بررسی قرارداد (Anand, Keren, Tretter, Wang, O’Connor, & Mannan, 2006).
فهرست مطالب
16-5-2- داده کاوي 18
1-16-5-2- اهداف داده کاوي 18
6-2- پایگاه داده های حوادث 19
7-2- تکنيک هاي داده کاوي در تحليل پايگاه داده های حوادث 21
1-7-2- تکنيک هاي کلاسيک 21
1-1-7-2- آمار 21
2-1-7-2- مدل های رگرسیون 22
3-1-7-2- نزدیکترین همسایگی 22
2-7-2- تکنيک هاي نسل بعدي 22
1-2-7-2- درخت تصمیم گیری 22
2-2-7-2- قوانین انجمنی 23
8-2- تکنيک هاي داده کاوي استفاده شده در این تحقیق 25
1-8-2- رده بندی 25
2-8-2- خوشه بندی 26
منابع