مهندسی نرم افزار
پایان نامه داده کاوی در بیمه با عنوان ارائه مدلی برای شناسایی عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه بوسیله روشهای داده کاوی شرکت سهامی بیمه ایران می باشد.در این تحقیق توانستیم اثبات کنیم که با روشهای داده کاوی می توان مدلی هایی ارائه داد که عوامل موثر در احتمال به بار آوردن خسارت یک مشتری را با توجه به میزان تاثیر آن عوامل مشخص کند. این موضوع از طریق الگوریتم های کاهش ویژگی و وزن دهی و شبکه عصبی مهیا شد. همچنین الگوریتم های خوشه بندی نیز نتایج مشابهی را ارائه داده اند. علاوه بر این، الگوریتم های دسته بندی با تشخیص عوامل اثر گذار توانسته اند مدلی را ارائه دهند که با دقت بسیار بالایی احتمال خسارتی بودن یک بیمه نامه را تشخیص می دهد.
الگوریتم های درخت تصمیم نیز با دقت بالایی در تشخیص عوامل موثر در خسارتی بودن یک بیمه نامه و ارائه مدل و قوانین لازم موفق عمل کرده اند. الگوریتم های مبتنی بر قانون اگرچه قوانین بسیار محدودی ارائه داده اند اما درصد تشخیص عوامل اثر گذار و دقت قوانین استخراج شده قابل اطمینان بوده است. عوامل در الگوریتم های مختلف با ضریب تشخیصی متفاوت قید شده است. عوامل اثر گذار استخراج شده عمدتاً به تنهایی موثر نبوده بلکه دارای اثرات وابسته به دیگر عوامل بوده است که این موضوع در درختهای تصمیم و قواعد تلازمی(مبتنی بر قانون) به وضوح مشخص است و بیان شده است.
در این پژوهش از8 الگوریتم دسته بندی شامل KNN, Naïve bayes, Neural Network, SVM Linear, Meta Decision Tree, Wj48, Random Forest و رگرسیون لجستیک استفاده شده است که تعداد 3 الگوریتم آن درخت تصمیم بوده است. همچنین دو الگوریتم مبتنی بر قانون Apriori, Fp Growthو 3 الگوریتم خوشه بندی K-Means، دوگامی و Kohonen نیز مورد استفاده قرار گرفته اند. در این قسمت نتایج الگوریتمهای دسته بند غیر درخت با هم مقایسه می شوند و به ترتیب بهترین مدلها مشخص میگردند. همچنین سه الگوریتم دسته بند درختی با هم دیگر مقایسه شده و بهترین نتایجی که خسارتی بودن یک رکورد را مشخص میکند پس از مشاوره با یک متخصص و کارشناس در امور بیمه از هر درخت استخراج می گردد و به ترتیب دقت نهایی آن الگوریتم اعلام میگردد. در خصوص الگوریتم های مبتنی بر قانون نیز دو الگوریتم با هم دیگر مقایسه شده و بهترین قوانینی که خسارتی بودن یک رکورد را مشخص میکند پس از مشاوره با یک متخصص و کارشناس در امور بیمه از هر الگوریتم استخراج و اعلام میگردد.
فهرست مطالب
فصل اول: مقدمه
1-1 تعریف داده کاوی 4
1-2 تعریف بیمه 4
1-3 هدف پایان نامه 5
1-4 مراحل انجام تحقیق 5
1-5 ساختار پایان نامه 6
فصل دوم: ادبیات موضوع و تحقیقات پیشین
2-1 داده کاوی و یادگیری ماشین 8
2-2 ابزارها و تکنیک های داده کاوی 9
2-3 روشهای داده کاوی 11
2-3-1 روشهای توصیف داده ها 12
2-3-2 روشهای تجزیه و تحلیل وابستگی 12
2-3-3 روشهای دسته بندی و پیشگویی 12
2-3-4 درخت تصمیم 13
2-3-5 شبکه عصبی 14
2-3-6 استدلال مبتنی بر حافظه 14
2-3-7 ماشین های بردار پشتیبانی 15
2-3-8 روشهای خوشه بندی 16
2-3-9 روش K-Means 16
2-3-10 شبکه کوهنن 16
2-3-11 روش دو گام 17
2-3-12 روشهای تجزیه و تحلیل نویز 17
2-4 دسته های نامتعادل]صنیعی آباده 1391[. 18
2-4-1 راهکار مبتنی بر معیار 18
2-4-2 راهکار مبتنی بر نمونه برداری 19
2-5 پیشینه تحقیق 20
2-6 خلاصه فصل 23
فصل سوم: شرح پژوهش
3-1 انتخاب نرم افزار 26
3-1-1 Rapidminer 26
3-1-2 مقایسه RapidMiner با سایر نرم افزار های مشابه 27
3-2 داده ها 31
3-2-1 انتخاب داده 31
3-2-2 فیلدهای مجموعه داده صدور 31
3-2-3 کاهش ابعاد 31
3-2-4 فیلدهای مجموعه داده خسارت 37
3-2-5 پاکسازی داده ها 37
3-2-6 رسیدگی به داده های از دست رفته 37
3-2-7 کشف داده دور افتاده 39
3-2-8 انبوهش داده 41
3-2-9 ایجاد ویژگی دسته 41
3-2-10 تبدیل داده 41
3-2-11 انتقال داده به محیط داده کاوی 42
3-2-12 انواع داده تعیین شده 42
3-2-13 عملیات انتخاب ویژگیهای موثرتر 43
3-3 نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی 44
3-4 ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگی 46
3-5 معیارهای ارزیابی الگوریتمهای دسته بندی 47
3-6 ماتریس درهم ریختگی 47
3-7 معیار AUC 48
3-8 روشهای ارزیابی الگوریتم های دسته بندی 49
3-8-1 روش Holdout 49
3-8-2 روش Random Subsampling 50
3-8-3 روش Cross-Validation 51
3-8-4 روش Bootstrap 51
3-9 الگوریتمهای دسته بندی 52
3-9-1 الگوریتم KNN 53
3-9-2 الگوریتم Naïve Bayes 54
3-9-3 الگوریتم Neural Network 54
3-9-4 الگوریتم SVM خطی 56
3-9-5 الگوریتم رگرسیون لجستیک 58
3-9-6 الگوریتم Meta Decision Tree 59
3-9-7 الگوریتم درخت Wj48 61
3-9-8 الگوریتم درخت Random forest 63
3-10 معیارهای ارزیابی الگوریتم های مبتنی بر قانون(کشف قوانین انجمنی) 65
3-10-1 الگوریتم FPgrowth 66
3-10-2 الگوریتم Weka Apriori 67
3-11 معیارهای ارزیابی الگوریتمهای خوشه بندی 67
3-12 الگوریتم های خوشه بندی 69
3-12-1 الگوریتم K-Means 69
3-12-2 الگوریتم Kohonen 73
3-12-3 الگوریتم دوگامی 77
فصل چهارم: ارزیابی و نتیجه گیری
4-1 مقایسه نتایج 83
4-2 الگوریتمهای دسته بندی 84
4-3 الگوریتم های دسته بندی درخت تصمیم 84
4-4 الگوریتم های خوشه بندی 96
4-5 الگوریتم های قواعد تلازمی(مبتنی بر قانون) 98
4-6 پیشنهادات به شرکت های بیمه 99
4-7 پیشنهادات جهت ادامه کار 101
منابع و مأخذ
فهرست منابع فارسی 102
فهرست منابع انگلیسی 103
فهرست جدولها
جدول شماره 3-1: نتایج رای گیری استفاده از نرم افزارهای داده کاوی 24
جدول شماره 3-2: فیلدهای اولیه داده های صدور 26
جدول شماره 3-3: فیلدهای نهایی داده های صدور 27
جدول شماره 3-4: فیلدهای حذف شده داده های صدور و علت حذف آنها 28
جدول 3-5: فیلدهای استخراج شده از داده های خسارت 28
جدول 3-6: نتایج نمودار boxplot 31
جدول 3-7: انواع داده استفاده شده 33
جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف 37
جدول 3-9: ماتریس در هم ریختگی رکوردهای تخمینی(Predicted Records) 38
جدول 3-10: قوانین استخراج شده توسط الگوریتم Fpgrowth 55
جدول 3-11: قوانین استخراج شده توسط الگوریتم Weka Apriori 55
جدول 3-12: تنظیمات پارامترهای الگوریتم K-Means 57
اجرا برای 9 خوشه در الگوریتم K-Means 60
جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen 64
جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی 69
جدول 4-1: مقایسه الگوریتم های دسته بند 70
جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم 70
جدول 4-3: ماتریس آشفتگی قانون شماره 1 71
جدول 4-4: ماتریس آشفتگی قانون شماره 2 72
جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف 72
جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب 72
جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج 73
جدول 4-8: ماتریس آشفتگی قانون شماره 3 د 73
جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه 73
جدول 4-10: ماتریس آشفتگی قانون شماره 3 و 74
جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز 76
جدول 4-12: ماتریس آشفتگی قانون شماره 4 76
جدول 4-13: ماتریس آشفتگی قانون شماره 5 77
جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف 77
جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب 78
جدول 4-16: ماتریس آشفتگی قانون شماره7 78
جدول 4-17: ماتریس آشفتگی قانون شماره8 79
جدول 4-18: مقایسه الگوریتم های خوشه بندی 79
جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی 80
جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori 81
فهرست شکلها
شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی 33
شکل 3-2: نتایج الگوریتمPCA 34
شکل 3-3: نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها 35
شکل 3-4: نتایج الگوریتم Weighting Deviation در ارزشدهی به ویژگی ها 35
شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها 36
شکل 3-6: نمای کلی استفاده از روشهای ارزیابی 41
شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی 42
شکل 3-8: نمودار AUC الگوریتم KNN 42
شکل 3-9: نمودار AUC الگوریتم Naïve Bayes 43
شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی 44
شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net 44
شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی 45
شکل 3-13 : نمودار AUC الگوریتم SVM Linear 46
شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک 47
شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree 48
شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree 49
شکل 3-17 : نمودار radial الگوریتم Meta Decision Tree 49
شکل 3-18: نمودار AUC الگوریتم Wj48 50
شکل 3-19 : نمودار tree الگوریتم Wj48 51
شکل 3-20 : نمودار AUC الگوریتم Random forest 52
شکل 3-21 : نمودار تولید 20 درخت در الگوریتم Random Forest 53
شکل 3-22 : یک نمونه درخت تولید شده توسط الگوریتم Random Forest 53
شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه 57
شکل 3-24 : Predictor Importance for K-Means 58
شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم K-Means 59
شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K- 60
شکل 3-27 : Predictor Importance for Kohonen 61
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم Kohonen 62
شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K- 63
شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen 63
شکل 3-31 : Predictor Importance for دوگامی 64
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم دوگامی 65
شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی 66
شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت 75