ارائه مدلی برای شناسایی عوامل موثر در احتمال به بار آوردن خسارت یک مشتری با داده کاوی

ارائه مدلی برای شناسایی عوامل موثر در احتمال به بار آوردن خسارت یک مشتری با داده کاوی

بیمه شخص ثالث خودرو
دانلود پایان نامه ارشدداده کاوی
دانلود پایان نامه داده کاوی
کاربرد داده کاوی در بیمه
تشخیص خسارت بیمه با داده کاوی
سود و زیان بیمه شخص ثالث خودرو با داده کاوی
شناسایی عوامل اثرگذار در سود و زیان بیمه شخص ثالث خودرو

رفتن به سایت اصلی

دانلود پایان‌نامه كارشناسی ارشد مهندسی نرم افزار

ارائه مدلی برای شناسایی عوامل موثر در احتمال به بار آوردن خسارت یک مشتری با توجه به میزان تاثیر آن عوامل با داده کاوی

(مطالعه موردی: شرکت سهامی بیمه ایران)

 

 

 

چکیده

بررسی اطلاعات بیمه های اتومبیل نشان داده عواملی چون نوع استفاده خودرو، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، مبلغ حق بیمه، میزان تعهدات بیمه نامه، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه، تاخیردرتمدید بیمه نامه، در سود و زیان شرکت های بیمه تاثیر داشته اند.

هدف این پایان نامه شناخت عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکت های بیمه با استفاده از روش داده کاوی و  سپس انتخاب الگوریتمی که بهترین میزان دقت پیش بینی برای تشخیص این عوامل را داشته اند می باشد.نتیجه حاصل از این پژوهش نشان می دهد که روشهای داده کاوی با استفاده از الگوریتم های دسته بندی با دقت بالای 91% و الگوریتم های درخت تصمیم با دقت بالای 96% و الگوریتم های خوشه بندی با ایجاد خوشه های قابل قبول  قادر به ارائه مدلی برای تشخیص عوامل اثرگذار و تعیین میزان اثر آنها در سود و زیان بیمه نامه شخص ثالث خودرو خواهند بود. 

 

 

 

کلیدواژگان:

داده کاوی

سود و زیان

بیمه شخص ثالث خودرو

 

 

 

مقدمه 

شرکتهای تجاری و بازرگانی برای ادامه بقا و حفظ بازار همواره بر سود دهی و کاهش ضرر و زیان خود تاکید دارند از این رو  روشهای جذب مشتری و همچنین تکنیکهای جلوگیری یا کاهش زیان در سرلوحه کاری این شرکتها قرار می گیرد. از جمله شرکتهایی که بدلایل مختلف در معرض کاهش سود و یا افزایش زیان قرار می گیرند شرکتهای بیمه ای می باشند. عواملی همچون بازاریابی، وفاداری مشتریان، نرخ حق بیمه، تبلیغات، تقلب، می تواند باعث جذب یا دفع مشتری گردد که در سود و زیان تاثیر مستقیم و غیر مستقیم دارد. پرداخت خسارت نیز به عنوان تعهد شرکتهای بیمه  منجر به کاهش سود و در بعضی موارد موجب زیان یک شرکت بیمه می شود. خسارت می تواند بدلایل مختلف رخ دهد و یا عملی دیگر به گونه ای خسارت جلوه داده شود که در واقع اینچنین نیست[Derrig et. al 2006]. 

 

عواملی از قبیل فرهنگ رانندگی، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، جاده های بین شهری و خیابانهای داخل شهر که شهرداری ها و ادارات راه را به چالش می کشد، تقلب، وضعیت آب و هوا، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه [Wilson 2003]، روزهای تعطیل، مسافرتها و بسیاری موارد دیگر می توانند موجب خسارت و در نهایت افزایش زیان یک شرکت بیمه ای گردند. بیمه صنعتی سودمند، ضروری و مؤثر در توسعه اقتصادی است. این صنعت بدلیل «افزایش امنیت در عرصه های مختلف زندگی و فعالیتهای اقتصادی»، «افزایش سرمایه گذاری و اشتغال و رشد اقتصادی» و « ارتقای عدالت اقتصادی  و کاهش فقر ناشی از مخاطرات »، حائز  جایگاه مهمی در پیشرفت و تعالی یک کشور است. 

 

با وجود نقش مهم بیمه در بسترسازی و تأمین شرایط مساعد اقتصادی، وضعیت کنونی این صنعت در اقتصاد ملی با وضعیت مطلوب آن فاصله زیادی دارد. عدم آشنایی عمومی و کم بودن تقاضا برای محصولات بیمه ای، دانش فنی پایین در عرصه خدمات بیمه ای، عدم تطابق ریسک با حق بیمه، تفاوت فاحش در مقایسه معیارهای تشخیص ریسک بیمه شخص ثالث با نوع بیمه معادل در کشورهای توسعه یافته، وجود نارسایی ها در مدیریت واحدهای عرضه بیمه از دلایل عدم توسعه مناسب این صنعت در کشور است. از آنجا که بشر در طول تاریخ به کمک علم و تجربه رستگاری ها و توفیقات فراوانی  کسب کرده است، نگاه علمی تر به مشکلات این صنعت و یافتن راه حل در بستر علم می تواند راه گشا باشد. امروزه بوسیله روشهای داده کاوی ارتباط بین فاکتورهای مختلف موثر یا غیر موثر در یک موضوع مشخص می شود و با توجه به اینکه داده کاوی ابزاری مفید در استخراج دانش از  داده های انبوه می باشد که ارتباطات نهفته بین آنها را نشان می دهد، شرکتهای تجاری بازرگانی رو به این تکنیکها آورده اند. داده کاوی محدود به استفاده از فناوری ها نیست و از هرآنچه که برایش مفید واقع شود استفاده خواهد کرد. با این وجود آمار و کامپیوتر پر استفاده ترین علوم و فناوری های مورد استفاده داده کاوی است. 

 

 

 

 

 

 

 

فهرست مطالب

فصل اول:  کلیات

1-1 تعریف داده کاوی 3

1-2 تعریف بیمه 4

1-3 هدف پایان نامه 4

1-4 مراحل انجام تحقیق 4

1-5 ساختار پایان نامه 5

 

فصل دوم: ادبیات موضوع و تحقیقات پیشین

2-1 داده کاوی و یادگیری ماشین 7

2-2 ابزارها و تکنیک های داده کاوی 8

2-3 روشهای داده کاوی 9

2-3-1 روشهای توصیف داده ها 10

2-3-2 روشهای تجزیه و تحلیل وابستگی  10

2-3-3 روشهای دسته بندی و پیشگویی 10

2-3-4 درخت تصمیم 11

2-3-5 شبکه عصبی 12

2-3-6 استدلال مبتنی بر حافظه 12

2-3-7 ماشین های بردار پشتیبانی 13

2-3-8 روشهای خوشه بندی  13

2-3-9 روش K-Means 13

2-3-10 شبکه کوهنن 14

2-3-11 روش  دو گام 14

2-3-12 روشهای تجزیه و تحلیل نویز 14

2-4 دسته های نامتعادل]صنیعی آباده 1391[. 15

2-4-1 راهکار مبتنی بر معیار 15

2-4-2 راهکار مبتنی بر نمونه برداری 15

2-5 پیشینه تحقیق 16

2-6 خلاصه فصل 19

 

فصل سوم: شرح پژوهش

3-1 انتخاب نرم افزار 21

3-1-1 Rapidminer 21

3-1-2 مقایسه RapidMiner   با سایر نرم افزار های مشابه 21

3-2 داده ها 25

3-2-1 انتخاب داده 25

3-2-2 فیلدهای مجموعه داده صدور 25

3-2-3 کاهش ابعاد 25

3-2-4 فیلدهای مجموعه داده خسارت 29

3-2-5 پاکسازی داده ها 29

3-2-6 رسیدگی به داده های از دست رفته 29

3-2-7 کشف داده دور افتاده 30

3-2-8 انبوهش داده 32

3-2-9 ایجاد ویژگی دسته 32

3-2-10 تبدیل داده 32

3-2-11 انتقال داده به محیط داده کاوی 32

3-2-12 انواع داده تعیین شده 33

3-2-13 عملیات انتخاب ویژگیهای موثرتر 34

3-3 نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی 34

3-4 ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگی 36

3-5 معیارهای ارزیابی الگوریتمهای دسته بندی 37

3-6 ماتریس درهم ریختگی 37

3-7 معیار AUC 38

3-8 روشهای ارزیابی الگوریتم های دسته بندی 39

3-8-1 روش Holdout 39

3-8-2 روش Random Subsampling 39

3-8-3 روش Cross-Validation 40

3-8-4 روش Bootstrap 40

3-9 الگوریتمهای دسته بندی 41

3-9-1 الگوریتم KNN 42

3-9-2 الگوریتم Naïve Bayes 42

3-9-3 الگوریتم Neural Network 43

3-9-4 الگوریتم   SVM   خطی 45

3-9-5 الگوریتم   رگرسیون لجستیک 46

3-9-6 الگوریتم  Meta Decision Tree 47

3-9-7 الگوریتم درخت Wj48 49

3-9-8 الگوریتم درخت Random forest 51

3-10 معیارهای ارزیابی الگوریتم های مبتنی بر قانون(کشف قوانین انجمنی) 54

3-10-1 الگوریتم FPgrowth 55

3-10-2 الگوریتم Weka Apriori 55

3-11 معیارهای ارزیابی الگوریتمهای خوشه بندی 55

3-12 الگوریتم های خوشه بندی 57

3-12-1 الگوریتم K-Means 57

3-12-2 الگوریتم Kohonen 60

3-12-3 الگوریتم دوگامی 64

 

فصل چهارم: ارزیابی و نتیجه گیری

4-1 مقایسه نتایج 69

4-2 الگوریتمهای دسته بندی 69

4-3 الگوریتم های دسته بندی درخت تصمیم 70

4-4 الگوریتم های خوشه بندی 79

4-5 الگوریتم های قواعد تلازمی(مبتنی بر قانون) 81

4-6 پیشنهادات به شرکت های بیمه 81

4-7 پیشنهادات جهت ادامه کار 83

 

منابع و مأخذ

فهرست منابع فارسی 84

فهرست منابع انگلیسی 85

 

 

 

 

فهرست جدول‌ها 

جدول شماره 3-1:  نتایج رای گیری استفاده از نرم افزارهای داده کاوی 24

جدول شماره 3-2: فیلدهای اولیه داده های صدور 26

جدول شماره 3-3: فیلدهای نهایی داده های صدور 27

 جدول شماره 3-4: فیلدهای  حذف شده داده های صدور و علت حذف آنها 28

جدول 3-5:  فیلدهای استخراج شده از داده های خسارت 28

جدول 3-6: نتایج  نمودار boxplot 31

جدول 3-7: انواع داده استفاده شده 33

جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف 37

جدول 3-9: ماتریس در هم ریختگی رکوردهای تخمینی(Predicted  Records) 38

جدول 3-10: قوانین استخراج شده توسط الگوریتم Fpgrowth 55

جدول 3-11: قوانین استخراج شده توسط الگوریتم Weka Apriori 55

جدول 3-12: تنظیمات پارامترهای الگوریتم K-Means 57

اجرا برای 9 خوشه در الگوریتم K-Means 60

جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen 64

جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی 69

جدول 4-1: مقایسه الگوریتم های دسته بند 70

جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم 70

جدول 4-3: ماتریس آشفتگی قانون شماره 1 71

جدول 4-4: ماتریس آشفتگی قانون شماره 2 72

جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف 72

جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب 72

جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج 73

جدول 4-8: ماتریس آشفتگی قانون شماره 3 د 73

جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه 73

جدول 4-10: ماتریس آشفتگی قانون شماره 3 و 74

جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز 76

جدول 4-12: ماتریس آشفتگی قانون شماره 4 76

جدول 4-13: ماتریس آشفتگی قانون شماره 5 77

جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف 77

جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب 78

جدول 4-16: ماتریس آشفتگی قانون شماره7 78

جدول 4-17: ماتریس آشفتگی قانون شماره8 79

جدول 4-18: مقایسه الگوریتم های خوشه بندی 79

جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی 80

جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori 81

 

 

 

 

فهرست شکل‌ها 

شکل شماره3-1: داده از دست رفته فیلد” نوع بیمه ” پس از انتقال به محیط داده کاوی 33

شکل 3-2:  نتایج الگوریتمPCA  34

شکل 3-3:  نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها 35

شکل 3-4: نتایج الگوریتم Weighting Deviation  در ارزشدهی به ویژگی ها 35

شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها 36

شکل 3-6:  نمای کلی استفاده از روشهای ارزیابی 41

شکل 3-7:  نمای کلی استفاده از یک مدل درون یک روش ارزیابی 42

شکل 3-8:  نمودار AUC الگوریتم KNN 42

شکل 3-9:  نمودار AUC الگوریتم Naïve Bayes 43

شکل 3-10:  تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی 44

شکل 3-11:  نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net 44

شکل 3-12:  تبدیل ویژگی های غیر عددی به عدد در الگوریتم  SVM  خطی 45

شکل 3-13 :  نمودار AUC الگوریتم  SVM Linear 46

شکل 3-14 :  نمودار AUC الگوریتم  رگرسیون لجستیک 47

شکل 3-15 : نمودار AUC الگوریتم  Meta Decision Tree 48

شکل 3-16 : قسمتی از نمودارtree الگوریتم  Meta Decision Tree 49

شکل 3-17 :  نمودار radial الگوریتم  Meta Decision Tree 49

شکل 3-18: نمودار AUC الگوریتم  Wj48 50

شکل 3-19 :  نمودار tree الگوریتم  Wj48 51

شکل 3-20 :  نمودار AUC الگوریتم  Random forest 52

شکل 3-21 :  نمودار تولید 20 درخت در الگوریتم  Random Forest 53

شکل 3-22 :  یک نمونه درخت تولید شده توسط الگوریتم  Random Forest 53

شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه 57

شکل 3-24 : Predictor  Importance for K-Means 58

شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم

 K-Means 59

شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K- 60

شکل 3-27 : Predictor  Importance for Kohonen 61

شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم

 Kohonen 62

شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K- 63

شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen 63

شکل 3-31 : Predictor  Importance for  دوگامی 64

شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در

 الگوریتم دوگامی 65

شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی 66

شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت 75

 

 

 

 

  • بررسی تاثیرات نحوه مدیریت بر عملكرد کارمندان (آپدیت شده)

    بررسی تاثیرات نحوه مدیریت بر عملكرد کارمندان (آپدیت شده) تعهد سازمانی افزایش بهبود سازمانی تاثیر چگونگی مدیریت بر عملكرد كاركنان بررسی تاثیرات نحوه مدیریت بر عملكرد کارمندان بررسی چگونگی مدیریت و تاثیر آن بر عملكرد كاركنان دانلود پایان نامه مدیریت…

  • ارتباط میان فرهنگ سازمانی و کارآفرینی سازمانی

    ارتباط میان فرهنگ سازمانی و کارآفرینی سازمانی ابعاد کارآفرینی سازمانی ابعاد فرهنگ سازمانی ابعاد مختلف فرهنگ سازمانی مدل هاي فرهنگ سازماني انواع مدل های فرهنگ سازمانی مدل های مختلف فرهنگ سازمانی مدل های کارآفرینی سازمانی انواع مدل های کارآفرینی سازمانی…

  • مشکلات خصوصی سازی بانک های دولتی

    مشکلات خصوصی سازی بانک های دولتی آزاد سازی خصوصی سازی عملکرد بانک های دولتی و خصوصی چالشهای خصوصی سازی بانک های دولتی دانلود مقالات رشته اقتصاد دانلود مقالات اقتصاد مشکلات خصوصی سازی بانک های دولتی رفتن به سایت اصلی دانلود…

  • بررسی وضعیت اجتماعی،اقتصادی و مذهبی زمان عباسی

    بررسی وضعیت اجتماعی،اقتصادی و مذهبی زمان عباسی بررسی وضعیت اجتماعی زمان عباسی بررسی وضعیت مذهبی زمان عباسی بررسی وضعیت اقتصادی زمان عباسی بررسی وضعیت اجتماعی،اقتصادی و مذهبی زمان عباسی اوضاع اجتماعی، اقتصادی و مذهبی عصر عباسیان دانلود پایان نامه معارف…

  • اندازه گیری کارایی به روش تحلیل پوششی داده ها و تابع مرزی تصادفی

    اندازه گیری کارایی به روش تحلیل پوششی داده ها و تابع مرزی تصادفی روش های تحلیل نسبت مفهوم کارایی و انواع آن تفاوت بهره وری و کارایی روش های معمول در اندازه گیری کارایی اندازگیری کارائی ازطریق تابع مرزی تصادفی…

  • پایان نامه کارشناسی ارشد رشته معماری با عنوان زیباشناسی و نقش آن در معماری

    پایان نامه کارشناسی ارشد رشته معماری با عنوان زیباشناسی و نقش آن در معماری زیبا شناسی نظام‌های زیباشناسی زیبائی شناسی معماری زیبایی شناسی اسلامی نقش زیباشناسی در معماری سیستم همکاری در فروش فایل همکاری در فروش فایل فروش فایل fileina…

  • طراحی خودروی خورشیدی و تحلیل آیرودینامیکی و مکانیکی آن

    طراحی خودروی خورشیدی و تحلیل آیرودینامیکی و مکانیکی آن دانلود پروژه خودروی خورشیدی طراحی خودروی خورشیدی تحلیل مکانیکی خودروی خورشیدی تحلیل آیرودینامیکی خودروی خورشیدی نحوه تامین انرژی و عملکرد خودروی خورشیدی طراحی خودروی خورشیدی و تحلیل آیرودینامیکی و مکانیکی آن…

  • سیستم شخصی سازی شده در آموزش الكترونیكی

    سیستم شخصی سازی شده در آموزش الكترونیكی مدلسازی فراگیر elearning آموزش الكترونیكی electroniclearning سیستمهای ابر رسانه تطبیقی سیستم شخصی سازی شده سیستم همکاری در فروش فایل همکاری در فروش فایل فروش فایل fileina فروشگاه فایل خرید مقاله و تحقیق آی…

  • آثار قرارداد خريد دين در حقوق داخلی و تجارت بین الملل

    آثار قرارداد خريد دين در حقوق داخلی و تجارت بین الملل خرید دین در امور بانکی آثار فاكتورينگ خريد دين آثار فورفيتينگ خريد دين آثار خريد دين نسبت به خريدار دين آثار قرارداد خريد دين نسبت به فروشنده دين  آثار قرارداد…

  • پرسشنامه اضطراب بک 21 سوالی

    پرسشنامه اضطراب بک 21 سوالی پرسشنامه اضطراب بک doc پرسشنامه اضطراب بک word پرسشنامه اضطراب بک 21 سوالی پرسشنامه اضطراب بک روایی و پایایی پرسشنامه استاندارد اضطراب بک عکس پرسشنامه اضطراب بک مشخصات پرسشنامه اضطراب بک مولفه های پرسشنامه اضطراب…