اس، Neg. تعداد نمونه هاي منفي کلاس، Total برابر با تعداد کل نمونه ها، Imb.Ratioنسبت عدم توازن مثبت به منفي، Total classes تعداد کل کلاس ها و Positive class نشان دهنده اين است که براي هر مجموعه داده کدام کلاس به عنوان کلاس مثبت انتخاب شده است.براي مجموعه داده هايي که چندين کلاسه هستند، نمونه هايي که متعلق به ساير کلاس ها هستند (به جز کلاسي که به عنوان کلاس مثبت انتخاب شده است)، به عنوان مجموعه داده منفي در نظر گرفته ميشوند.

Positive class
Total classes
Imb.Ratio
Total
Neg.
Pos.
Dataset
5
5
98 : 2
5473
5358
115
Page-blocks
15
29
98 : 2
4177
4074
103
Abalone
5
10
97 : 3
1484
1433
51
Yeast
miRNA
2
93 : 7
9939
9248
691
miRNA
4
7
90 : 10
6435
5809
626
Satimage
2
8
77 : 23
336
259
77
Ecoli
1
2
76 : 24
748
570
178
Transfusion
2
2
74 : 26
306
225
81
Haberman
4-3 نتايج کارايي روش هاي مختلف بر روي مجموعه داده ها
نتايج تحقيقات ديگر که بر روي چندين مجموعه داده اعمال شده است را ميتوانيم در ادامه مشاهده کنيم.براي ارزيابي کارايي به طور معمول از معيار دقت استفاده ميشود.اين معيار نشان دهنده نسبت نمونه هايي است که به درستي طبقه بندي شده اند.اما زماني که مجموعه داده نامتوازن باشد، اين معيار خوبي نيست و منجر به ايجاد مدل هايي با بهينگي کمتر ميشود. در اينجا از ميانگين هندسي حساسيت(SE= تعداد داده هاي برچسب مثبتي که درست دسته بندي شده اند) و شفافيت (SP= تعداد داده هاي برچسب منفي که درست دسته بندي شده اند) استفاده ميکنيم. به طور معمول، براي ارزيابي کارايي کلاسه بند در تحقيقات مربوط به عدم توازن کلاس، از فرمول Gm=?(SP*SE) استفاده ميشود]18[،]36[.
هشت مجموعه داده انتخاب شده است و در تحقيقات پيشين روش هاي مختلفي بر آنها اعمال شده است.روش هايي شامل SVM، FSVM ، FSVM-CIL و روش هايCIL موجود براي SVM،روش هاي بيش نمونه برداري تصادفي(Over)، زيرنمونه برداري تصادفي(Under)، SMOTE، zSVM وDEC را بر روي مجموعه داده هاي نامتوازن اعمال شد.
نتايج حاصل از اعمال اين روش ها را در جدول(4-2) مي توان مشاهده کرد.از اين نتايج ميتوان دريافت که بهترين نتيجه بدست آمده با استفاده از تنظيمات FSVM، بهتر از نتايجي است که به روش SVM براي تمام مجموعه داده ها بدست آمده است زيرا FSVM در حضور نويز و داده هاي پرت، عملکرد بهتري دارد.همچنين ميتوان مشاهده کرد که در برخي مجموعه داده ها، برخي از تنظيمات FSVM بدتر از الگوريتم SVM عمل ميکند. اگر در روش FSVM تخصيص درجه عضويت به شکل نادرستي صورت پذيرد، باعث ايجاد مدل هايي با کارايي کمتر از مدل SVM ميشود.بنابراين به منظور يافتن بهترين تنظيمات FSVM بايد تمام تنظيمات موجود را بررسي کرد که خود نيازمند محاسبات بسياري است.همچنين نتايج حاصل از اعمال متدهايCIL به همراه SVM نرمال بر روي مجموعه دادهها نشان داده مي شود.همانطور که انتظار ميرفت، ميتوان فهميد که نتايج بدست آمده از اعمال تمام روش هاي عدم توازن موجود، بهتراز نتايج بدست آمده از اعمال آموزش نرمال SVM براي تمام مجموعه داده ها است.علاوه بر اين، کارايي روش هاي CIL متفاوت در مجموعه داده هاي مختلف فرق ميکند و بهترين نتيجه(بيشترين Gm) همواره با اعمال يک روش خاص بدست نميآيد. اين نتايج نشان دهنده اين واقعيت است که متدهاي CIL براي اينکه بتوانند بهترين نتيجه را بدهند به مجموعههاي داده وابسته هستند.در جدول (4-2) روش پيشنهادي با روش هاي ديگر مقايسه ميشود.

Gm=?(SP*SE) معيار اندازه گيري دقت

Class imbalanced Learning method
Dataset
Proposed method
Best FSVM-CIL
Best FSVM
Normal SVM
DEC
zSVM
SMOTE
Under sampling
Over sampling

97.066
95.19
81.63
76.14
93.95
90.28
91.29
93.13
93.34
Page-blocks
72.89
73.98
21.94
21.93
72.34
56.26
72.69
73.17
72.73
Abalone
86.779
85.03
65.11
58.68
83.66
78.89
83.23
83.31
83.77
Yeast
95.001
93.43
90.81
90.73
93.11
93.42
93.01
92.02
93.17
miRNA
93.340
94.14
82.99
81.52
90.58
86.43
87.64
89.13
88.75
Satimage
90.23
90.11
87.36
84.99
87.48
88.51
88.17
88.10
88.83
Ecoli
69.66
68.53
57.36
54.47
67.68
64.28
66.97
68.00
67.86
Transfusion
66.800
65.86
49.42
42.04
62.32
62.89
62.33
62.06
64.49
Haberman

فصل پنجم:
نتيجه گيري و پيشنهادات

5-1 جمع بندي و نتيجه گيري
هدف از اين پايان نامه ارائه روشي جهت بهبود طبقه بندي مجموعه داده هاي نامتوازن با استفاده از ماشين بردار پشتيبان است.در اين راستا فعاليت هاي مختلفي انجام شده است که در قالب چهار فصل پيشين ارائه گرديد.
در فصل اول به معرفي موضوع تحقيق پرداخته شد. در ابتدا به تشريح صورت مساله پرداخته شد و علت طرح چنين موضوعي مورد بررسي قرار گرفت.بدين منظور ابتدا مقدمه اي ارائه و سپس صورت مساله تعريف گشت.
در فصل دوم ادبيات تحقيق بيان شد.در اين فصل مفاهيم و روش هايي مانند پيش پردازش داده، روش هاي ارزيابي صحت دسته بندي، ماشين بردار پشتيبان، مجموعه داده هاي نامتوازن که آشنايي با آنها در درک و فهم موضوع مفيد است بيان شدند. سپس به بررسي تکنيک هاي پيش پردازش دادههاي نامتوازن پرداختيم و آنها را در قالب دو دسته ي متفاوت بررسي کرديم. روش هاي متفاوتي براي پيش پردازش داده ها تاکنون مطرح گرديد که عدم توجه به مساله نامتوازن بودن داده ها باعث بروز مشکلاتي شد.براي غلبه بر عدم توازن کلاس از برخي روشهاي نمونه برداري استفاده ميشود.اين روشها اگرچه باعث اصلاحـات مجموعه داده نامتوازن ميشوند اما ممکن است باعث حذف نمونه هاي با اهميت شوند.ماشين بردار پشتيبان در برخورد با مجموعه داده هاي متوازن به خوبي عمل ميکند اما در مواجهه با مجموعه دادههاي نامتوازن، نتايج کمتر از حد مطلوب توليد ميکند. در طول سال هاي اخير چندين رويکرد مبتني بر ماشين بردار پشتيبان براي برطرف نمودن ضعفها بيان گرديد که در برخي موارد بهبود حاصل شد. SVM علاوه بر عدم تعادل، به نويز و داده هاي پرت موجود در مجموعه داده نيز حساس است.بنابراين مي توان ادعا کرد که اگرچه روش هاي يادگيري عدم تعادل موجود ميتوانند باعث کاهش حساسيت الگوريتم SVM به عدم توازن شوند، اما اين الگوريتم هنوز به نويز و داده هاي پرت موجود در مجموعه داده حساس است که هنوز باعث توليد مدل هايي با بهينگي کمتر از حد مطلوب ميشود.در واقع برخي از روش هاي يادگيري عدم تعادل مانند بيش نمونه برداري تصادفي و SMOTE، با تکثير نمونه هاي نويزي و داده هاي پرت موجود، ميتوانند مشکل را بدتر کنند.بنابراين براي رفع مشکل فوق تغييراتي در الگوريتم ماشين بردار پشتيبان انجام شد که از آن جمله ميتوان به ماشين بردار پشتيبان فازي و ماشين بردار پشتيبان حداقل مربعات اشاره کرد.
فصل سوم که به نوعي مهمترين بخش اين پايان نامه را شامل ميشود، به معرفي رويکرد پيشنهادي اختصاص داده شده است.در فصل سوم روش پيشنهادي ارائه شد.ابتدا به توضيح دو الگوريتم ماشين بردار پشتيبان فازي و ماشين بردار پشتيبان حداقل مربعات پرداختيم و پس از آن روش پيشنهادي ذکر گرديد. در الگوريتم پيشنهادي از ترکيب دو روش استفاده ميشود.بدين صورت که ابتدا داده ها را با استفاده از روش تبديل سريع فوريه( FFT142 )تبديل ميکنيم.سپس LS-SVM را بر روي آن اعمال مينماييم.

در فصل چهارم نتايج و يافته هاي تحقيق ارائه گرديد.به منظور ارزيابي روش پيشنهادي، نتايج اين روش با ساير روش هاي موجود مورد مقايسه قرار گرفت و شاخصي براي ارزيابي انها تعيين گرديد.روش پيشنهادي بر روي مجموعه داده هاي متفاوتي اعمال شد و شاخص مورد نظر محاسبه گرديد. اين شاخص از طريق ميانگين هندسي حساسيت(تعداد داده هاي برچسب مثبتي که درست دسته بندي شده اند) و شفافيت (تعداد داده هاي برچسب منفي که درست دسته بندي شده اند) محاسبه ميشود. براي اين کار هشت مجموعه داده انتخاب شد و در تحقيقات پيشين روش هاي مختلفي بر آنها اعمال شد.روش هايي شامل SVM، FSVM ، FSVM-CIL و روش هايCIL موجود براي SVM،روش هاي بيش نمونه برداري تصادفي(Over)، زيرنمونه برداري تصادفي(Under)، SMOTE، zSVM وDEC بر روي مجموعه داده هاي نامتوازن اعمال شد.
با بررسي نتايج حاصل از اعمال اين روشها بر روي مجموعه دادهها ميتوان دريافت که الگوذيتم پيشنهادي نتايج بهتري را در مقايسه با ساير روشها ارائه داده است.
5-2 کارهاي آتي
در اين تحقيق الگوريتمي بهبود يافته براي مجموعه داده هاي نامتوازن با استفاده از ماشين بردار پشتيان ارائه شد.از نتايج بدست آمده ميتوان نتيجه گرفت که روش ارائه شده نتايج طبقه بندي بهتري را نسبت به روش هاي يادگيري عدم توازن موجود که براي آموزش SVM نرمال به کار ميروند، ارائه ميدهد.
ميتوان کارهايي را در راستاي اين روش براي بهبود نتايج استفاده کرد . ما در اينجا پيشنهادات زير را مطرح مي کنيم.
نخست آنکه ميتوان به جاي تبديل فوريه سريع از تبديل موجک استفاده کرد.در واقع براي تبديل داده ها به فرکانس ديگر تبديل موجک را جايگزين تبديل سريع فوريه کرد.
دوم انکه ميتوان براي پياده سازي از روش پياده سازي موازي استفاده کرد.
همچنين ميتوان به جاي تکنيک حداقل مربعات که در تابع هدف SVM استفاده شده است، از تکنيک Minko-SVM و يا همچنين ?SVM?_? استفاده کرد. در روش حداقل مربعات از خطاي کمترين مربعات، يعني استفاده ميشود.در روش Minko-SVM به جاي توان دو ميتوان از متغير P استفاده کرد.اين متغير ميتواند مقادير متفاوتي را به خود اختصاص دهد.همچنين در روش ?SVM?_? از ماکسيمم قدر مطلق فاصله ها استفاده ميشود.روش هاي گفته شده نيازمند محاسبات بيشتري است اما دقت کار را افزايش ميدهد.

منابع و مآخذ :
[1]غضنفري، م؛ عليزاده، س؛ تيمورپور، ب: “داده کاوي و کشف دانش.” دانشگاه علم و صنعت ايران، تهران، 1387
]2[ حمزه ئي، م؛ اکبرزاده،م: “استفاده از خوشه بندي براي کلاسه بندي داده هاي نامتوازن”، دومين کنفرانس داده کاوي ايران، تهران، دانشگاه صنعتي اميرکبير، موسسه پژوهشي داده پردازان گيتا،1387 http://www.civilica.com/Paper-IDMC02-IDMC02_141.html
]3[خليقي، س؛ جم زاد،م:” آشکارسازي هيجانات چهره با استفاده از چهره هاي ويژه و ماشين هاي بردار پشتيبان فازي”، سومين کنفرانس ماشين بينايي و پردازش تصوير، تهران، دانشگاه تهران،1383 http://www.civilica.com/Paper-ICMVIP03-ICMVIP03_062.html
[4]بابايي، م؛ صفاريزدي، ز؛ سرايي،م : “معرفي و مقايسه روش هاي پيش پردازش داده براي کاربردهاي مختلف داده کاوي”، دومين کنفرانس داده کاوي ايران، تهران، دانشگاه صنعتي اميرکبير، موسسه پژوهشي داده پردازان گيتا،1387http://www.civilica.com/Paper-IDMC02-IDMC02_080.html
[5] آذر،ع:” طراحي مدل رياضي برنامه ريزي هزينه در سازمانهاي دولتي_رويکرد قطعي فازي”،رساله دوره دکتري مديريت، دانشگاه تهران، 1374

]6[ اخباري، م؛ اخباري، م: “کاربرد رويکرد منطق فازي در مدلسازي اقتصاد غيررسمي در ايران”.فصلنامه روند پژوهشهاي اقتصادي،سال نوزدهم، شماره59، 167-131، 1390
]7[ غفارزاده، ه : “دسته بندي زيردريايي ها با استفاده از سيستم هاي فازي”، پروژه دوره کارشناسي مهندسي کامپيوتر، دانشگاه اراک، 1388
]8[ رجبي، م؛ بهلولي، ب ؛ موسوي، ج: “تخمين

دسته بندی : No category

دیدگاهتان را بنویسید