ز کلاسه بندهاي SVM توسعه داده شده و هر کدام از آنها با مجموعه داده مثبت يکسان و زير مجموعه داده منفي متفاوت آموزش داده ميشوند.در نهايت با استفاده از روشي مانند راي گيري اکثريت101، تصميمات اتخاذ شده توسط کلاسه بندها با يکديگر ترکيب ميشوند]20[.
در واقع روش هاي يادگيري جمعي به طور وسيعي در ارتباط با مشکل عدم توازن کلاس به کار مي روند. اين روش ها، نتايج کلاسه بند ها را با هم ترکيب ميکنند.در اين گروه، روش هاي Boosting و Bagging جز برتـرين روش ها هستند.در ادامـه برخي از روش هـاي اين گروه را مختصر توضيح ميدهيم.
2-9-2-2-1الگوريتم آموزشي Bagging
اين الگوريتم از مفهوم Bootstrap Aggregatingدر ايجاد تخمينهاي مختلف استفاده نموده است. اصولاً ميتـوان از تـکنيک فوق به منـظور ارزيابي دقت تخمينهاي بکار گرفته شده در روشهاي دادهکاوي از طريق نمونه برداري با جايگزيني از داده‌هاي آموزشي استفاده نمود. در اين تکنيک فرض بر آنست که مجموعه‌داده هاي آموزشي نماينده جامعه تحت بررسي بوده و انواع حالات تحقق يافته جامعه را ميتوان از اين مجموعه داده شبيه سازي نمود. بنابراين با استفاده از دوباره نمونه برداري توسط به کارگيري مجموعه داده‌هاي مختلف تنوع مورد نياز حاصل خواهد شد و زماني که يک نمونه جديد وارد هرکدام از کلاسه بندها مي‌شود، توافق اکثريتي به کار گرفته مي‌شود تا کلاس مورد نظر تشخيص داده شود.به عنوان يک روش از bagging ميتوان pasting small votes را نام برد که عموما براي مجموعه داده‌هاي حجيم طراحي شده است. اين مجموعه داده‌ها به زيرمجموعه‌هاي کوچکتري تقسيم مي‌شوند که به منظور آموزش دسته‌کننده‌هاي گوناگون به کار مي‌رود. در اين حالت دو نوع مختلفRvotes و Ivotes وجود دارند که اولين مقدار، زيرمجموعه‌هايي به صورت تصادفي ايجاد مي‌کند و دومين مقدار زيرمجموعه‌هاي متوالي بر پايه اهميت اين نمونه‌ها ايجاد مي‌کند.نمونه‌هاي مهم هم آن نمونه‌هايي هستند که موجب افزايش تنوع در مجموعه داده مي‌شوند.استفاده از توزيع موزون داده‌هاي ضعيف و سخت است که باعث ساخت مجموعه داده مي‌شود.داده‌هاي سخت102توسط کلاسه بندهاي out-of-bag شناسايي مي‌شوند، به طوري که زماني يک نمونه “سخت” در نظر گرفته مي‌شود که توسط ensemble به صورت اشتباه کلاسه بندي شده است. اين داده‌هاي سخت هميشه به مجموعه داده‌هاي بعدي اضافه مي‌شوند در حالي که داده‌هاي آسان شانس کمي براي داخل شدن به مجموعه داده‌ها را دارند]15[.
2-9-2-2-2 الگوريتم آموزشي Boosting
الگوريتم Boosting اثبات ميکند که يک کلاسه کننده ضعيف زماني مي‌تواند تبديل به يک کلاسه‌کننده قوي شود که در قالب تشخيص احتمالا درست(PAC)103 قرار گيرد.يکي از معروف‌ترين الگوريتم‌هاي اين خانواده AdaBoost مي‌باشد که جزء 10 الگوريتم برتر داده کاوي محسوب مي‌شود. در اين روش، اريبي در کنار واريانس کاهش مي‌يابد و مانند ماشين‌هاي بردار پشتيبان حاشيه‌ها افزايش مي‌يابند. اين الگوريتم از کل مجموعه داده به منظور آموزش هر دسته‌کننده استفاده مي‌کند، اما بعد از هر بار آموزش، بيشتر بر روي داده‌هاي سخت تمرکز مي‌کند تا به درستي کلاسه بندي شوند. اين روش تکراري تغيير انطباقي به توزيع داده هاي آموزش با تمرکز بيشتر بر روي نمونه هايي است که قبلا بطور صحيح کلاس بندي نشده اند. در ابتدا تمام رکوردها وزن يکساني ميگيرند و بر خلاف Bagging وزن ها در هر تکرار افزايش پيدا خواهند کرد. وزن نمونه هايي که به اشتباه طبقه بندي شده اند افزايش خواهد يافت در حالي که وزن آن دسته از نمونه‌هايي که به درستي کلاس بندي شده اند کاهش خواهد يافت. سپس وزن ديگري به صورت مجزا به هر دسته‌کننده با توجه به دقت کلي آن اختصاص داده مي‌شود که بعدا در فاز تست مورد استفاده قرار مي‌گيرد. کلاسه بندهاي دقيق از ضريب اطمينان بالاتري برخوردار خواهند بود. در نهايت هنگام ارائه يک نمونه جديد هر کلاسه بند يک وزن پيشنهاد مي‌دهد و برچسب کلاس با رأي اکثريت انتخاب خواهد شد]15[.
همچنين الگوريتمهاي Boosting مانند Adacost ]21[، ]RareBoost22[، وSMOTEBoost ]23[، که با تنظيمات جمعي104 براي يادگيري عدم توازن کلاس استفاده شده اند،نيز ميتوانند براي SVM بکار گرفته شوند.
AdaBoost : بسياري از مشکلات عملي الگوريتم هاي Boosting را حل کرده است.در اين روش در ابتدا همه وزن ها يکسان هستند، اما در هر دور، وزن نمونه هايي که به اشتباه طبقه بندي شدند افزايش مي يابند و اين باعث ميشود که يادگيرنده تمرکز بيشتري بر روي نمونه هاي سخت داشته باشد.
Rare-Boost : نمونه هاي مثبت-غلط را نسبت به نمونه هاي مثبت-درست مورد سنجش قرار ميدهد تا مشخص شود که اين نمونه ها تا چه اندازه به درستي تشخيص داده شده اند و همچنين نمونه هاي مثبت-غلط را نسبت به نمونه هاي منفي-درست نيز مورد سنجش قرار مي دهد.
يکي ديگر از الگوريتم هايي که از روش Boosting براي مقابله با مشکل عدم توازن کلاس استفاده ميکند، الگوريتم SMOTEBoost است.اين الکوريتم تشخيص داد که Boosting ممکن است مانند روش بيش نمونه برداري از مشکل بيش برازش رنج ببرد.در SMOTEBoost ، براي ايجاد تغيير در توزيع داده ها از روش بروز رساني وزن مربوط به هر نمونه استفاده نميشود، بلکه در اين روش با استفاده از الگوريتم SMOTE، نمونه هاي جديدي به کلاس اقليت اضافه ميشود و از اين طريق باعث ايجاد تغيير در توزيع داده ميشود.

2-9-3 روشهاي يادگيري عدم تعادل داخلي105 براي ماشين بردار پشتيبان(روشهاي الگوريتميک)
در اين بخش براي کاهش حساسيت الگوريتم SVM به عدم تعادل کلاس، تغييرات الگوريتمي پيشنهاد ميشود.
2-9-3-1 هزينه خطاي متفاوت106
همانطور که در بخش 2-8-1 بيان شد، دليل اصلي حساسيت الگوريت SVM به عدم توازن کلاس اين است که تابع هدف حاشيه نرم که در معادله (2-34) ارائه شد، براي طبقه بندي اشتباه منفي107 و طبقه بندي اشتباه مثبت108 هزينه يکساني را در نظر مي گيرد. اين امر باعث ميشود که ابرصفحه جداکننده به سمت کلاس اقليت انحراف پيدا کند و مورب109 شود که نهايتا منجر به توليد مدلي با بهينگي کمتر از حد مطلوب110 مي شود.
متد DEC يک روش يادگيري حساس به هزينه است که براي غلبه بر اين مشکل SVM ارائه شده است]16[.در اين روش، تابع هدف حاشيه نرم111SVM ، تغيير ميکند و دو هزينه متفاوت براي طبقه بندي اشتباه اختصاص ميدهد.به طوري که C^+ ، هزينه طبقه بندي اشتباه براي نمونه هاي کلاس مثبت، و C^- ، هزينه طبقه بندي اشتباه براي نمونه هاي کلاس منفي است.فرمول (2-35) زير اين شرايط را نشان ميدهد.

ما در اينجا کلاس مثبت را به عنوان کلاس اقليت، و کلاس منفي را به عنوان کلاس اکثريت در نظر ميگيريم.اگر براي طبقه بندي اشتباه نمونه هاي کلاس اقليت، هزينه بيشتري را نسبت به نمونه هاي کلاس اکثريت اختصاص دهيم(C^+C^-)، اثر عدم توازن کلاس کاهش مي يابد.بنابراين الگوريتم SVM اصلاح شده تمايلي ندارد که براي کاهش misclassification کلي، ابرصفحه جداکننده را به سمت نمونه هاي کلاس اقليت انتقال دهد زيرا اکنون به نمونه هاي کلاس اقليت، هزينه misclassification بيشتري اختصاص داده شده است.
فرم لاگرانژ دوگانه112 براي تابع هدف تغيير يافته را ميتوان به صورت زير بيان کرد:

?_i^+و ?_i^-ضرايب لاگرانژ را براي نمونه هاي مثبت و منفي نشان ميدهد.اين مشکل بهينه سازي دوگانه را ميتوان همانند مشکل بهينه سازي SVM نرمال حل کرد]20[.
با استفاده از روش DEC، و در صورتي که C^-?C^+ مساوي با نسبت کلاس اقليت به کلاس اکثريت تنظيم شود، ميتوان نتايج طبقه بندي مناسبي را بدست آورد]18[.
2-9-3-2 يادگيري يک کلاس113
دو روش متعادل سازي مجدد114 براي آموزش SVM با مجموعه داده هاي بسيار نامتوازن ارائه شده است.روش اول مدل SVM را تنها با نمونه هاي کلاس اقليت آموزش ميدهد]24[. در روش دوم، متد DEC توسعه داده شده است و در آن هزينه طبقه بندي اشتباه براي نمونه هاي کلاس اکثريت C^(- )=0 و هزينه طبقه بندي اشتباه براي نمونه هاي کلاس اقليت1?N^+ =C^+ اختصاص داده شده است.N^+تعداد نمونه هاس کلاس اقليت است]25[.نتايج تجربي بدست آمده از مجموعه داده هاي به شدت نامتوازن در دنياي واقعي و همچنين مجموعه هاي ساختگي، نشان ميدهد که اين روشها از متدهاي معمول متعادل سازي مجدد موثرتر هستند.
2-9-3-3zSVM
zSVM يکي ديگر از روش هاي اصلاح الگوريتمي براي SVM است که براي يادگيري از مجموعه داده هاي نامتوازن پيشنهاد شده است]26[.در اين روش در ابتدا يک مدل SVM با استفاده از مجموعه داده نامتوازن آموزشي115 اصلي توسعه داده شده است.پس از آن مرز تصميم گيري116 مدل حاصل اصلاح شده است تا تمايل و سوگيري117 آن به سمت کلاس اکثريت (منفي) حذف شود. تابع تصميم گيري SVM استاندارد داده شده در فرمول (2-33)را در نظر بگيريد که ميتواند به صورت زير باز نويسي شود :

که?_i^+ ضريب بردارهاي پشتيبان مثبت، و?_i^-ضريب بردارهاي پشتيبان منفي است.M1و M2 نيز بيانگر تعداد نمونه هاي آموزشي مثبت و منفي هستند.در اين روش، شدت مقادير?_i^+ از بردارهاي پشتيبان مثبت، با ضرب همه آنها در مقدار کوچک مثبتي به نام z ، افزايش مي يابد.سپس تابع تصميم تغييريافته را ميتوان به شرح زير بيان کرد :

اين تغيير باعث افزايش وزن بردارهاي پشتيبان مثبت در تابع تصميم گيري مي شود و درنتيجه تمايل به سمت کلاس منفي اکثريت کاهش مييابد.
2-9-3-4 روشهاي اصلاح کرنل 118
در اين روش ها، حساسيت الگوريتم SVM نسبت به عدم توازن کلاس از طريق اصلاح عملکرد تابع هسته مرتبط119 کاهش مييابد.از جمله اين روش ها ميتوان به همترازي مرز کلاس120 ،همترازي هدف کرنل121درجه بندي حاشيه 122 اشاره کرد.در بسط اين روش، تابع هدف SVM به گونه اي تغيير مييابد که اين تغيير هم بر حسب جريمه و هم بر حسب حاشيه خواهد بود.در اين صورت اگر در مرز تصميم سوگيري وجود داشته باشد، ميتوان آن را بهبود داد]29[.همچنين تکنيک هايي در زمينه کلاسه بندهاي مبتني بر کرنل123 ارائه شده است که برخي عبارتند از: الگوريتم ساخت کلاسه بند کرنل بر حسب OFS124 و براوردکننده 125ROWLS ، الگوريتم KNG126براي خوشه بندي نامتوازن]30[، الگوريتم P2PKNNC بر مبناي K نزديک ترين همسايه و الگوي ارتباطيp2p ]31[، ماشين بردار رابط127AdaBoost ]32[ و موارد ديگر.
2-9-3-5 يادگيري فعال128
روش هاي يادگيري فعال نيز به عنوان روشي براي حل مشکل عدم توازن براي SVM ، ارائه شده است و با روش هاي مرسوم متفاوت است.استراتژي يادگيري فعال موثري براي غلبه بر مشکل ارائه شده است.اين روش به صورت متناوب از بين داده آموزشي مشاهده نشده، نزديک ترين نمونه به ابر صفحه جدا کننده را انتخاب ميکند و ان را به مجموعه آموزشي مي افزايد.اين کار براي اموزش مجدد کلاسه بند صورت ميگيرد.با انتخاب معيار توقف زودهنگام، اين متد ميتواند زمان آموزش را به طرز قابل توجهي در مجموعه داده هاي نامتوازن بزرگ مقياس کاهش دهد]33[.
2-9-3-6 روش هاي ترکيبي
علاوه بر روش هاي بالا، روشي تحت عنوان FSVM-CIL ارائه شده است که از مفاهيم فازي براي برخورد با مشکل عدم توازن کلاس استفاده ميکند که در فصل بعد به مرور آن ميپردازيم.همچنين برخي روشها براي حل مشکل عدم توازن از ترکيب روشهاي خارجي و داخلي استفاده کردند.به عنوان مثال، روش HKME129، براي حل اين مشکل از ترکيب SVM استاندارد باينري و کلاسه بند one-class SVM استفاده ميکند]35[.
در روشي ديگر، الگوريتم SMOTE با متدDEC ترکيب شده است که کارايي بهتري را نسبت

دسته بندی : No category

دیدگاهتان را بنویسید