که در يک خط قرار دارند، ميتوانيم نمونه هاي جديدي بسازيم. در واقع زماني که ما براي ايجاد نمونه هاي جديد، از روش درون يابي نمونه ها استفاده کنيم(به جاي کپي کردن نمونه ها)، اين کار از بيش-برازش جلوگيري ميکند و باعث ميشود که مرز تصميم به سمت فضاي کلاس اکثريت برود.
تشخيص نمونه هايي که نزديک به مرز کلاس ها قرار دارند بسيار مهم است و اين نمونه ها ممکن است به آساني به شکل نادرستي طبقهبندي شوند.بنابراين روشي تحت عنوان Borderline_SMOTE ارائه شد. در اين روش بيش نمونه برداري تنها بر نمونه هاي مرزي در کلاس اقليت اعمال ميشود]38[.
به خصوص روشي تحت عنوان بيش نمونه برداري متمرکز در سال 2010 با عملکرد کارا براي SVM ارائه شده است]19[.در اين روش، ابتدا ابر صفحه جدا کننده ( که توسط آموزش مدل SVM بر روي مجموعه داده اصلي نامتوازن ايجاد شده)، براي انتخاب نمونه هايي استفاده ميشود که اين نمونه ها حاوي اطلاعات مفيدي هستند.اين نقاط داده در اطراف ناحيه مرزي کلاس88 قرار دارند.پس از آن برخلاف روش بيش نمونهبرداري کورکورانه(که براي تمام نمونه هاي مجموعه داده انجام ميشود)، در اين روش فقط اين نمونه هاي انتخاب شده توسط روش Oversampling متعادل ميشوند.اين متد، زمان مورد نياز براي آموزش SVM را کاهش ميدهد و نتايج حاصل با روش بيش نمونه گيري اصلي قابل مقايسه است]19[.
2-9-2-1-3 SCM89
يکي ديگر از روشهاي نمونه برداري مجدد متمرکز90، روشSCM است.اين روش در ابتدا نمونه ها را با استفاده از متد خوشهبنديkernel-k-means به خوشه هاي مجزا پارتيشنبندي ميکند.سپس با استفاده از نمونه هاي مثبت و نمايندگاني از خوشه هاي منفي، مدل SVM اوليه را اموزش ميدهد.يعني نمونه هاي داده بيانگر مراکز خوشه هستند.با استفاده از اين SVM اوليه، بردارهاي پشتيبان و بردارهاي غيرپشتيبان تقريبا شناسايي ميشوند. سپس براي حذف نمونه هايي که به احتمال زياد بردارهاي غير پشتيبان هستند، از يک تکنيک کاهش91 استفاده ميشود. رويه خوشهبندي و تکنيک کاهش چندين بار اعمال ميشود تا به همگرايي92 دست يابيم]20[.
2-9-2-1-4 نمونه برداري پيشرفته
روشهاي نمونهبرداري پيشرفته نيز وجود دارد . يکي از آنها الگوريتم Boosting است.Boosting يک الگوريتم تکرارشونده است که در هر تکرار وزن هاي متفاوتي را به توزيع ها اختصاص ميدهد. Boosting بعد از هر تکرار، وزن نمونه هايي را که به نادرستي طبقه بندي شده اند افزايش داده و وزن نمونههايي را که به درستي طبقه بندي شدهاند کاهش ميدهد. اين امر باعث ميشود که در تکرار بعدي، توجه يادگيرنده بيشتر بر روي نمونههايي که به نادرستي طبقه بندي شدهاند متمرکز شود.توجه داشته باشيد که اين الگوريتم به طور موثري باعث تغيير در توزيع داده هاي آموزشي ميشود.بنابراين ميتوان آن را به عنوان يکي از روش هاي نمونه برداري پيشرفته در نظر گرفت.
2-9-2-1-5 تکنيک بيش نمونه برداري اقليت مصنوعي93
در اين روش براي افزايش نمونه ها در کلاس اقليت به توليد نمونه هاي مصنوعي ميپردازيم. بيش نمونه برداري با تکرار(که از طريق کپي کردن نمونه هاي کلاس اقليت ، آنها را تکثير ميکند) به طور بالقوه ميتواند منجر به بيش برازش نمونه هاي کلاس اقليت شود.براي غلبه بر اين مشکل و گسترش ناحيه تصميم گيري کلاس اقليت از روش ايجاد نمونه هاي مصنوعي استفاده ميکنيم که در اين روش به جاي استفاده از فضاي داده، از فضاي ويژگي استفاده مي شود. درواقع هر نمونه از کلاس اقليت انتخاب شده و نمونه هاي مصنوعي با در نظر گرفتن همه/هر K نزديک ترين نمونه از کلاس اقليت که در امتداد خطي به هم ميپيوندند، توليد ميشوند.بسته به ميزان بيش نمونه برداري مورد نياز، همسايگاني از K نزديک ترين همسايه انتخاب ميشوند.نمونه مصنوعي به صورت زير توليد مي شود : ابتدا نگاهي به تفاوت بين بردار ويژگي ( نمونه ) مورد نظر و نزديکترين همسايه آن مي اندازيم. سپس اين تفاوت در عددي تصادفي بين صفر تا يک ضرب شده و آن را به بردار ويژگي اضافه ميکنيم. به طور معمول، نمونه برداري با تکرار باعث ايجاد مناطقي کوچک براي تصميم گيري ميشود اما با استفاده از نمونه هاي مصنوعي مناطق بزرگتري براي تصميم گيري خواهيم داشت]38[.
هنگامي که مجموعه هاي داده به شدت اريب هستند، براي بهبود تعميم يادگيرنده از ترکيب روشهاي بيش نمونه برداري و زيرنمونه برداري استفاده ميشود.به عنوان مثال زماني که مجموعه داده به شدت نامتوازن است و يا نمونه هاي کمي براي کلاس اقليت وجود دارد، ميتوان با ترکيب روش هاي SMOTE و Tomek Link ، و همچنين ترکيب روش هاي SMOTE و ENN به نتيجه بهتري دست يافت]36[.
2-9-2-1-6 نزديک ترين همسايه فشرده94(CNN)
رويکرد اصلي روش CNN مانند روش نزديک ترين همسايگي(NN)95 است اما تنها از زيرمجموعهاي از نمونه هاي آموزشي استفاده ميکند.اين زيرمجموعه زماني که به عنوان يک مجموعه مرجع ذخيره شده براي تصميم گيري نزديک ترين همسايگي مورد استفاده قرار گرفت، باعث شد که تمام نمونه هاي متعلق به مجموعه آموزشي اصلي به درستي طبقه بندي شوند.
در روش نزديک ترين همسايگي، نمونه ورودي به دسته اي اختصاص مييابد که اکثريت را در N همسايه نزديک اين نمونه دارد.قاعده ساده و در عين حال قدرتمند است و زماني که تعداد نمونهها نامحدود باشد، ريسک اين روش هرگز بدتر از دوبرابر ريسک روش bayes نيست.اما براي طبقه بندي يک نمونه آزمون، بايد تمام نمونه هاي برچسب دار مجموعه آموزشي جستجو شوند.روش NN انباره بزرگ و نيازهاي محاسباتي را تحميل ميکند]39[.
روش CNN براي کاهش و خلاصه کردن مجموعه اموزشي و پيدا کردن مهم ترين مشاهدات به کار ميرود که از اين مشاهدات براي طبقه بندي هر مشاهده جديد استفاده خواهد شد.اين امر به شدت تعداد مقايسه ها براي طبقه بندي يک مشاهده جديد را ميکاهد، در حالي که دقت را تنها کمي کاهش ميدهد.
روش کار بدين صورت است که داده ها به 3 نوع متفاوت تقسيم ميشوند:
Outliers : يک داده پرت مشاهده اي است که بطور غير عادي يا اتفاقي از وضعيت عمومي دادههاي تحت آزمايش و نسبت به قاعده اي که براساس آن آناليز ميشوند، انحراف داشته است.
Prototype : حداقل مجموعه آموزشي که مورد نياز است تا همه نقاط غير پرت ديگر به درستي تشخيص داده شوند.
Absorbed points : نقاطي که پرت نيستند و بر اساس مجموعه نقاط پروتوتايپ به درستي تشخيص داده ميشوند.
بنابراين ما فقط نياز به مقايسه مشاهدات جديد با نقاط پروتوتايپ داريم.
الگوريتم اين روش به صورت زير خلاصه ميشود :
نقاط موجود در مجموعه آموزشي را به نوبت حذف کرده، و سپس چک ميکنيم آيا کلاس آن به درستي تشخيص داده شده يا خير؟
اگر چنين باشد آن نقطه را دوباره در مجموعه قرار مي دهيم
اگر نباشد، پس نتيجه ميگيريم که داده اي پرت است و نبايد در مجموعه گذاشته شود.
يک پايگاه داده جديد ايجاد کرده و نقطه اي تصادفي به آن اضافه ميکنيم.
تمام نقاط موجود در مجموعه اصلي را انتحاب ميکنيم،و سپس چک ميکنيم که آيا بر اساس نقاط موجود در پايگاه داده جديد کلاس اين نقاط به درستي تشخيص داده شده است؟، از KNN=1 استفاده ميکنيم،
اگر چنين است نتيجه ميگيريم که اين يک نقطه جذب است و ميتوانيم آن را از پايگاه داده جديد کنار بگذاريم
اگر چنين نباشد بايد از مجموعه اصلي حذف شود و به پايگاه داده جديد از پروتوتايپ اضافه شود.
به همين منوال در مجموعه اصلي پيش مي رويم.
مراحل 3 و4 را تکرار کنيد تا زماني که هيچ نمونه پروتوتايپ جديدي اضافه نشود]39[.
اين الگوريتم به زمان اجراي زيادي نياز دارد زيرا بايد تکرارها نگه داشته شود. همچنين CNN کاملا تحت تاثير داده هاي مغشوش در مجموعه آموزشي قرار ميگيرد.
2-9-2-1-7 نزديک ترين همسايه تغيير يافته(ENN)96
بر اساس روش ENN ويلسون، قانون پاک سازي همسايه براي حذف و يا از بين بردن نمونه هاي کلاس اکثريت پيشنهاد شده است.در اين روش به منظور زير نمونه برداري داده ها ، نمونه هاي نويزي از کلاس اکثريت حذف ميشوند.در اين روش اگر برچسب نمونه اي با حداقل دو همسايه (از سه نزديکترين همسايه) متفاوت باشد، آنگاه اين نمونه حذف ميشود. حالت متفاوتي از ENN ،97NCL ناميده ميشود. در اين روش در زمان پاکسازي مجموعه داده، با نمونه هاي کلاس اقليت و اکثريت به صورت جداگانهاي رفتار ميشود.NCL براي حذف نمونه هاي اکثريت از روش ENN استفاده ميکند.براي هر نمونه Ei در مجموعه آموزشي، سه نزديکترين همسايگان آن يافت ميشود. اگر Ei متعلق به طبقه اکثريت است و طبقه بندي ارائه شده توسط سه نزديکترين همسايه، با طبقه اصلي Ei در تضاد باشد، آنگاه Ei حذف ميشود.اگر Ei متعلق به کلاس اقليت است و سه نزديکترين همسايگان آن، Ei را به نادرستي طبقه بندي کنند، سپس نزديک ترين همسايگان متعلق به کلاس اکثريت حذف خواهند شد ]36[.
2-9-2-1-8 Tomek-Link
اين روش، يکي از تکنيک هاي پاکسازي داده است که براي حذف همپوشاني به کار ميرود.در اين روش به نمونه هايي که در نزديکي مرز قرار دارند توجه بيشتري ميشود.به عنوان مثال ، دو نمونه Ei و Ej را در نظر بگيريد که به کلاس هاي متفاوت تعلق دارند.,d( Ej, Ei) فاصله اين دو نمونه را نشان ميدهد.جفت. ( Ei, Ej) يک Tomek Link ناميده ميشود اگر نمونه اي مانند E1 وجود نداشته باشد، به طوري که d(Ei,E1) d(Ei, Ej) or d(Ej , E1) d(Ei, Ej). اگر دو نمونه يک Tomek Linkرا تشکيل دهند، آنگاه يکي از اين نمونه ها نويز است يا هر دو در کنار مرز قرار دارند.بنابراين ميتوانيم از Tomek Link ها براي پاکسازي همپوشاني هاي ناخواسته بين کلاس ها استفاده کنيم و همه Tomek Link ها حذف ميشوند تا زماني که همه جفت هاي نزديک ترين همسايه، عضو يک کلاس باشند.لازم به ذکر است که Tomek Link، NCL و ENN بسيار وقت گير هستند زيرا بايد براي هر نمونه موجود در مجموعه داده، نزديک همسايگان آن را يافت. بنابراين براي مجموعه داده هاي بزرگ قابل استفاده نيستند]36[.بنابراين با حذف نمونه هاي همپوشان ميتوانيم خوشه هاي خوش تعريفي در مجموعه آموزشي ايجاد کنيم که به نوبه خود ميتواند منجر به بهبود کارايي طبقه بندي شود.شکل (2-17) روش Tomek Link را نشان مي دهد. برخي از کارهاي ترکيبي انجام شده در اين زمينه عبارتند از : نزديک ترين همسايه فشرده و Tomek Link (Tomek Link +CNN) ، ترکيب SMOTE و ENN (SMOTE+ENN)، و همچنين ترکيب SMOTE و Tomek Link (SMOTE+Tomek Link). به عنوان مثال شکل (2-17) روش ترکيبي SMOTE+Tomek Link را براي حذف نقاط داده همپوشان نشان ميدهد]15[. در قسمت (a) توزيع مجموعه داده اصلي نشان داده شده است که داراي همپوشاني در نمونه هاي اقليت و اکثريت است. شکل (b)توزيع مجموعه داده بعد از اعمال روش SMOTE را نشان مي دهد.شکل(c)، Tomek Link ها را در کادري مشخص کرده است و شکل (d) مجموعه داده را پس از اعمال پاکسازي نشان ميدهد.

2-9-2-2 روشهاي يادگيري جمعي98
يادگيري جمعي نيز به عنوان يک راه حل براي آموزش SVM با مجموعه داده نامتوازن بکار ميرود. به طور کلي، در اين روشها، مجموعه داده هاي طبقه اکثريت به چندين زير مجموعه داده99 تقسيم ميشوند به طوري که هر يک از اين زير مجموعه داده ها داراي تعداد يکساني از نمونه ها به عنوان نمونه هاي طبقه اقليت هستند.(تعداد نمونه هاي کلاس اقليت در تمام زيرمجموعه داده ها يکسان است).اين را ميتوان با استفاده از نمونه گيري تصادفي با جايگزيني و يا بدون جايگزيني100 و يا از طريق روشهاي خوشه بندي انجام داد.سپس مجموعه اي از

دسته بندی : No category

دیدگاهتان را بنویسید