نمونه هاي اقليت كه مورد توجه است ندارند. متأسفانه در اكثر موارد داده هاي واقعي داراي اين خصوصيت هستند. به عنوان مثال در تشخيص بيماريهاي نادر، حملات شبكه، متنكاوي و … معمولاً توزيع دادهها نامتوازن مي باشد.
در واقع مساله اين است که چگونه ميتوان داده هاي نامتوازن را به گونه اي پيش پردازش کرد که در خوشه هاي مناسب و درست طبقه بندي شوند.بنابراين مساله اين تحقيق ارائه روشي جهت پيش پردازش داده هاي نا متوازن است به گونه اي که کارايي و دقت آن در مقايسه با روش هاي ديگر بيشتر باشد.
در روش ارائه شده در اين تحقيق براي ارتقاي روش ماشين بردار پشتيبان از تکنيک حداقل مربعات با متر اقليدسي استفاده نموديم.اين روش بهبود يافته را M-SVM ميناميم.بنابراين مساله را بدين شکل طرح مي نماييم، چگونه ميتوان در روش پيش پردازش داده هاي نامتوازن به دقت بالاتري دست يافت و از پيش پردازش صحيح داده براي دست يابي به نتايج صحيح در حوزه کاربردي استفاده نمود.از انجا که داده هاي متفاوتي وجود دارد ما پيش پردازش بر روي مجموعه داده هاي نامتوازن را انتحاب کرديم

1-3 اهداف تحقيق
هدف از اين تحقيق ارائه راهکاري به منظور افزايش دقت متعادل سازي داده و غلبه بر مشکل عدم توازن کلاس است.سعي کرده ايم تا متعادل سازي داده که در مرحله پيش پردازش داده صورت ميگيرد باعث بهبود نتايج طبقه بندي نمونه ها شود.بدين منظور اثربخشي و کارايي روش ارائه شده با ساير روش هاي موجود مورد مقايسه و ارزيابي قرار ميگيرد.اميد است که نتايج الگوريتم نهايي اميدوار کننده باشد و نشان دهنده پيشرفت الگوريتم باشد.اين تحقيق بر اساس نياز به دسته بندي دقيق داده ها و استفاده از تحليل نتايج داده ها در بهبود شرايط مرجع مورد استفاده کننده داده ها شکل گرفته است.
1-4 پرسش هاي اصلي تحقيق
تحقيقات انجام شده در اين پروژه سعي در پاسخگويي به سوالات زير را دارد :
معيارهاي اندازه گيري کارايي روش هاي متعادل سازي چيست؟
روش هاي کنوني متعادل سازي چيست؟
چگونه مي توان مشکل عدم توازن کلاس را حل کرد؟
چگونه مي توان مشکل نويز در طبقه بندي را حل کرد؟
1-5فرضيه هاي تحقيق
کارايي روش ارائه شده در مقايسه با ساير روش ها بهتر است.
استفاده از اين روش باعث بهبود نتايج طبقه بندي داده ها در حضور داده هاي پرت و نويز ميشود.
استفاده از الگوريتم پيشنهادي باعث کاهش حساسيت به عدم توازن کلاس ميشود.
1-6 نوآوري تحقيق
مي توان نوآوري را به صورت استفاده از تکنيک حداقل مربعات با استفاده از مفاهيم فازي براي استفاده در ماشين بردار پشتيبان در جهت پيش پردازش داده هاي نامتوازن بيان کرد.

1-7 تعريف واژگان کليدي
پيش پردازش داده
با توجه به حجم عظيم داده هاي موسسات جهت تحليل اطلاعات و كشف دانش نهفته در اين داده ها به مساله مهمي تبديل شده است . براي كشف دانش نهفته در اين داده ها به كارگيري تكنيك هاي داده كاوي امري بديهي است.وجود مسائلي نظير ناقص بودن داده ها، ناسازگاري آنها و وجود ناخالصي هايي همچون خطاها، مقادير تقريبي و مقادير خارج از محدوده نرمال در پايگاه داده هاي واقعي، باعث كاهش كيفيت داده كاوي ميشود. براي دستيابي به نتايج مطلوب تر، نياز به داده هاي با كيفيت بالاتر وجود دارد. پيش پردازش، گامي مهم در راستاي داده كاوي موفقيت آميز است. اعمالي كه در پيش پردازش انجام مي شوند عبارتند از حذف ناخالصيها و اصلاح داده هاي نادرست، يكپارچهسازي داده ها، تغيير داده ها و كاهش داده ها. بر اساس نوع كاربردي كه عمل داده كاوي بايد روي آن انجام شود، تكنيك هاي مختلفي براي هر يك از اين اعمال وجود دارد]4[.
داده هاي نامتوازن
اصطلاح “مجموعه داده نامتوازن” عموما به مجموعه داده‌اي گفته مي‌شود که در آن تعداد نمونه‌هايي که نمايانگر يک کلاس هستند از نمونه‌هاي ديگر در کلاس‌هاي متفاوت کمتر است.در واقع مشکل عدم توازن کلاس زماني رخ ميدهد که براي کلاس هاي با اهميت، نمونه هاي کم و يا بسيار کمي در حوزه هاي کاربردي جهان واقعي در دسترس باشد. اين حالت در کلاسه بندي زماني مشکل‌ساز مي‌شوند که يک کلاس که عموما کلاس مطلق يا اقليت(Minority Class) مي‌باشد در مجموعه داده‌ها نشان داده‌ نمي‌شود و به بيان ديگر تعداد مشاهدات اشتباه از مشاهدات درست در يک کلاس بيشتر مي‌شود.مثلا در حوزه هايي مانند ارتباط از راه دور، تشخيص غنائم نفت در تصاوير راداري ماهواره اي، طبقه بندي متن، تشخيص پزشکي،تشخيص نفوذ و کشف تقلب. در اين موارد الگوريتم استاندارد کلاسه بندي کننده تمايل بيشتري به کلاس‌هاي اکثريت (MajorityClass)دارد، زيرا قوانيني که اين نمونه‌ها را به درستي پيش‌بيني مي‌کنند به درستي وزن‌دهي شده اند در حالي که قوانين خاصي که نمونه‌هاي کلاس اقليت را پيش‌بيني مي‌کنند عموما ناديده گرفته مي‌شوند و در واقع به صورت نويز با آنها برخورد مي‌شود و در نتيجه نمونه‌هاي کلاس اقليت به اشتباه کلاسه‌بندي خواهند شد[15].
براي غلبه بر اين مشکل، از طبقه بندي مجموعه داده هاي نامتوازن استفاده ميشود. يکي از مشکلات کليدي در هنگام يادگيري با مجموعه داده نامتوازن، فقدان داده است که در آن تعداد نمونه هاي کمي در دسترس است و يا هيچ نمونه اي براي يک کلاس خاص در دسترس نيست روش هاي مقابله با مشکل عدم توازن عبارتند از : تغيير اندازه مجموعه آموزشي( که شامل بيش نمونه گيري از نمونه هاي کلاس اقليت و کوچک سازي نمونه هاي کلاس اکثريت)، تنظيم هزينه هاي طبقه بندي نادرست و تشخيص مبتني بر يادگيري]14[.
تکنيک هاي مواجهه با مجموعه داده هاي نامتوازن
به منظور رسيدگي به مسائل مربوط به مجموعه داده‌هاي نامتوازن تکنيک‌هاي متعددي معرفي شده اند که در سه دسته زير طبقه بندي مي‌شوند:
رويکردهايي در سطح الگوريتم1
اين رويکرد به الگوريتم‌هاي يادگيري کلاسه بند کمک مي‌کند تا فرآيند يادگيري را به سمت کلاس اقليت سوق دهد.
رويکردهايي در سطح داده2
اين رويکرد با باز نمونه گيري از فضاي داده باعث تغيير توزيع داده‌ها مي‌شود به طوري که تغييري در الگوريتم يادگيري ايجاد نمي‌شود و تلاش مي‌کند در مرحله پيش پردازش تأثيرات ناشي از عدم توازن را برطرف کند.
چارچوب يادگيري حساس به هزينه3
اين رويکرد مابين رويکرد الگوريتمي و داده‌اي قرار دارد. به طوري که هم در سطح داده و هم در سطح الگوريتم تغيير ايجاد خواهد کرد. مهمترين نقطه ضعف اين رويکرد تعريف هزينه‌ي رده بندي نادرست مي‌باشد که عموما در مجموعه داده وجود ندارند[15].

ماشين بردار پشتيبان4
اولين الگوريتم براي طبقه بندي و دسته بندي الگوها در سال 1936 ارائه شد و معيار آن براي بهينه بودن، كم كردن خطاي طبقه بندي الگوهاي آموزشي بوده است.بسياري از الگوريتم ها و روشهايي نيز كه تاكنون براي طراحي طبقه بندي ك
بعد زياد
نه تنها اغلب تعداد زيادي رکورد در پايگاه داده ها وجود دارد بلکه تعداد زيادي فيلد ممکن است موجود باشند.بنابراين مساله داراي ابعاد زيادي است
بيش برازش12
وقني الگوريتم به دنبال بهترين پارامترهاي يک مدل خاص با استفاده از مجموعه محدودي داده ميگردد، ممکن است داده ها را بيش برازش کند که منجر به عملکرد ضعيف مدل روي داده هاي آزمون ميشود.
داده ها و دانش در حال تغيير
داده هاي در حال تغيير و بي ثبات13 ممکن است الگوهاي کشف شده قبلي را بياعتبار کند.
داده مفقوده و مغشوش
اين مشکل به خصوص در پايگاه داده هاي تجاري حاد است.اگر پايگاه داده از ابتدا با هدف کشف دانش طراحي نشده باشد ممکن است فاقد برخي ويژگي هاي مهم باشد.
روابط پيچيده بين فيلدها
ويژگي ها يا مقادير با ساختار سلسله مراتبي، روابط ميان ويژگيها و نيز انواع روشهاي پيچيده نمايش دانش، نياز به الگوريتم هايي دارند که به طور موثر از اين اطلاعات استفاده کنند.
قابل درک بودن الگوها
در بسياري از کاربردهاي داده کاوي، اينکه کشفيات براي انسان قابل فهم تر شوند، بسيار مهم است]1[.

2-5 پيش پردازش و آماده سازي داده ها :
آماده سازي داده ها براي داده کاوي هنر چلاندن و فشردن داده هاي موجود و بيرون کشيدن داده هاي با ارزش است.آماده سازي نيز به عنوان جزئي از داده کاوي بستگي به نوع مسئله و نيز روشها و ابزارهايي دارد که ميخواهيم بر روي داده به کار ببنديم.
آماده سازي داده ها حدود 60 تا 90 درصد زمان مورد نياز براي کاوش داده را صرف کرده و 75 تا 90 درصد موفقيت پروژه هاي داده کاوي به آن مربوط ميشود.ممکن است داده مفقوده يا تکراري باعث گمراهي شوند.ميتوان گفت داده ها در عالم واقع داراي آلودگي14 هاي زير هستند :
ناقص15 : مانند نمونه هاي ناکافي، کمبود مقادير برخي مشخصه ها
مغشوش16 : داده ها داراي خطا يا مقادير پرت هستند.
ناسازگار17 : داراي تناقض در کدها و يا نام ها هستند.

2-5-1اجزاي اصلي پيش پردازش داده ها

از ديدگاه آمار در بررسي مسائل مرتبط با پيش پردازش داده ها ميتوان گفت مشکلات به دو دسته تقسيم ميشوند :
مسائل مربوط به نمونه مانند نمونه هاي مفقوده و داده هاي پرت
مسائل مربوط به توزيع مانند نرماليتي و خطي بودن]1[.
در ارتباط با دسته نخست ميتوان به تفصيل موارد زير پرداخت.

پاکسازي داده
اغلب به جهت خطاهاي عملياتي و پياده سازي سيستم ها، داده هاي برآمده از منابع دنياي واقعي پرغلط، ناقص و ناسازگار هستند.لذا لازم است در ابتدا چنين داده هاي کم کيفيتي تميز شوند.اين کار شامل برخي عمليات پايه مانند نرمال سازي، حذف نويز يا اغتشاش، مواجهه با دادههاي مفقوده، کاهش افزونگي، برطرف کردن ناسازگاري و از اينگونه کارها است.
يکپارچه سازي داده
يکپارچه سازي داده نقش مهمي در KDD ايفا ميکند.اين عمليات شامل يکپارچه سازي چندين پايگاه داده ناهمگن بوده که قبلا به وسيله چندين منبع ايجاد شده است.
تبديل داده
اين کار شامل عملياتي همچون هموار سازي، تجميع و نرمال سازي است.
کاهش داده
اين کار شامل يافتن ويژگيهاي مفيد براي بازنمايي داده و استفاده از روشهاي کاهش بعد، گسسته سازي و استخراج(تبديل) ويژگي ها است.
تصوير کردن براي کاهش بعد
تصوير کردن براي کاهش بعد نوعي کاهش ستوني داده است با اين فرق که در آن مشخصههاي تغيير يافته جديدي از روي مشخصه هاي اوليه ساخته ميشوند.

2-5-1-1 پاکسازي داده ها
پاکسازي داده در واقع مرحله کنترل کيفي قبل از تحليل داده است. به طور کلي ميتوان گفت در اين مرحله بررسي هاي زير انجام ميشود:
*اطمينان از وجود تعداد مناسبي نمونه در فايل و اينکه شناسه هيچ کدام تکرار نشده باشد.
* بررسي کد هاي آشفته
* کنترلها و بررسيهاي سازگاري
* يک بررسي تکميلي براي اينکه تمام نمونه ها جمع آوري شده، و در فايل آمده اند.

وظايف اصلي فاز پاکسازي داده ها عبارتنداز:
*پر کردن داده هاي مفقوده
* شناخت داده هاي پرت و هموار کردن داده هاي مغشوش
* درست کردن داده هاي ناسازگار
* حل کردن مشکل افزونگي که بر اثر يکپارچه ساختن داده ها ايجاد شده است.

مقادير مفقود:
در داده هاي اوليه که براي داده کاوي که در اختيار داريم ممکن است برخي نمونه ها براي برخي ويژگيها مقدار نداشته باشند. مثلا در داده هاي فروش ممکن است براي چند مشتري درآمد مشتري درج نشده باشد، ما به اين مقادير، مقادير مفقود مي گوييم.
داده مغشوش:
اغتشاش يا نويز، خطاي تصادفي يا مغايرت در متغير اندازه گيري شده است. مقادي

دسته بندی : No category

دیدگاهتان را بنویسید