روشهاي دسته بندي
فرض کنيد با استفاده از داده هاي گذشته، يک مدل دسته بندي يا پيش بيني را آموزش داده و ميخواهيم رفتار آينده متغير هدف را بررسي کنيم.سوال اساسي اين است که صحت روش دسته بندي يا پيش بيني مورد استفاده چه اندازه است و اينکه چگونه ميتوان صحت دو يا چند روش دسته بندي با پيش بيني را با هم مقايسه کرد؟در ادامه چگونگي محاسبه صحت روش هاي دسته بندي به اختصار بيان ميشود.
ميزان صحت يک روش دسته بندي بر روي مجموعه داده هاي آموزشي، درصد مشاهداتي از مجموعه آموزشي است که به درستي توسط روش مورد استفاده، دسته بندي شده اند.در ادبيات تشخيص الگو، به اين شاخص خاص “نرخ تشخيص” گفته ميشود که نشان دهنده کيفيت تشخيص نمونه هاي دسته هاي متفاوت است.
براي محاسبه اين شاخص از داده هاي آزمون استفاده ميشود.در اينجا ميتوان نرخ خطا يا دسته بندي نادرست را بر اساس شاخص صحت محاسبه کرد.اگر ميزان صحت يک روش دسته بندي را با ACC (m ) نشان دهيم، ميزان خطاي آن برابر با 1-ACC ( m ) خواهد بود.از طرف ديگر خطايي که بر اساس دادههاي آموزشي(به جاي دادههاي آزمون) محاسبه ميشود خطاي ” بازجانشاني”26 ناميده ميشود.اين خطا تخمين خوشبينانه اي از خطاي حقيقي است.
ماتريس اغتشاش ابزاري مفيد براي تحليل چگونگي عملکرد روش دسته بندي در تشخيص دادهها يا مشاهدات دسته هاي مختلف است.اگر داده ها در m دسته قرار گرفته باشند، يک ماتريس دسته بندي، جدولي با حداقل اندازه m * m است. عنصر Cijدر i اين سطر و j امين ستون، نشان دهنده تعداد مشاهداتي از دسته i است که توسط روش دسته بندي به عنوان دسته j تشخيص داده شده است.براي اينکه يک روش دسته بندي، صحت بالايي داشته باشد، حالت ايده ال آن است که اکثر داده هاي مرتبط به مشاهدات بر روي قطر اصلي ماتريس قرار گرفته باشند و بقيه مقادير ماتريس صفر و يا نزديک به صفر باشند.ماتريس ممکن است سطر يا ستون اضافي داشته باشد که نشان دهنده مجموع عناصر يا درصد شناخت است.
به عنوان مثال اگر مشتريان به دو دسته تقسيم شوند، مشترياني که کامپيوتر ميخرند و آنهايي که نميخرند.از انجا که در اين مثال دو دسته تعريف شده است، ماتريس 2*2 است.عنصر(1،2) اين ماتريس تعداد عناصري که برچسب دسته آنها “Yes ” بوده ولي به نادرستي در کلاس “No” ها دسته بندي شده اند را نشان ميدهد و همينطور عنصر(2،1) نيز تعداد عناصري که برچسب دسته آنها “No ” است ولي به نادرستي در دسته “Yes” ها دسته بندي شده را نشان ميدهد.
در اين مثال از مفاهيمي استفاده شده است که به توضيح آنها ميپردازيم. عنصر “مثبت درست”27 به مشاهداتي از دسته C1 دلالت دارد که توسط روش دسته بندي به درستي تشخيص داده شده است.عنصر “منفي درست” 28به مشاهداتي از دسته C2 دلالت دارد که توسط روش دسته بندي به درستي تشخيص داده شده است.به طور مشابه “منفي غلط”29 مشاهداتي از دسته C1 است که توسط روش دسته بندي به نادرستي در دسته C2 قرار گرفته و “مثبت غلط”30مشاهداتي از دسته C2 است که توسط روش دسته بندي به نادرستي در دسته C1قرار گرفته است.

C2
C1

غلط دسته بندي شده اند FN
درست دسته بندي شده اند TP
C1
درست دسته بندي شده اند TN
غلط دسته بندي شده اند FP
C2

مدل هاي مختلف با درجه صحتهاي مختلفي قابل پذيرش هستند.به عنوان مثال در يک مدل تشخيص سرطان مدلي با 90% صحت قابل قبول نيست.بدين منظور شاخص هاي ديگري نيز مورد نياز است که در اينجا به انها اشاره ميشود.
حساسيت31= (اند شده بندي دسته درست که مثبتي برچسب هاي داده تعداد )/(مثبت هاي داده تعداد کل)=TP/pos

شفافيت32= (اند شده بندي دسته درست که منفي برچسب هاي داده تعداد )/(منفي هاي داده تعداد کل)=TN/neg

دقت33=TP/(TP+FP)

شاخص آخر يا همان صحت34 ، ترکيبي از دو شاخص قبل است و به صورت زير محاسبه ميشود:
صحت=pos/((pos+neg)) حساسيت+شفافيت neg/(pos+neg)

توجه به اين نکته ضروري است که در روابط فوق، وزن يا اهميت عناصر ماتريس يکسان در نظر گرفته شده است.در حالي که در مسائل مختلف، اهميت اين عناصر ميتواند متفاوت باشد.مثلا عدم تشخيص سرطان با تشخيص سرطان به اشتباه هزينه هاي کاملا متفاوتي دارند.
2-7 تکنيک حداقل مربعات
روش کمترين مربع خطا که يکي از روش هاي مورد استفاده در تحليل رگرسيوني است اولين بار توسط لژندر35 رياضيدان فرانسوي در سال 1805 و گوس36 رياضيدان مشهور آلماني در سال 1809 معرفي و در مطالعات نجومي به کار برده شد.روش کمترين مربعات37 روشي در آمار است که براي حل دستگاه معادلاتي به کار مي‌رود که تعداد معادله‌هايش بيش از تعداد مجهول‌هايش است. اين روش بيشتر در تحليل رگرسيون به کار مي‌رود.کمترين مربعات در واقع روشي براي برازش (fit) داده‌ها است. در روش کمترين مربعات، بهترين مدل برازش‌شده بر مجموعه‌اي از داده‌ها مدلي است که در آن مجموع مربع باقيمانده‌ها38 کمينه باشد. منظور از باقيماندهها، اختلاف بين داده مشاهده ‌شده و مقداري است که از مدل به دست مي‌آيد.اين روش از جمله موارد تقريبي است که بسيار مورد استفاده قرار مي گيرد.
اگر بخواهيم خط مستقيمي(يا يک منحني)را روي يک رشته از داده‌هاي زماني برازنده کنيم نخست داده‌ها را به صورت نقطه‌هايي روي صفحه محورهاي مختصات رسم مي‌کنيم، سپس تابع جبري منحني يا خطي را که به دلخواه برگزيده و برازندگي آن را شايسته ديده‌ايم مي‌نويسيم و ضرايب آن تابع را چنان برمي‌گزينيم که مجموع مجذورات انحرافات نقطه‌ها از اين خط (يا منحني) به حداقل ممکن برسد. اگر تابع خط مستقيم به صورت y = a + bx باشد که در آن a وb ضرايب تابع‌اند، اين ضرايب را طوري حساب مي‌کنيم که مجموع توان دوم “فاصله عمودي نقطه‌ها از اين خط” حداقل شود.يعني خطy=ax+b بايد طوري به نقاط برازش شود که مجموع مربعات فواصل نقاط مزبور از اين خط مستقيم حداقل باشد.فاصله ها در امتداد قائم((y اندازه گرفته ميشوند.
در واقع تفاوت برازش و درون يابي در اين است که در درون يابي به دنبال تابعي هستيم که از تمام نقاط عبور کند و در برازش منحني به دنبال تابعي از درجه پايين تر هستيم که داراي کمترين خطا باشد]37[.

2-7-1 تقريب کمترين مربعات گسسته چند جمله اي
چندجمله اي کمترين مربعات درجه n مجموعه داده هاي براي ، چندجمله اي درجه n ، ميباشد، که در آن بگونه اي هستند که خطاي کمترين مربعات، يعني حداقل شود.بايد توجه داشت يک تابع n+1 متغيره چند جمله اي بر حسب مي باشد. در واقع مجموع مربعات خطاها است.شرط لازم براي به حداقل رسيدن به صورت زير است :

پس از انجام محاسبات خواهيم داشت :
Error! Bookmark not defined.

دستگاه فوق يک دستگاه خطي با (n+1) معادله و (n+1) مجهول مي باشد، که در آن

اين دستگاه به دستگاه معادلات نرمال معروف است و جواب يکتا دارد.
حالت خاص اول ) چند جمله اي کمترين مربعات درجه يک(خط تقريب ساز کمترين مربعات) مجموعه نقاط ، چندجمله اي درجه يک مي باشد که از دستگاه زير بدست ميآيد:

حالت خاص دوم) چند جمله اي کمترين مربعات درجه دوم (سهمي کمترين مربعات) مجموعه نقاط ، چندجمله اي مي باشد که از دستگاه زير بدست ميآيد.

چون چندجمله اي کمترين مربعات ممکن است نوسانات زيادي داشته باشد، در واقع هر قدر درجه چندجمله اي افزايش يابد ممکن است اين نوسانات بيشتر شود، به خاطر همين اصل در عمل کمتر از چند جمله اي هاي درجه بالاتر از پنج استفاده ميشود.
2-8 ماشين بردار پشتيبان
2-8-1مقدمه
اولين الگوريتم براي طبقه بندي و دسته بندي الگوها در سال 1963 توسط Fisher ارائه شد و معيار آن براي بهينه بودن، کم کردن خطاي طبقه بندي الگوهاي اموزشي بود.بسياري از الگوريتم ها و روش هايي که تا کنون براي طراحي طبقه بندي کننده هاي الگو ارائه شده است از همين استراتژي پيروي مي کنند.در هيچ يک از اين روش ها خاصيت تعميم طبقه بندي کننده به طور مستقيم در تابع هزينه روش دخالت داده نشده است و طبقه بندي کننده طراحي شده نيز داراي خاصيت تعميم دهندگي کمي ميباشد.اگر طراحي دسته بندي کننده الگو را به عنوان مساله بهينه سازي در نظر بگيريم، بسياري از اين روش ها با مشکل بهينه هاي محلي در تابع هزينه مواجهند و در دام بهينه هاي محلي گرفتار ميآيند.مشکل ديگر تعيين ساختار و توپولوژي دسته بندي کننده قبل از طراحي است که به عنوان مثال تعيين تعداد بهينه گره هاي لايه مخفي در شبکه هاي عصبي MLP، تعداد توابع گوسي در شبکه هاي عصبي RBF و يا تعداد بهينه حالت ها و توابع گوسي در مدل پنهان مارکوف ميباشد.همه اين عوامل باعث ميشوند که در عمل نتوانيم به يک تابع بهينه دسته بندي کننده برسيم]9[.
الگوريتم SVM اوليه در سال 1963 توسط ولاديمر وپنيک39 ارائه شد و در سال 1995 توسط او و همکارش براي حالت غير خطي تعميم داده شد.ماشين بردار پشتيبان داراي خواص بسيار ارزشمندي است که آن را براي شناسايي الگو مناسب ميسازد.از جمله اينکه SVM در آموزش خود مشکل بهينه هاي محلي را ندارد، دسته بندي را با حداکثر تعميم بنا ميکند، ساختار و توپولوژي خود را به صورت بهينه تعيين ميکند و توابع تمايز غيرخطي را به راحتي و محاسبات کم، با استفاده از مفهوم حاصلضرب داخلي در فضاهاي هيلبرت تشکيل ميدهد.اين روش يکي از روش‌هاي يادگيري با نظارت40 است که از آن براي طبقه‌بندي41 و رگرسيون42 استفاده مي‌کنند.اين روش از جمله روش‌هاي نسبتاً جديدي است که در سال‌هاي اخير کارايي خوبي نسبت به روش‌هاي قديمي‌تر براي طبقه‌بندي نشان داده است.
اگر بخواهيم شرحي خلاصه از اين روش ارائه دهيم اين است که مبناي کاري دسته‌بندي کنندة SVM دسته‌بندي خطي داده‌ها است و در تقسيم خطي داده‌ها سعي مي‌کنيم خطي را انتخاب کنيم که حاشيه اطمينان بيشتري داشته باشد.حل معادلة پيدا کردن خط بهينه براي داده‌ها به وسيله روش‌هاي43QP که روش‌هاي شناخته شده‌اي در حل مسائل محدوديت‌دار هستند صورت مي‌گيرد. قبل از تقسيمِ خطي براي اينکه ماشين بتواند داده‌هايي با پيچيدگي بالا را دسته‌بندي کند داده‌ها را به وسيله تابعِ phi به فضاي با ابعاد خيلي بالاتر44 مي‌بريم. براي اينکه بتوانيم مساله ابعاد خيلي بالا را با استفاده از اين روش‌ها حل کنيم از قضيه دوگاني لاگرانژ براي تبديلِ مساله مينيمم‌سازي مورد نظر به فرم دوگاني آن که در آن به جاي تابع پيچيده phi که ما را به فضايي با ابعاد بالا مي‌برد، تابعِ ساده‌تري به نامِ تابع هسته که ضرب برداري تابع phi است ظاهر مي‌شود استفاده مي‌کنيم.از توابع هسته مختلفي از جمله هسته‌هاي نمايي، چندجمله‌اي و سيگمويد مي‌توان استفاده نمود.
2-8-2دلايل استفاده از SVM
با کمي دقت در الگوريتم هاي آموزشي به نظر ميرسد که يکي از مشکلات چنين سيستم هايي از يک طرف تعداد زياد نمونه ها براي آموزش و از طرف ديگر افزايش تعداد ويژگي ها براي بيان هر نمونه يا به عبارت ديگر افزايش بعد مي باشد بنابراين براي داشتن خروجي مطلوب نياز به طبقه بندي کننده اي است که بتواند يک مجموعه بزرگ از داده هاي آموزشي با ابعاد زياد را حمايت کند.ابعاد زياد در يک طبقه بندي باعث بوجود آمدن پارامترهاي زيادي مي شود(مثلا وقتي که ابعاد زياد شود، ماتريس کواريانس بزرگتر شده و پارامترهاي بيشتري بايد محاسبه شود) که تخمين آنها کار دشواري است.
به طور معمول پارامترهاي زياد انعطاف پذيري بالاي طبقه کننده را نسبت به داده هاي آموزشي به دنبال دارد ولي هميشه اينطور نيست.طبقه بندي کننده هايي نيز وجود دارند که انعطاف

دسته بندی : No category

دیدگاهتان را بنویسید