پذيري بسيار بالايي دارند ولي در مقابل، پارامترهاي کمي دارند. البته بايد به اين نکته توجه کرد که انعطاف پذيري بالا بر روي داده هاي آموزشي دليل مناسب بودن يک طبقه بندي کننده نيست چون ممکن است طبقه کننده اي که از انعطاف پذيري بالايي روي داده هاي آموزشي برخوردار است بيش برازش شود و روي نمونه جديدي که وارد طبقه بندي کننده ميشود بسيار نامناسب عمل کند.همچنين Vapnik بيان کرد انعطاف پذيري لزوماً متناسب با تعداد پارامترهاي دسته بندي کننده نيست.براين اساس Vapnik بعد 45VC را به عنوان معيار مناسب تري براي سنجش انعطاف پذيري يک طبقه بندي کننده تعريف نموده است و در نهايت طبقه بندي کننده را براساس مينيمم کردن ريسک ساختاري46 به جاي مينيمم کردن ريسک تجربي47 طراحي نمود.در ادامه بعد VC، ريسک ساختاري و تجربي توضيح داده خوهد شد]11[.
2-8-3 کاربردهاي SVM
الگوريتم SVMجز الگوريتمهاي تشخيص الگو دسته بندي ميشود.از الگوريتم SVMدر هر جايي که نياز به تشخيص الگو يا دسته بندي اشياء در کلاس هاي خاص باشد مي توان استفاده کرد.در ادامه به کاربردهاي اين الگوريتم به صورت موردي اشاره ميشود.
سيستم آناليز ريسک، کنترل هواپيما بدون خلبان، رديابي انحراف هواپيما، شبيه سازي مسير، سيستم راهنمايي اتوماتيک اتومبيل، سيستمهاي بازرسي کيفيت، آناليز کيفيت جوشکاري، پيش بيني کيفيت، آناليز کيفيت کامپيوتر، آناليز عملياتهاي آسياب، آناليز طراحي محصول شيميايي، آناليز نگهداري ماشين، پيشنهاد پروژه، مديريت و برنامه ريزي، کنترل سيستم فرايند شيميايي و ديناميکي، طراحي اعضاي مصنوعي، بهينه سازي زمان پيوند اعضا، کاهش هزينه بيمارستان، بهبود کيفيت بيمارستان، آزمايش اتاق اورژانس، اکتشاف روغن و گاز، کنترل مسير در دستگاههاي خودکار، ربات، جراثقال، سيستمهاي بصري، تشخيص صدا، اختصار سخن، کلاسه بندي صوتي، آناليز بازار، سيستمهاي مشاوره اي محاسبه هزينه موجودي، اختصار اطلاعات و تصاوير، خدمات اطلاعاتي اتوماتيک، مترجم لحظه اي زبان، سيستمهاي پردازش وجه مشتري، سيستمهاي تشخيص ترمز کاميون، زمانبندي وسيله نقليه، سيستمهاي مسيريابي، کلاسه بندي نمودارهاي مشتري/بازار، تشخيص دارو، بازبيني امضا، تخمين ريسک وام، شناسايي طيفي، ارزيابي سرمايه و غيره.
2-8-4 مزايا و معايب SVM
طراحي دسته بندي کننده با حداکثر تعميم
رسيدن به بهينه سراسري تابع هزينه
تعيين خودکار ساختار و توپولوژي بهينه براي طبقه بندي کننده
مدل کردن توابع تمايز غير خطي با استفاده از هسته هاي غيرخطي و مفهوم حاصلضرب داخلي در فضاهاي هيلبرت
آموزش نسبتا ساده است
برخلاف شبکه هاي عصبي در ماکزيمم هاي محلي گير نميافتد.
براي داده هاي با ابعاد بالا تقريبا خوب جواب ميدهد.
مصالحه بين پيچيدگي دسته بندي کننده و ميزان خطا به طور واضح کنترل ميشود.
به يک تابع کرنل خوب و انتخاب پارامتر C نياز دارد]9[.

2-8-5 تعاريف کلي
2-8-5-1تابع تصميم مسائل دو کلاسي

ابتدا طبقه بندي يک بردار – بعدي به يکي از دو کلاس را بررسي ميکنيم. فرض ميکنيم که و به ترتيب تابع تصميم براي کلاس هاي يک و دو باشند و x به کلاس يک تعلق دارد اگر و به کلاس دو تعلق دارد اگر .
تابع هاي ذکر شده در بالا را تابع تصميم گوئيم.

اين روابط را به صورت زير نيز ميتوانيم تعريف کنيم که x به کلاس يک تعلق دارد، اگر و به کلاس دو تعلق دارد، اگر.مرز دو کلاس نيز به شکل معرفي خواهد شد.
نشان مي دهدکه مرز کلاس به صورت غير مستقيم بدست مي آيد. اين نوع از تابع تصميم را، تابع تصميم غير مستقيم48 ميناميم.
اگر تابع تصميم را به صورتتعريف کنيم، x را در کلاس يک طبقه بندي ميکنيم، اگر و در کلاس دو طبقه بندي ميکنيم، اگر.مرز کلاس به صورتتعريف مي شود. اين نوع تابع تصميم يک تابع تصميم مستقيم49 ناميده مي شود.
اگر تابع تصميم خطي باشد، دراين صورت را به صورتتعريف ميکنيم.در واقع اين معادله خط در فضاي دو بعدي، صفحه در فضاي سه بعدي و فوق صفحه در فضاهاي بزرگتر است. يک بردار m-بعدي است و ، ترم باياس است. کلاسي که در طرف مثبت ابرصفحه است و کلاس ديگر که در طرف منفي ها است. اين چنين مسائل را که توسط يک خط از هم جدا شده اند را جداپذير خطي50 گويند.

2-8-5-2 تعيين تابع تصميم(ابر صفحه جداکننده)51

شکل 2-10 که در زير آمده ،يک نمونه از تابع تصميم را نشان ميدهد طوري که داده هاي آموزشي دو کلاس کاملاً مجزا هستند.فرض کنيد که دايره و مربع به ترتيب داده هاي آموزشي مربوط به دو کلاس يک و دو باشند.حتي اگر تابع تصميم را به سمت راست جا به جا شود(منحني نقطه نقطه در شکل (2-10)) بازهم داده هاي آموزشي درست طبقه بندي شده اند. بنابراين مي توانيم چندين تابع تصميم داشته باشيم طوري که داده هاي آموزشي را به درستي طبقه بندي کنند.

اگر چه بي نهايت حالت براي تعيين مکان تابع تصميم وجود دارد اما آنچه بايد اينجا ذکر شود اين است که تابع تصميمي که بيشترين فاصله را با داده هاي آموزشي داشته باشد را تابع تصميم بهينه گوئيم.اما تعيين تابع تصميم غير خطي چندان ساده نيست.به همين منظور بهتر است که فضاي وروديها را به فضايي با بعد بالاتر با نام فضاي ويژگي ها نگاشت داده شود که در اين فضا تابع تصميم يا ابر صفحه بهينه را بدست آوريم.
2-8-5-3 بعد VC
اگر مجموعه مجموعه اي از توابع تصميم گيري و بردار ويژگي52 باشد، ميتوان هاي مختلفي را تعريف کرد که بعد VC يک ويژگي از اين مجموعه توابع ميباشد.حال اگر مجموعه داده شامل l نقطه باشد در حالت دو کلاسه مي توان آنها را با حالت ممکن برچسب دهي53 کرد.بعد VC که با h نمايش داده ميشود، بيانگر ماکزيمم تعداد نقاطي است که ميتوانند توسط مجموعه از هم جدا شوند.براي مثال در يک فضاي دو بعدي مي توان سه نقطه را به يکي از هشت حالت ممکن برچسب دهي کرد که در هر هشت حالت مي توان اين سه نقطه را بطور خطي به کلاس مربوطه اختصاص داد.

در حالت کلي براي يک مجموعه l نقطه اي، اگر يک نقطه به عنوان مرجع در نظر گرفته شود و حالتهاي l-1 نقطه باقيمانده بطور خطي غير وابسته باشند، ميتوان در فضاي آنها را توسط فوق صفحات54 جهت دار دسته بندي کرد.نتيجه اينکه در يک فضاي N بعدي، h برابر با N+1 ميباشد.
بنابراين طبق اين تعريف ميتوان گفت بعد VC يک طبقه بندي کننده خطي در فضاي دو بعدي برابر 3 و بعد VC يک طبقه بندي کننده نزديک ترين همسايه در فضاي دو بعدي برابر با است.توجه شود که در طبقه بندي کننده نزديک ترين همسايه مهم نيست که چه تعداد داده آموزشي داريم، بلکه ميتوان با هر تعداد داده آموزشي يک طبقه بندي کننده مناسب طراحي کرد که داده ها را به طور مجزا از هم تفکيک کند]11[.
2-8-5-4حداقل سازي ريسک تجربي55
عمل تقسيم بندي دو کلاسه نمونه ها را مي توان به فرم زير نوشت :
و
که تابع تصميم گيري، بردار پارامترها و مجموعه اي از پارامترهاست.همچنين يک مجموعه از مثال هاي داريم که داراي تابع توزيع نامعلوم هستند.هدف پيدا کردن است که منجر به حداقل شدن ريسک مورد انتظار56 زير ميشود :

تابع معمولا تحت عنوان تابع فرضيه57 و مجموعه تحت عنوان فضاي فرضيه58 ناميده ميشوند که اين فضا را با H نمايش ميدهيم.بنابراين ريسک مورد انتظار معياري براي ارزيابي عملکردها در نسبت دادن صحيح برچسب y به نمونه X ميباشد.
به عنوان مثال مجموعه توابع مي تواند مجموعه اي از توابع RBF يا يک پرسپترون چندلايه59 (با تعداد معيني واحد مخفي) باشد که در اين حالت مجموعه مرزهاي شبکه ميباشد.
از آنجا که تابع توزيع نامشخص است نميتوان ريسک مورد انتظار را محاسبه کرد و در نتيجه نميتوان اين ريسک را حداقل نمود.ولي به دليل اينکه ما به نمونه هاي دسترسي داريم، مي توان يک تخمين ازرا محاسبه نمود که اين تقريب، ريسک تجربي ناميده ميشود.

به دليل اينکه قانون اعداد بزرگ تضمين ميکند که در احتمال60، ريسک تجربي به ريسک مورد انتظار همگرا ميشود، ميتوان به جاي حداقل سازي ريسک مورد انتظار، ريسک تجربي را حداقل کرد.اين موضوع را مي توان تحت عنوان اصل حداقل سازي ريسک تجربي61 اينگونه بيان کرد که اگر ريسک تجربي به ريسک واقعي همگرا شود، آنگاه حداقل ريسک تجربي ممکن است به حداقل ريسک واقعي همگرا شود.اگر اين همگرايي برقرار نباشد نمي توان هيچ نتيجه اي بر اساس مجموعه داده ها گرفت و گفته مي شود که ناسازگاري وجود دارد.
Vapnik و chervonenkis بيان کردند که شرط لازم و کافي براي داشتن سازگاري در اصل حداقل سازي ريسک تجربي، محدود بودن بعد VC فضاي H ميباشد.همانطور که قبلا بيان شد بعد VC فضاي H (يا بعد VC طبقه بندي کننده) يک عدد طبيعي است که بيانگر ماکزيمم تعداد نقاط داده ميباشد که ميتواند با توجه به تمام حالات ممکن توسط مجموعه توابع از هم جدا شوند.بعد VC همچنين بيانگر پيچيدگي مجموعه H است و اغلب متناسب با تعداد پارامترهاي آزاد طبقه بندي کننده است]11[.
آنها يک حد بالا براي ميزان انحراف ريسک تجربي نسبت به ريسک مورد انتظار بدست آوردند.اين حد که داراي احتمالاست، به صورت زير بيان ميشود:

که در آن h بعد VC تابع مي باشد.
از اين رابطه به طور واضح ميتوان فهميد که براي داشتن يک ريسک مورد انتظار کوچک(جهت داشتن قدرت تعميم خوب)، بايد هم ريسک تجربي و هم نسبت بين بعد VC و تعداد نقاط داده کوچک باشد.از آنجا که ريسک تجربي معمولا يک تابع نزولي نسبت به h است مي توان نتيجه گرفت که براي تعداد مشخص نقاط داده، يک مقدار بهينه h موجود ميباشد.
انتخاب مناسب h (که در اکثر تکنيک ها توسط تعداد پارامترهاي آزاد مدل مربوطه کنترل ميشود) براي داشتن عملکرد خوب بسيار مهم است مخصوصا زماني که تعداد نقاط داده کم ميباشند.مثلا وقتي از پرسپترون چندلايه يا شبکه RBF استفاده ميشود، تعيين بعد VC معادل با مساله پيدا کردن تعداد مناسبي از واحدهاي مخفي است که مساله مشکلي است.رابطه بالا بيانگر اين است که اصل حداقل سازي ريسک تجربي را ميتوان با اصل بهتري جايگزين نمود که در بخش بعدي توضيح داده خواهد شد]11[.
2-8-5-5حداقل سازي ريسک ساختاري62
تکنيک حداقل سازي ريسک ساختاري که توسط vapnik بيان شد تلاش و کوششي جهت مقابله با مسئله انتخاب بهينه بعد VC بود. بطور واضح از معادله(2-4) مشخص است که داشتن مقدار حداقل براي ريسک تجربي لزوما به معني داشتن يک مقدار حداقل براي ريسک مورد انتظار نيست که اين منجر به بيان اصلي تحت عنوان اصل حداقل سازي ريسک ساختاري63 شد.اين اصل بر اين اساس پايه گذاري شد که براي کوچک کردن ريسک مورد انتظار طبق معادله (2-4) بايد هم بعد VC و هم ريسک تجربي همزمان حداقل شوند.
نياز اصلي براي پياده سازي اين اصل، داشتن يک ساختار تو در تو در فضاي فرضيه است:

با اين خاصيت که و بعد VC مجموعه Hn ميباشد.
با توجه به معادله(2-4) بايد مسئله زير حل شود(از قسمت هاي لگاريتمي صرف نظر شده است):

اگرچه اصل حداقل سازي ريسک ساختاري از نظر رياضي بسيار واضح است ولي پياده سازي آن به دلايل زير دشوار است:
1) محاسبه بعد VC فضاي H دشوار بوده و مدل هاي محدودي وجود دارند که داراي روش مشخصي براي محاسبه بعد VC هستند.
2) حتي با فرض اينکه بتوان بعد VC فضاي H را محاسبه کرد، حداقل سازي رابطه (2-5) مشکل خواهد بود.
هدف

دسته بندی : No category

دیدگاهتان را بنویسید