ر ويژگي ممکن است به دلايل زير نادرست باشد:
*ابزارهاي معيوب جمع آوري داده.
* مسائل و مشکلات حين ورود داده.
* محدوديت فناوري.

2-5-1-2يکپارچه سازي داده ها
داده کاوي اغلب به يکپارچه سازي داده ( ادغام داده ها از چندين منبع داده) نياز دارد. همچنين ممکن است لازم باشد که داده ها به شکل مناسب داده کاوي تبديل شوند.
در اين مرحله، داده هاي چندين منبع را در يک مخزن منسجم ترکيب ميکنيم.مهم ترين مسئله شناخت موجوديتهاي مشابه درون چندين منبع است.مثلا اگر در پايگاه داده A براي مشتري فيلد A.Cust_id و در پايگاه داده B از فيلد B.Cust# به همان منظور استفاده شده باشد، در صورت عدم حذف يکي از اين دو، آنگاه مشکل افزونگي داده ايجاد ميشود. البته اين مشکل ميتواند درون يک پايگاه داده هم رخ دهد و آن وقتي است که يک فيلد از روي فيلد ديگري درون همان پايگاه داده قابل استنتاج بوده، در آن نگهداري شود. مثلا نگهداري تاريخ تولد و سن به صورت همزمان ايجاد افزونگي ميکند.
بنابراين براي رفع مشکل افزونگي داده ها بايستي فيلد هاي تکراري شناسايي شوند.استفاده از فرا داده و اطلاعاتي که در هنگام طراحي پايگاه داده مستند شده است، مي توان به ما کمک کند. علاوه بر اين استفاده از روشهاي آماري براي شناخت ويژگيهايي که داراي وابستگي هستند نيز به ما کمک ميکند. در واقع براي اين کار نياز به استفاده از تحليلهاي همبستگي داريم.
2-5-1-3 تبديل داده ها
در اين مرحله داده ها به شکل مناسب براي داده کاوي تبديل ميشوند.
2-5-1-3-1هموار سازي
با حذف کردن مقادير مغشوش داده سرو کار دارد. برخي روشهاي مورد استفاده براي هموارسازي عبارتند از بسته بندي، رگرسيون و خوشه بندي.حتي مشخصه هايي که انتظار مي رود خطاي کمي در مقاديرشان داشته باشند، مي توانند از هموارسازي مقاديرشان براي کاهش تغييرات تصادفي استفاده کنند. برخي روشها مثل شبکه هاي عصبي با توابع سيگموئيد يا درختان رگرسيوني در بازنمايي خود به طور ضمني هموارساز دارند.
2-5-1-3-2 تجميع
گاه عمليات تلخيص و تجميع بر روي داده ها انجام ميشود. براي مثال فروش روزانه ممکن است تجميع شده و به شکل فروش هفتگي يا ماهانه نمايش داده شود. اين کار عموما در ايجاد مکعب داده استفاده ميشود.
2-5-1-3-3 تعميم
در تعميم با استفاده از سلسله مراتب مفهومي، داده سطح پايين يا اوليه با مفاهيم سطح بالاتر جايگزين ميشود. براي مثال ويژگي طبقه اي مانند خيابان با مفهوم بالاتر مانند شهر يا کشور عموميت داده ميشود.
2-5-1-3-4 ساخت ويژگي
جايي که از ويژگي هاي موجود ويژگي جديدي ساخته شده و براي کمک به فرآيند داده کاوي به آن اضافه ميشود. براي مثال، ممکن است ويژگي مساحت را از ضرب دو ويژگي طول و عرض که موجودند، بسازيم.
2-5-1-3-5 نرمال سازي
نرمال سازي تغيير مقايس داده ها به گونه اي است که آن ها را به کمک دامنه کوچک و معيني به فاصله اي مانند فاصله بين 1- تا 1 نگاشت ميکند. نرمال سازي به ويژه براي الگوريتمهاي دسته بندي همچون شبکه هاي عصبي يا اندازه گيري فاصله همچون دسته بندي از طريق نزديک ترين همسايه و خوشه بندي مفيد است. در اين الگوريتمها نرمال سازي باعث ميشود که وقتي دادهها براي اندازه گيري فاصله به کار ميروند، داده هايي با مقياس بزرگ نتيجه را به سمت خويش منحرف نکنند.
2-5-1-4 کاهش داده ها
اگر بدون از دست دادن داده ها، داده هاي اصلي از داده هاي فشرده قابل باسازي باشد اين کاهش داده ، بدون اتلاف ناميده ميشود. و اگر اين باز سازي امکان پذير نباشد و به عبارت ديگر در اين تبديل برخي داده ها از ميان بروند، اين کاهش داده را با اتلاف ميگويند]1[.

اغلب مشکلات داده کاوي به علت وجود مقادير زيادي از نمونه ها با ويژگيهاي مختلف به وجود ميآيد. به علاوه اين نمونه ها اغلب ابعاد بالايي دارند.
روشهاي کاهش داده ميتواند براي بدست آوردن يک بازنمايي کوچکتر و کاهش يافته از داده که بسيار کم حجمتر از داده هاي اصلي بوده و البته يکپارچگي داده هاي اصلي را حفظ کند، به کار رود. بنابراين کاوش روي مجموعه داده هاي کاهش يافته بسيار کاراتر است و البته سبب ايجاد نتايج تحليلي مشابه ميشود. استراتژيهاي کاهش داده شامل موارد زير است:
تجميع مکعبي داده ( کاهش سطري): وقتي تجميع بر روي داده هايي که به شکل مکعب گرد آمدهاند، انجام شود.
انتخاب زير مجموعه مشخصه ها ( کاهش ستوني): وقتي ابعاد با ويژگي نامربوط يا با ارتباط ضعيف يا افزونه شناسايي يا حذف شوند.
کاهش تعدد نقاط ( کاهش سطري): جايي که داده به وسيله جايگزينهاي کوچکتر از داده قبلي با استفاده از مدلهاي پارامتريک ( که تنها نياز به ذخيره پارامترهاي مدل دارند) يا مدلهاي ناپارامتريک مانند خوشه بندي، نمونه برداري و استفاده از هيستوگرام کاهش يابد.
گسسته سازي و توليد سلسله مراتب مفهومي: جايي که مقادير داده هاي خام با دامنه يا سطوح مفهومي بالاتر جايگزين ميشود.گسسته سازي يک روش کاهش تعدد نقاط است که راه مفيدي براي توليد خودکار سلسله مراتب مفهومي است.
کاهش بُعد ( کاهش ستوني): جايي که مکانيزم هاي کد کردن براي کاهش اندازه مجموعه داده استفاده ميشود]1[.
2-5-1-4-1 تجميع مکعبي داده
در مکعبهاي داده ميتوان داده را در ابعاد مختلف تجميع کرد، بدون اينکه اطلاعات لازم براي وظايف تحليلي از ميان برود. مثلا در شکل 2-6 فروش فصلهاي مختلف جمعآوري شده و سر جمع سالانه آنها نيز محاسبه و نگهداري ميشود.
به کارگيري اصول فشرده سازي داده ميتواند نقش مهمي در کاهش داده بازي کند.فشرده سازي داده ها روشي است براي کاهش افزونگي در باز نمايي داده ها به منظور کاهش حافظه مورد نياز و در نتيجه کاهش هزينه هاي ارتباطي و انتقال در يک شبکه ارتباطي.

2-5-1-4-2 انتخاب زير مجموعه مشخصه ها
مجموعه داده هاي تحليلي ممکن است شامل هزاران ويژگي باشد که بسياري از آنها ممکن است به وظايف کاوش داده ارتباطي نداشته و يا افزونه باشند. براي مثال اگر کار ما دسته بندي مشتريان به منظور دانستن وجود يا عدم وجود علاقه آنها به خريد محصول جديدي باشد، ويژگيهايي از قبيل شماره تلفن مشتري نسبتا بي ارتباطند.
در عمل، نرخ خطاي زير مجموعه ها در مقايسه با خطاي فوق مجموعه ها ممکن است حتي گاهي بهتر باشد. اين موضوع به دليل محدوديت عملي روشهاي پيش بيني و عدم توانايي آنها براي پويش و يا کاوش در يک فضاي جواب پيچيده است.حذف ويژگيهاي نامربوط معمولا منجر به ساخت مدلي ميشود که روي داده آزمون بهتر جواب ميدهد، يعني تعميم بهتري دارد.
2-5-1-4-3 کاهش تعدد نقاط
روشهاي کاهش تعدد در حقيقت به منظور انتخاب جايگزيني کوچکتر در بازنمايي داده به کار مي رود. ممکن است حجم داده ها براي برخي از برنامه هاي داده کاوي بيش از حد بزرگ باشند. در عصري که صحبت از داده هاي ترابايتي آن هم فقط براي يک کاربرد تنها ميشود، به سادگي امکان تجاوز از ظرفيت يک برنامه داده کاوي وجود دارد.
اين روش ها مي تواند پارامتريک يا ناپارامتريک باشد.براي روشهاي پارامتريک، يک مدل براي تخمين داده به کار مي رود و بنابراين براي داشتن تخميني از داده ها نياز داريم تا تنها پارامترهاي مدل را ( نه همان داده هاي واقعي ) نگه داريم. نمونه روشهاي پارامتريک، رگرسيون و مدلهاي خطي -لگاريتمي و نمونه مدلهاي ناپارامتريک،هيستوگرام، خوشه بندي و نمونه آماري است. بسياري از اين روشها در هموارسازي مطرح شدند.
2-5-1-5 تصوير کردن براي کاهش بعد
در کاهش بعُد از طريق تصوير کردن، تبديلات و کدگذاريهايي روي داده انجام ميشود که در نهايت بازنمايي کاهش يافته يا فشرده اي از داده اصلي به دست ميآيد. تصوير کردن با انتخاب مشخصه متفاوت است. در انتخاب مشخصه، مشخصه هايي جديد زير مجموعه اي از مشخصه هاي اصلي هستند در حالي که در تصوير کردن، مشخصه هاي جديد ترکيبي خطي يا غير خطي از مشخصه هاي اوليه مي باشند. روشهاي کاهش بعُد ، نمايش کوتاهتري از مجموعه داده هاي اوليه را محاسبه مي کند. اين نمايش معمولا يک نمايش تغيير يافته است، زيرا هنگام انتخاب نمايش کوتاهتر، بعضي از اطلاعات از بين رفته اند. روشهاي کاهش بعُد براي نگهداري ساختار اصلي تا حد امکان تلاش مي کنند.
روش هاي مختلفي در اين رابطه وجود دارد که برخي از آنها عبارتند از :تحليل مولفه هاي اصلي18، تجزيه مقدار منفرد19، تبديلات گسسته فوريه، تبديل موجک گسسته، تصويرکردن تصادفي، نگاشت سريع و مقياس گذاري چندبعدي]1[.

بعد ذاتي
بعد ذاتي را توپولوژي در اصل تعيين مي کند آيا مي توان الگوهاي d را با کفايت در زير فضاي کوچکتر از d تعريف کرد يا خير.
براي مثال الگوهاي d بعدي که روي يک سطح صاف قرار گرفته باشند.داراي بعد ذاتي دو هستند (با دو پارامتر قابل تعريف هستند). مفهوم بعد ذاتي با بعد خطي که تعداد مقادير ويژه ي مهم ماتريس کوواريانس ( در PCA) مي باشد کاملا متفاوت است.

2-6 روش هاي ارزيابي دسته بندي
روش هاي مختلفي براي دسته بندي استفاده ميشوند و اين روش ها در شرايط مختلف، رفتارهاي متفاوتي از خود نشان ميدهند.شاخص هاي زير اين روش ها را با يکديگر مقايسه ميکنند:
صحت مدل20 : صحت روش دسته بندي، وابسته به تعداد پيش بيني هاي درستي است که آن مدل انجام داده است.
سرعت21 : زمان لازم براي ساخت و استفاده از مدل در دسته بندي است.
پايداري22 : چنين شاخصي توانايي برخورد مدل در مواجهه با داده هاي غير معمول و يا مقادير مفقوده را نشان ميدهد.
تفسير پذيري23 : اين شاخص نشان دهنده ميزان قابل فهم بودن مدل توسط ديگران و ارائه ديدگاهي روشن نسبت به نحوه دسته بندي و نوع دسته ها است.
جمع و جور بودن مدل24 : اندازه مدل در ايجاد انگيزه جهت استفاده از آن بسيار مهم است.اندازه مدل ميتواند اندازه درخت و يا تعداد قواعد ايجاد شده توسط آن مدل باشد.
همچنين بايد با دو مفهوم زير يعني بيش برازش و مسئله تعميم آشنا شد.
بيش برازش چيست ؟
در روش هاي دسته بندي ممکن است مسئله بيش برازش اتفاق افتد.مثلا يک درخت تصميم باعث بيش برازش دادههاي آموزش مدل شود.در اين حالت دقت روي دادههاي آموزش مدل بالا است اما دقت در مورد داده هاي بعدي آزمون پايين ميآيد.در اين حالت به علت اينکه شاخه هاي بسياري در درخت به وجود آمده، ممکن است درخت حتي داده هاي مغشوش را هم دسته بندي کرده باشد که موجب شاخه هاي زائد در درخت و اشکال در دسته بندي داده هاي جديد ميشود.
مسئله تعميم25
در مسائل دسته بندي از مجموعه محدودي از نمونه ها براي بدست آوردن مدل دسته بندي استفاده ميشود.اگر داده هاي آزمون شبيه داده هايي باشند که مدل با آنها بدست آمده است، مشکلي پيش نمي آيد.ولي در عالم واقع با داده هاي آموزش مدل نميتوان همه سناريوهاي ممکن را مشخص نمود.اين همان مشکلي است که از آن به عنوان مسئله تعميم ياد ميشود.تعميم مشخص ميکند که تا چه ميزان مدل نسبت به ورودي هاي ناشناس، که با مقادير داده هاي آموزش مدل متفاوتند، پايدار است.

مدل ساخته شده در روش دسته بندي براي داده هاي استفاده شده در ساخت آن و يا داده هاي شبيه به آنها درست جواب ميدهد، اما همه داده ها شبيه به داده هاي آموزش نيستند و حتي در برخي موارد فضاي ناشناخته اي وجود دارد که در مورد داده هاي آن فضا، هيچگونه اطلاعاتي در دسترس نيست.در هر صورت ناچار هستيم مدل را بر اساس داده هاي موجود بسازيم ولي بايد سعي شود تا خطا و يا ريسک مدل را کم کرد]1[.
2-6-1 ارزيابي صحت

دسته بندی : No category

دیدگاهتان را بنویسید