کامپیوتر و IT
دانلود تحقیق کامپیوتر
روشها و تکنیک های داده کاوی
تکنیکهای داده کاوی به چند دسته تقسيم می شوند که سه دسته اصلی عبارتند از خوشه بندی ، طبقه بندی و کشف قواعد انجمنی . در ادامه هر يک از اين روشها را به طور کلی معرفی می نماييم.
مقدمه داده کاوی
دادهکاوی توسط ابزارهای الگوریتمیک، الگوها، تغییرات، آنومالیها، قوانین، و ساختارهای مهم آماری، و رویدادها را از مجموعه دادههای عظیم استخراج میکند.[5] میتوان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بين داده های فعلی و پيش بينی موارد نامعلوم و يا مشاهده نشده عمل می کند. برای انجام عمليات کاوش لازم است قبلاً روی داده های موجود پیش پردازشهایی انجام گيرد. عمل پيش پردازش اطلاعات خود از دو بخش کاهش اطلاعات، و خلاصه سازی و کلی سازی داده ها تشکيل شده است.
خوشه بندی
فرآيند خوشه بندی سعی دارد که يک مجموعه داده را به چندين خوشه تقسيم نمايد بطوريکه دادههای قرار گرفته در يک خوشه با يکديگر شبيه بوده و با داده های خوشه های ديگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشه بندی داده ها وجود دارد که بر اساس نوع داده ها، شکل خوشه ها، فاصله داده ها و غيره عمل خوشه بندی را انجام می دهند.
مهمترین روشهای خوشه بندی در زير معرفی شده اند:
1.روشهای خوشهبندی مبتنی بر تقسيمبندی
این روشها، داده های موجود در يک مجموعه داده را به k خوشه تقسيم می کنند، بطوريکه هر خوشه دو خصوصيت زير را داراست:
• هر خوشه يا گروه حداقل شامل يک داده می باشد.
• هر داده موجود در مجموعه داده دقیقاً به يک گروه يا خوشه تعلق دارد.
معيار اصلی در چنين مجموعه داده هايی ميزان شباهت داده های قرار گرفته در هر خوشه می باشد. در حاليکه دادههای قرار گرفته در دو خوشه مختلف از نظر شباهت با يکديگر فاصله زيادی دارند. مقدار k که به عنوان پارامتر استفاده می گردد، هم می تواند به صورت پويا تعيين گردد و هم اينکه قبل از شروع الگوريتم خوشه بندی مقدار آن مشخص گردد.
2. روشهای سلسله مراتبی
روشهای سلسله مراتبی به دو دسته کلی روشهای پایین به بالا و روشهای بالا به پایین تقسيم میگردند. روشهای سلسله مراتبی پایین به بالا به اين صورت عمل می کنند که در شروع هر کدام از داده ها را در يک خوشه جداگانه قرار می دهد و در طول اجرا سعی می کند تا خوشه هايی نزديک به يکديگر را با هم ادغام نمايد. اين عمل ادغام تا زمانی که يا تنها يک خوشه داشته باشيم و يا اينکه شرط خاتمه برقرار گردد، ادامه می يابد. روشهای بالا به پایین دقیقاً به طریق عکس عمل می کنند، به اين طريق که ابتدا تمام داده ها را در يک خوشه قرار می دهد و در هر تکرار از الگوريتم، هر خوشه به خوشه های کوچکتر شکسته می شود و این کار تا زمانی ادامه می-يابد که يا هر کدام از خوشه ها تنها شامل يک داده باشند و يا شرط خاتمه الگوريتم برقرار گردد. شرط خاتمه معمولاً تعداد کلاستر يا خوشه می باشد.
فهرست مطالب
2-1- مقدمه 7
2-2- دادهکاوی 7
2-2-1- خوشهبندی 8
2-2-1-1- روشهای تقسيمبندی 8
2-2-1-2- روشهای سلسله مراتبی 8
2-2-1-3- روشهای مبتنی بر چگالی 9
2-2-2- طبقهبندی 9
2-2-2-1- طبقهبندی مبتنی بر قواعد 10
2-2-3- کشف قواعد انجمنی 12
2-2-3-1- تعاریف و مفاهیم اصلی در قواعد انجمنی 12
2-2-3-1-1- تقسیم بندی قواعد انجمنی 14
2-2-3-1-2- استخراج قواعد تکسطحی تک بعدی دودویی 14
2-2-3-1-2-1- مرحله پیوست 16
2-2-3-1-2-2- مرحله هرس 17
2-2-3-1-3- محاسبه اطمینان و استخراج قواعد نهایی 17
2-3- دادهکاوی توزيع شده 17
2-6-1- دادهکاوی توزيع شده 33
2-6-2- کارهای مهم انجام شده در زمينه دادهکاوی با استفاده از عامل 36
2-7- جمعبندی
منابع