دستهبندی صفحات وب
گروه کامپیوتر
چكیده
دستهبندی صفحات وب در بسیاری از وظیفههای مدیریتی در وب نقش ضروریای دارد. طبیعت غبرقابل کنترل محتوای وب چالشهای جدیدی را برای این دسته بندی ایجاد می کند اما طبیعت متصل
صفحات وب و همچنین حالت نیمه ساختیافته آنها قابلیتهایی را فراهم می کند که به کمک این دستهبندی میآید. امروزه توسعه زیادی در زمینه دستهبندی هوشمند صفحات صورت گرفته است
بطوریکه بسیاری از محققین تمرکز خود را بر روی این قصیه قرار داده اند. در این مقاله ما رویکردهای دستهبندی صفحات وب را بررسی میکنیم تا چشم انداز های جدیدی را برای تحقیات بیابیم.
همچنین در ابتدا برخی از کاربردهای دستهبندی صفحات وب را بیان خواهیم نمود. همچنین خصوصیتها و الگوریتمهایی را که برای دستهبندی مفید هستند توضیح خواهیم داد.
1- مقدمه
دستهبندی در بسیاری از وظایف مدیریت وبازیابی اطلاعات یک نقش حیاتی ایفا می کند. در وب دستهبندی محتوی صفحات وب برای تمرکز خزیدن[1]، کمک به توسعه راهنماهای وب[2]، تحلیل بر
اساس موضوع[3] لینکهای وب و برای تحلیل ساختار موضوعی وب ضروری است. دستهبندی صفحات وب همچنین می تواند به بهبود شرایط جستجوی وب نیز کمک نماید[1].
دستهبندی صفحات وب که به گروه بندی صفحات وب نیز معروف است عبارتست از فرایند نسبت دادن یک صفحه وب به یک یا چند گروه از پیش تعیین شده. دستهبندی اغلب بعنوان یک مسئله یادگیری
مطرح می شود که در آن از یکسری داده های برچسب گذاری شده برای آموزش و تمرین دستهکننده استفاده می شود تا بر اساس آن دستهکننده بتواند داده ها را برچسب گذاری کند.
2- کاربردهای دستهبندی صفحات وب
2-1- ایجاد ، پشتیبانی یا توسعه راهنماهای وب
برخی از سایتها مانند Yahoo! و dmoz ODP یکسری راهنمای وب دارند که بر اساس آن می توان یکسری جستجو در گروههای از پیش تعیین شده انجام داد که در حال حاضر این راهنماها توسط انسان
ایجاد می شوند. در جولای 2006 در dmoz ODP، 73354 ادیتور راهنما وجود داشت. با گسترش روزافزون صفحات وب دیدگاه سنتی به این قضیه دیگر نمی تواند موثر باشد . اما با استفاده از دستهبندی
صفحات وب می توان این راهنماها را براحتی ایجاد کرد و توسعه داد[1].
2-2- بهبود کیفیت نتایج جستجو
گنگ بودن پرس و جوها[1] یکی از مشکلات اساسی برای نتایج جستجو می باشد. بعنوان مثال کلمه bank هم به معنی ساحل و هم به معنی بانک است. رویکردهای مختلفی برای بازیابی اطلاعات در
اینگونه موارد مطرح گردیده است. Chekuri و گروهش دستهبندی اتوماتیک صفحات وب به منظور افزایش دقت جستجو در وب را مورد مطالعه قرار دادند. به یک دستهکننده آماری با استفاده از یکسری
صفحات موجود آموزش داده شد، سپس این دستهکننده بر روی یکسری صفحات جدید بکار گرفته شد که یک لیست مرتب از گروهها را ایجاد کرد که صفحات وب می توانند در آن قرار گیرند. در زمان پرس
و جو[2] از کاربر خواسته می شود تا یک یا چند گروه را انتخاب نماید بطوریکه فقط اطلاعات مربوط به آن گروهها برگردانده می شوند یا اینکه موتور جستجو فقط یک لیست از گروههایی را نشان می دهد
که اطلاعات مورد نظر در آنها وجود دارد. اما این رویکرد فقط زمانی ثمربخش است که کاربر به دنبال یک چیز معلوم و مشخص بگردد.
نتایج جستجو معمولاً بر اساس رتبه بندی نمایش داده می شوند. یک رویکرد ارائه شده توسط Chen and Damais نتایج جستجو را در یک ساختار سیسله مراتبی از پیش تعیین شده دستهبندی می کند
و نتایج گروهبندی شده را نشان می دهد[4]. مطالعه کاربران آنها نشان میدهد که نمایش گروهی برای کاربران خوشایندتر از نتایج لیست شده است و برای کاربران جهت یافتن اطلاعاتشان موثرتر
است. در مقایسه با روش قبل این روش در زمان پرس و جو اثر کمتری دارد زیرا گروه بندی صفحات در آن بصورت در جا[1] ایجاد می شود. در هر حال لازم نیست که کاربر گروههای مورد نظر خود برای
جستجو را انتخاب نماید بنابراین این روش زمانی که کاربر مورد جستجو را دقیقاً نمیشناسد بسیار سودمند است.
متشابهاً Kaki نیز نمایش گروهی را برای نتایج جستجوی کاربران پیشنهاد داده است. آزمایشات وی نشان می دهد که نمایش گروهی برای کاربران بسیار مفید است مخصوصاً زمانی که رتبه بندی نتایج راضی کننده نیست[5].
Page and Brin الگوریتم رتبه بندی بر اساس لینک[2] را توسعه دادند که Pagerank نامیده شد. در این روش میزان معتبر بودن یک صفحه بر اساس یک گراف ایجاد شده از صفحات وب و لینکهایش و
بدون در نظر گرفتن موضوع هر صفحه محاسبه می شود . Haveliwala رتبهبندی بر اساس موضوع را ارائه کرد که باعث محاسبه رتبه بندی چندگانه می شود بطوریکه رتبه بندی برای هر موضوع جداگانه
خواهد بود . این روش نیاز به یکسری صفحات دارد که از قبل و با دقت دستهبندی شده باشند[1].
کامپیوتر