نوع فایل: word
قابل ویرایش 70 صفحه
چکیده:
همانطور که می دانیم مجموع اطلاعات در دسترس روی وب بسیار زیاد می باشد و هر ساله شاهد روندرو به رشد تصاعدی در مقدار اطلاعات روی صفحات وب می باشیم. در حقیقت ،وب یک انبار بزرگ اطلاعات است و با یک بررسی اجمالی در میابیم که شمارش صفحات قابل دسترس در وب در حدود یک میلیارد صفحه می باشد وچیزی در حدود یک و نیم میلیون صفحه نیز به طور روزانه اضافه می شوند. به عنوان مثال در حال حاضر سایت گوگل بیشتر از 2/4 میلیارد صفحه را جستجو می کند. این مقدار هنگفت اطلاعات به اضافه طبیعت فعل و انفعالی و پر محتوای وب آنرا بسیار پر طرفدار کرده است. به علاوه سازماندهی این صفحات امکان جستجوی آسان را نمی دهد.
بنابراین با توجه به رشد سریع وب گسترده جهانی ( www ) بطوردائم نیازمند فراهم کردن یک روش خودکار برای کار بران تقسیم بندی و طبقه بندی صفحات وب می باشیم. در بخش نتیجه یک قاعده ، نتیجه ، دسته ای از پیش بینی های یک قانون است که پیش بینی کننده آنها را ثبت کرده است.به عنوان مثال این موضوع می تواند یک قانون باشد که:
اگر شما حقوق بالایی داشته باشید و هیچ رهن و قرضی هم نداشته باشید پس اعتبار بالایی دارید. این نوع ارایه اطلاعات نتایج جامع و کلی برای کاربر دارند. زیرا هدف عمومی نگهداری اطلاعات کشف و دستیابی به اطلاعات دقیق نیست بلکه ارایه اطلاعات عمومی و جامع به کاربران است. در پروسه دسته بندی اهداف کشف قوانین از یک مجموعه اطلاعات پایه و آموزشی و بکار بردن این قوانین در یک مجموعه اطلاعات آزمایشی ( که در اطلاعات پایه دیده نشده ) و ارایه یک پیش بینی قابل قبول از دسته مجموعه آزمایشی است. در این پروژه هدف کشف یک مجموعه خوب از قواعد دسته بندی برای طبقه بندی صفحات وب بر اساس موضوع آنهاست.
هدف این پروژه تقسیم بندی صفحات وب به منظور آسان سازی کار سرویس های جستجوی آینده می باشد وبنابراین توانایی استخراج کردن اطلاعات خاص از میان انبوه صفحات وب به اندازه خود صفحات وب مهم می باشد.بنابراین روش های مؤثر و صحیح برای طبقه بندی این حجم عظیم اطلاعات ضروری است.
این پروژه با تحقیق و بررسی فراوان در سه فصل گرد آوری شده و به توصیف و کشف قوانین مختلف تقسیم بندی و قیاس آنها با یکدیگر می پردازد و در نهایت به معرفی کاراترین روش و ارائه پیشنهادات و راهکارهای اصلاحی می پردازد.در نهایت مطالبی که در این پروژه ارائه می شود همگی بر پایه ی قوانین تقسیم بندی است.
مقدمه:
با رشد سریع جهان پهنه ی گسترده ی وب نیاز فزاینده ای به فعالیت های گسترده در جهت کمک به کاربران صفحات وب برای طبقه بندی و دسته بندی این صفحات وجود دارد. این قبیل کمک ها که در سازمان دهی مقادیر زیاد اطلاعات که با سیستم های جستجو در ارتباط هستند و یا تشکیل کاتالوگ هایی که تشکیلات وب را سامان دهی می کنند ، بسیار مفید هستند.از نمونه های اخیر آن می توان یاهو و فرهنگ لغت looksmart (http://www.looksmart.com) که دارای کاربران زیادی هستند را نام برد.
شواهد نشان می دهد که طبقه بندی نقش مهمی را در آینده سیستم های جستجو بازی می کند. تحقیقات انجام شده نشان می دهد که کاربران ترجیح می دهند برای جستجو ، از کاتولوگ های از پیش دسته بندی شده استفاده کنند. از طرفی رسیدن به این قبیل نیاز های اساسی بدون تکنیک های خودکار دسته بندی صفحات وب و تحت ویرایش دستی و طبیعی توسط انسان بسیار مشکل است. زیرا با افزایش حجم اطلاعات طبقه بندی دستی بسیار وقتگیر و دشوار است.
در نگاه اول ، دسته بندی صفحات وب را می توان از برنامه های اداری دسته بندی متون مقتبس نمود.اگر بخواهیم در یک آزمایش ملموس تر به نتایج دقیق برسیم، راه حل مساله بسیار دشوار خواهد شد.صفحات وب ساختار اصلی و اساسی خود را در قالب زبان HTML قرار می دهند که آنها شامل محتویات پر سروصدا مانند تیترهای تبلیغاتی و یا هدایت گرهای راهنما و غیر متنی هستند.اگز روش های خاص طبقه بندی ویژه متون برای این صفحات بکار گرفته شود چون متمایل به یک الگوریتم خاص دسته بندی متون است ، گمراه شده و باعث از دست رفتن تمرکز بر موضوعات اصلی و محتویات مهم می شود.زیرا این محتویات فقط شامل متن نیست.
پس وظیفه و هدف مهم ما طراحی یک کاوشگر هوشمند برای جستجوی مطالب مهم صفحات وب است که هم شامل اطلاعات متنی و هم سایر اطلاعات مهم باشد.در این مقاله ما نشان می دهیم که تکنیک های خلاصه سازی صفحات وب برای جستجوگر ها دسته بندی صفحات وب ، تکنیکی کاربردی و بسیار مفید است. ما همچنین نشان می دهیم که به جای استفاده از تکنیک های خلاصه سازی در فضای وب که عمدتا برای متون طراحی شده ، می توان از برنامه ها و تکنیک های خاص خلاصه سازی صفحات وب استفاده کرد. به منظور جمع آوری شواهد قابل ملموسی که نشان دهیم تکنیک های خلاصه سازی در صفحات وب سودمند هستند، ما ابتدا یک آزمایش موردی ایده آل را بررسی می کنیم که در آن هر صفحه وب ، با خلا صه این صفحه، که توسط انسان خلاصه شده جابجا شده است.پس از انجام این آزمایش در می یابیم که در مقایسه با استفاه از متن کامل صفحه وب ، حالت خلاصه شده رشد چشمگیر 14.8 درصدی داشته است که پیشرفت قابل ملاحظه ای شمرده می شود.به علاوه در این مقاله ما یک تکنیک جدید خلاصه سازی صفحات وب را پیشنهاد می کنیم که این روش موضوعات اصلی صفحات وب را با روش آنالیز لایه ای صفحات برای بالا بردن دقت دسته بندی استخراج می کند
فهرست مطالب:
فصل اول: معرفی نامه
معرفی فصل دوم پایان نامه
معرفی فصل سوم پایان نامه
فصل دوم:روش های متفاوت تقسیم بندی صفحات وب
2-1- تقسیم بندی صفحات وب بطور مختصر
2-1-1-1- روش خلاصه سازی تعدیل شده Luhn
2-1-1-2 – روش تحلیل معنایی نهفته (LSA)
2-1-1-3- شناسایی مضمون بدنه اصلی توسط تجزیه و تحلیل لایهای
2-1-1-4- خلاصه سازی نظارت شده
2-1-1-5- یک دسته بندی کلی از خلاصه سازی
2-1-2- آزمایشات
2-1-2-1- مجموعه ی داده
2-1-2-2- دسته کننده ها
2-1-2-3- مقیاس ارزیابی
2-1-2-4- نتایج و تحلیل های تجربی
2-1-2-5 مورد پژوهش
2-1-3- نتیجه گیری و عملکرد آینده
2-2- تقسیم بندی صفحات وب با استفاده از الگوریتم اجتماع مورچه ها
2-2-1- پیش پردازش متنی وابسته به زبان شناسی و استخراج وب
2-2-2- الگوریتم Ant- Miner
2-2-3- نتایج محاسباتی
2-2-3-1- تنظیم بصورت عملی
2-2-3-2- نتایج تأثیر تکنیک های پیش پردازش متنی وابسته به زبان شناسی
2-2-4- بحث و تحقیقات آینده
2-3- تقسیم بندی صفحات وب براساس ساختار پوشهای
2-3-1 الگوریتم های تقسیم بندی صفحات وب
2-3-2- روش مبتنی بر ساختار
2-3-3- یک کاربرد خاص
2-3-3-1- استخراج مهمترین خصوصیات
2-3-3-2- عمل دسته بندی
2-3-4 نتایج
2-3-5- نتیجه گیری و عملکرد آینده
فصل سوم: جستجوی وب با استفاده از طبقه بندی خودکار
معماری
3-1-1- دسته کنندهی خودکار
3-1-2-واسط جستجو
آزمایش معتبر سازی
3-2-2- برپایی آزمایش
3-2-2- نتایج تجربی
فهرست لغات هر دسته
3-3-1- تشخیص هرزنامۀ¹ وب
3-3-2- تأثیرات تبعیضات
عملکردهای بعدی
پروژه تقسیم بندی صفحات وب. doc