فرمت:word(قابل ویرایش)
تعداد صفحات:91
پروژه پایانی کارشناسی ناپیوسته کامپیوتر- نرم افزار
چکیده:
در دو دهه قبل تواناییهای فنی بشر برای تولید و جمعآوری دادهها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسبوکار، علوم، خدمات دولتی و پیشرفت در وسائل جمعآوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهوارهای، در این تغییرات نقش مهمی دارند.
بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات میکند. این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژیهای جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند. دادهکاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی دادهکاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی میکنند، که این دانش به صورت ضمنی در پایگاه دادههای عظیم، انبارهداده[1] و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.
به لحاظ اینکه در چند سال اخیر مبحث دادهکاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرمافزارهای آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.
در این مقاله درفصل مروری بر دادهکاوی خواهیم داشت . که به طور عمده به تاریخچه ، تعاریف، کاربردها وارتباط آن با انبار داده و OLAP خواهیم پرداخت. در پایان فصل مراحل فرایند کشف دانش از پایگاه دادهها را ذکر کردیم که دادهکاوی یکی از مراحل آن است.
در فصل 2 یکی از شیوههای دادهکاوی که از سبد خرید گرفته شده است توضیح داده شده است . در این فصل به شرح قوانین ارتباطی خواهیم پرداخت که در آن بعد از دستهبندی الگوریتمها ، الگوریتم Apriori ( که یک الگوریتم پایه در این زمینه است ) و الگوریتم FP-Growth ( یک الگوریتم جدید میباشد) را با شرح یک مثال توضیح میدهیم و در آخر آن دو را با هم مقایسه میکنیم .
در فصل 3 مباحث وبکاوی و متنکاوی را که در بسیاری از مراجع جزء کاربردهای دادهکاوی به حساب میآید شرح داده خواهد شد.
فهرست مطالب:
عنوان صفحه
فهرست اشکال …………………………………………………………………………………………………………………………….. 10
فهرست جداول ……………………………………………………………………………………………………………………………. 11
فصل1: مقدمهای بر دادهکاوی …………………………………………………………………. 13
1-1 تعریف دادهکاوی ………………………………………………………………………………………………………………….. 15
2-1 تاریخچه دادهکاوی ……………………………………………………………………………………………………………….. 16
3-1 چه چیزی سبب پیدایش دادهکاوی شده است؟ ……………………………………………………………………………. 17
4-1 اجزای سیستم دادهکاوی …………………………………………………………………………………………………………. 19
5-1 جایگاه دادهکاوی در میان علوم مختلف …………………………………………………………………………………….. 21
6-1 قابلیتهای دادهکاوی ………………………………………………………………………………………………………………… 22
7-1 چرا به دادهکاوی نیاز داریم؟ ……………………………………………………………………………………………………. 23
8-1 دادهکاوی چه کارهایی نمیتواند انجام دهد؟ ……………………………………………………………………………… 25
9-1 کاربردهای دادهکاوی …………………………………………………………………………………………………………….. 25
1-9-1 کاربردهای پیشبینیکننده ……………………………………………………………………………………… 27
2-9-1 کاربردهای توصیفکننده ………………………………………………………………………………………. 27
10-1 ابزارهای تجاری دادهکاوی ……………………………………………………………………………………………………. 28
11-1 دادهکاوی و انباردادهها …………………………………………………………………………………………………………. 29
1-11-1 تعاریف انبارداده …………………………………………………………………………………………………. 29
2-11-1 چهار خصوصیت اصلی انبارداده …………………………………………………………………………….. 30
3-11-1 موارد تفاوت انبارداده و پایگاه داده ………………………………………………………………………… 31
12-1 دادهکاوی و OLAP …………………………………………………………………………………………………………… 33
1-12-1 OLAP …………………………………………………………………………………………………………… 33
2-12-1 انواع OLAP ……………………………………………………………………………………………………. 34
13-1 مراحل فرایند کشف دانش از پایگاه دادهها ………………………………………………………………………………. 34
1-13-1 انبارش دادهها …………………………………………………………………………………………………….. 35
2-13-1 انتخاب دادهها …………………………………………………………………………………………………….. 36
3-13-1 پاکسازی- پیشپردازش- آمادهسازی …………………………………………………………………….. 36
4-13-1 تبدیل دادهها ………………………………………………………………………………………………………. 36
5-13-1 کاوش در دادهها (Data Mining) ……………………………………………………………………… 37
6-13-1 تفسیر نتیجه ………………………………………………………………………………………………………… 38
فصل 2: قوانین ارتباطی ………………………………………………………………… 39
1-2 قوانین ارتباطی ………………………………………………………………………………………………………………………. 40
2-2 اصول پایه …………………………………………………………………………………………………………………………….. 41
1-2-2 شرح مشکل جدی ………………………………………………………………………………………………… 41
2-2-2 پیمایش فضای جستجو …………………………………………………………………………………………… 43
3-2-2 مشخص کردن درجه حمایت مجموعه اقلام ………………………………………………………………. 45
3-2 الگوریتمهای عمومی ……………………………………………………………………………………………………………… 45
1-3-2 دستهبندی ……………………………………………………………………………………………………………. 45
2-3-2 BFS و شمارش رویدادها ……………………………………………………………………………………… 46
3-3-2 BFS و دونیمسازی TID-list ………………………………………………………………………………. 47
4-3-2 DFS و شمارش رویداد ………………………………………………………………………………………… 47
5-3-2 DFS و دو نیمسازی TID-list ……………………………………………………………………………… 48
4-2 الگوریتم Apriori ……………………………………………………………………………………………………………….. 48
1-4-2 مفاهیم کلیدی ……………………………………………………………………………………………………… 48
2-4-2 پیادهسازی الگوریتم Apriori ……………………………………………………………………………….. 49
3-4-2 معایب Apriori و رفع آنها ……………………………………………………………………………………. 54
5-2 الگوریتم رشد الگوی تکرارشونده ……………………………………………………………………………………………. 55
1-5-2 چرا رشد الگوی تکرار سریع است؟ …………………………………………………………………………. 58
6-2 مقایسه دو الگوریتم Apriori و FP-growth ………………………………………………………………………….. 59
7-2 تحلیل ارتباطات …………………………………………………………………………………………………………………….. 63
فصل 3: وبکاوی و متنکاوی ……………………………………………………….. 65
1-3 وبکاوی …………………………………………………………………………………………………………………………….. 66
1-1-3 الگوریتمهای هیتس و لاگسام ………………………………………………………………………………….. 69
2-1-3 کاوش الگوهای پیمایش مسیر …………………………………………………………………………………. 76
2-3 متنکاوی …………………………………………………………………………………………………………………………….. 80
1-2-3 کاربردهای متنکاوی …………………………………………………………………………………………….. 82
1-1-2-3 جستجو و بازیابی …………………………………………………………………………………. 83
2-1-2-3 گروهبندی و طبقهبندی ………………………………………………………………………….. 83
3-1-2-3 خلاصهسازی ………………………………………………………………………………………. 84
4-1-2-3 روابط میان مفاهیم ………………………………………………………………………………… 84
5-1-2-3 یافتن و تحلیل گرایشات ………………………………………………………………………… 84
6-1-2-3 برچسب زدن نحوی (pos) ……………………………………………………………………. 85
7-1-2-3 ایجاد Thesaurus و آنتولوژی به صورت اتوماتیک ………………………………….. 85
2-2-3 فرایند متنکاوی ……………………………………………………………………………………………………. 86
3-2-3 روشهای متنکاوی ………………………………………………………………………………………………… 87
مراجع ……………………………………………………………………………………….. 89
فهرست اشکال:
عنوان صفحه
1-1 مراحل فرایند کشف دانش ………………………………………………………………………………………………………. 17
2-1 سیر تکاملی صنعت پایگاه داده …………………………………………………………………………………………………. 19
3-1 معماری یک نمونه سیستم دادهکاوی …………………………………………………………………………………………. 20
4-1 نرخ رشد اطلاعات ………………………………………………………………………………………………………………… 24
5-1 کاربرد پیشبینی کننده ……………………………………………………………………………………………………………. 27
6-1 دادهها از انباردادهها استخراج میگردند …………………………………………………………………………………….. 32
7-1 دادهها از از چند پایگاه داده استخراج میگردند ………………………………………………………………………….. 32
1-2 شبکهای برای ………………………………………………………………………………………………….. 43
2-2 درخت ………………………………………………………………………………………………………….. 44
3-2 دستهبندی الگوریتمها ……………………………………………………………………………………………………………… 46
4-2 پایان الگوریتم Apriori ………………………………………………………………………………………………………… 52
5-2 درخت الگوی تکرار ……………………………………………………………………………………………………………… 57
6-2 اندازهگیری کارکرد درجه حمایت برای پایگاه داده D1 40K …………………………………………………….. 61
7-2 اندازهگیری Apriori با درجه حمایت/تراکنش …………………………………………………………………………. 62
8-2 اندازهگیری FP-growth با درجه حمایت/تراکنش …………………………………………………………………… 62
1-3 مقداردهی اولیه الگوریتم HITS ……………………………………………………………………………………………… 72
2-3 مثالی از الگوهای پیمایش ……………………………………………………………………………………………………….. 80
3-3 فرایند متنکاوی ……………………………………………………………………………………………………………………. 86
4-3 مثال یافتن روابط ……………………………………………………………………………………………………………………. 88
فهرست جداول:
عنوان صفحه
1-2 کاوش FP-tree با ایجاد پایگاههای الگوشرطی …………………………………………………………………………. 58
2-2 پارامترها ………………………………………………………………………………………………………………………………. 59
3-2 نتایج برای فاکتور درجه حمایت 5% ………………………………………………………………………………………….. 60
4-2 نتایج برای D1 150K با درجه حمایت ……………………………………………………………………………………. 61
1-3 تراکنشهای توصیف شده توسط مجموعهای از URLها …………………………………………………………….. 75
2-3 نمایش URLها به عنوان بردارهایی از فعالیت گروه تراکنش ………………………………………………………… 75
3-3 یک SOM مرسوم که توسط توصیف URLها تولید شده است …………………………………………………… 76