عنوان:
بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005 پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان
پایان نامه دوره کارشناسی کامپیوتر
گرایش نرم افزار
فهرست مطالب:
چکیده ۱۴
بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005. 14
پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان. ۱۴
فصــل اول. ۱۵
مقدمه ای بر داده کاوی ۱۵
۱-۱-مقدمه. ۱۶
۱-۲-عامل مسبب پیدایش داده کاوی.. ۱۷
-۳-داده کاوی و مفهوم اکتشاف دانش (K.D.D) 18
1-3-1-تعریف داده کاوی.. ۱۹
۱-۳-۲- فرآیند دادهکاوی.. ۲۰
۱-۳-۳- قابلیت های داده کاوی.. ۲۱
۱-۳-۴-چه نوع دادههایی مورد کاوش قرار می گیرند؟. ۲۱
فایلهای ساده (FLAT FILES): 21
پایگاههای داده ای رابطه ای(RDBMS): 22
انبارهای داده ای.. ۲۲
۱-۴- وظایف داده کاوی.. ۲۳
۱-۱-۴-کلاس بندی.. ۲۳
۱-۴-۲- مراحل یک الگوریتم کلاسبندی.. ۲۴
۱-۴-۳- انواع روشهای کلاسبندی.. ۲۵
۱-۴-۳-۱- درخت تصمیم ۲۵
۱-۴-۳-۱-۱- کشف تقسیمات ۲۷
۱-۴-۳-۱-۲- دسته بندی با درخت تصمیم ۲۸
انواع درختهای تصمیم ۲۹
۱-۴-۳-۱-۴- نحوهی هرس کردن درخت.. ۳۰
۱-۴-۳-۲- نزدیکترین همسایگی_ K.. 31
1-4-3-3-بیزی.. ۳۲
۱-۴-۳-۳-۱ تئوری بیز. ۳۴
۱-۴-۳-۳-۲ -دسته بندی ساده بیزی.. ۳۶
یک مثال در توضیح طبقه بندی ساده بیزی.. ۳۸
ارزیابی روشهای کلاسبندی.. ۴۱
-۲-۴-۱پیش بینی. ۴۲
۱-۴-۳-انواع روشهای پیش بینی. ۴۳
۱-۴-۳-۱- رگرسیون. ۴۳
۱-۴-۳-۱ -۱- رگرسیون خطی.. ۴۳
۱-۴-۳-۱-۲- رگرسیون منطقی. ۴۵
۱-۴-۳- خوشه بندی.. ۴۶
۱-۴-۳-۱- تعریف فرآیند خوشهبندی.. ۴۷
۱-۴-۳-۲- کیفیت خوشهبندی.. ۴۷
۱-۴-۳-۳- روش ها و الگوریتمهای خوشهبندی.. ۴۸
۱-۴-۳-۳-۱- روش های سلسلهمراتبی ۴۹
۱-۴-۳-۳-۱-۱- الگوریتم های سلسله مراتبی. ۴۹
۱-۴-۳-۳-۱-۱-۱-الگوریتم خوشه بندی single-linkage. 51
الگوریتم شامل مراحل زیر است : ۵۱
مثال: ۵۲
۱-۴-۳-۳-۲- الگوریتمهای تفکیک.. ۵۷
۱-۴-۳-۳-۳- روشهای متکی برچگالی. ۵۷
۱-۴-۳-۳-۴- روشهای متکی بر گرید ۵۸
۱-۴-۳-۳-۵- روشهای متکی بر مدل. ۵۸
۱-۴-۴- تخمین. ۵۸
۱-۴-۴-۱- درخت تصمیم ۵۹
۱-۴-۵- سری های زمانی : ۵۹
۱-۵-کاربردهای داده کاوی.. ۵۹
۱-۶-قوانین انجمنی. ۶۰
۱-۶-۱-کاوش قوانین انجمنی. ۶۱
۱-۶-۲- اصول کاوش قوانین انجمنی. ۶۲
۱-۶-۳- اصول استقرا در کاوش قوانین انجمنی. ۶۳
۱-۶-۴- الگوریتم Apriori 66
1-7-متن کاوی.. ۶۷
۱-۷-۱- مقدمه. ۶۷
۱-۷-۲- فرآیند متن کاوی.. ۷۱
۱-۷-۳- کاربردهای متن کاوی.. ۷۳
۱-۷-۳-۱- جستجو و بازیابی. ۷۴
گروه بندی و طبقه بندی داده ۷۴
خلاصه سازی.. ۷۵
روابط میان مفاهیم ۷۶
۱-۷-۳-۵- یافتن و تحلیل ترند ها ۷۶
برچسب زدن نحوی (POS) 77
1-6-2-7- ایجاد تزاروس و آنتولوژی به صورت اتوماتیک… ۷۷
۱-۸-تصویر کاوی.. ۷۸
۱-۹- وب کاوی.. ۷۹
فصل دوم ۸۲
الگوریتم ژنتیک… ۸۲
۱-۲-مقدمه. ۸۳
مفاهیم پایه و لغات کلیدی.. ۸۳
۲-۲- اصول الگوریتم ژنتیک… ۸۴
۲-۲-۱-کد گذاری.. ۸۴
۲-۲-۱-۱- روش های کد گذاری.. ۸۴
۲-۲-۱-۱-۱- کدگذاری دودویی. ۸۴
۲-۲-۱-۱-۲-کدگذاری مقادیر. ۸۵
۲-۲-۱-۱-۳- کدگذاری درختی. ۸۵
۲-۲-۲- ارزیابی. ۸۶
۲-۲-۳-انتخاب.. ۸۷
۲-۲-۳-۱-انتخاب گردونه دوار. ۸۷
۲-۲-۳-۲- انتخاب رتبه ای.. ۸۸
۲-۲-۳-۳- انتخاب حالت استوار. ۹۰
۲-۲-۳-۴-نخبه گزینی. ۹۰
۲-۲-۴- عملگرهای تغییر. ۹۰
۲-۲-۴-۱-عملگر Crossover 91
2-2-4-2-عملگر جهش ژنتیکی. ۹۲
۲-۲-۴-۳-احتمال Crossover و جهش.. ۹۳
۲-۲-۵- کدبرداری.. ۹۳
۲-۲-۶-دیگر پارامترها ۹۴
۲-۴-مزایای الگوریتم های ژنتیک… ۹۶
۲-۵- محدودیت های الگوریتم های ژنتیک… ۹۷
۲-۶-چند نمونه از کاربرد های الگوریتم های ژنتیک… ۹۸
۲-۶-۱-یک مثال ساده ۹۹
نسل اول. ۱۰۰
نسل بعدی.. ۱۰۲
جهش(Mutation) 103
فصل سوم ۱۰۴
شبکه های عصبی. ۱۰۴
۳-۱-چرا از شبکه های عصبی استفاده می کنیم؟. ۱۰۵
۳-۲-سلول عصبی. ۱۰۶
۳-۳-نحوه عملکرد مغز. ۱۰۸
۳-۴-مدل ریاضی نرون. ۱۰۸
۳-۵- آموزش شبکههای عصبی. ۱۱۶
۳-۶-کاربرد های شبکه های عصبی. ۱۱۹
فصل چهارم ۱۲۲
محاسبات نرم ۱۲۲
۴-۱-مقدمه. ۱۲۳
۴-۲-محاسبات نرم چیست ؟. ۱۲۶
۴-۲-۱-رابطه. ۱۲۷
۴-۲-۲-مجموعه های فازی.. ۱۳۰
۴-۲-۲-۱-توابع عضویت.. ۱۳۵
۴-۲-۲-۲- عملیات اصلی. ۱۳۷
۴-۲-۳-نقش مجموعههای فازی در دادهکاوی.. ۱۳۸
۴-۲-۳-۱- خوشه بندی.. ۱۳۹
۴-۲-۳-۲- خلاصه سازی دادهها ۱۴۰
۴-۲-۳-۳- تصویر کاوی.. ۱۴۱
۴-۲-۴- الگوریتم ژنتیک… ۱۴۲
۴-۲-۵-نقش الگوریتم ژنتیک در داده کاوی.. ۱۴۹
۴-۲-۵-۱- رگرسیون. ۱۴۹
۴-۲-۵-۲- قوانین انجمنی. ۱۵۰
۴-۳- بحث و نتیجه گیری.. ۱۵۳
فصل پنجم ۱۵۵
ابزارهای داده کاوی.. ۱۵۵
۵-۱- نحوه ی انتخاب ابزارداده کاوی.. ۱۵۶
۵-۳- چگونه می توان بهترین ابزار را انتخاب کرد؟. ۱۶۳
۵-۴-ابزار های داده کاوی که در ۲۰۰۷ استفاده شده است : ۱۶۵
۵-۵-داده کاوی با sqlserver 2005. 165
5-5-10- Microsoft-Loistic-Regression. 213
5-5-11-Microsoft-Linear-Regression. 213
فصل ششم ۲۱۴
نتایج داده کاوی با SQL SERVER2005. 214
روی بانک اطلاعاتی دانشگاه آزاد قوچان. ۲۱۴
۱-۶-نتایج Data Mining With Sql Server 2005 روی بانک اطلاعاتی دانشگاه آزاد قوچان. ۲۱۵
۱-۶-۱-Microsoft association rule. 215
1-6-2- Algorithm cluster 216
1-6-3- Neural network. 216
1-6-4- Modle naive-bayes. 217
1-6-5-Microsoft Tree Viewer 220
تعداد خواهر وبرادران دانشجویان ورودی سال ۷۴ حدودا بین ۱-۲ تاطبق آمار بوده است . ۲۲۰
۷-۱-نتیجه گیری.. ۲۲۱
منابع وماخذ ۲۲۳
چکیده:
بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005
پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد.
داده کاوی یکی از مهمترین روش ها ی کشف دانش است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند.داده کاوی را تحلیل گران با اهداف گوناگونی از قبیل کلاس بندی, پیش بینی, خوشه بندی ,تخمین انجام می دهند. برای کلاس بندی, مدل هاو الگوریتم هایی مانند قاعده ی بیز, درخت تصمیم, شبکه ی عصبی, الگوریتم ژنتیک مطرح شده است.برای پیش بینی مدل رگرسیون خطی ومنطقی و برای خوشه بندی الگوریتم های سلسله مراتبی و تفکیکی, وبرای تخمین مدل های درخت تصمیم و شبکه ی عصبی مطرح می شود. در فصل دوم و سوم با الگوریتم ژنتیک که یکی از الگوریتم های داده کاوی و با شبکه ی عصبی که یکی از مدل های داده کاوی هستند آشنا می شویم .درفصل چهارم به محاسبات نرم و برخی از اجزای اصلی ان و نقش آنها در داده کاوی می پردازیم.
در فصل پنجم با ابزارهای داده کاوی آشنا می شویم . برای داده کاوی ابزارهای متنوعی وجود دارد. می توان ابزارداده کاوی را با تطبیق آن ابزار با داده های مسئله و با توجه به محیط داده ای که می خواهید از آن استفاده کنید، و امکاناتی که آن ابزار دارد انتخاب کنید.وسپس به داده کاوی با SQLSERVER2005 می پردازیم .ودرفصل ششم به داده کاوی با SQL SERVER2005 روی بانک اطلاعاتی دانشگاه آزاد قوچان پرداختیم.
کلمات کلیدی ،کلاس بندی ، خوشه بندی ، پیش بینی ، تخمین
فصــل اول
مقدمه ای بر داده کاوی
۱-۱-مقدمه
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .با استفاده از ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها خیلی بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شوند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است .از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند .
داده کاوی یکی از مهمترین این روش ها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند .
۱-۲-عامل مسبب پیدایش داده کاوی
اصلی ترین دلیلی که باعث شده داده کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به اینکه از این داده ها, اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش بدست آمده در کاربردهای وسیعی مورد استفاده قرار می گیرد.
داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد، نظیر عملیات جمع آوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها.
تکامل تکنولوژی پایگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم فراوانی داده شده است. این داده های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده ها گشته، زیرا در حال حاضر به لحاظ داده ثروتمند هستیم ولی دچار کمبود اطلاعات می باشیم.
ابزارهای داده کاوی داده ها را آنالیز می کنند و الگوهای داده ها را کشف می کنند که می توان از آن در کاربردهایی نظیر تعیین استراتژی برای کسب و کار، پایگاه دانش و تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبدیل کنیم .
۱
-۳-داده کاوی و مفهوم اکتشاف دانش (K.D.D)
با حجم عظیم داده های ذخیره شده در فایلها، بانکهای اطلاعاتی و سایر بانک های داده ای، توسعه ی ابزارهایی برای تحلیل و شاید تفسیر چنین داده هایی و برای استخراج علوم شگفت انگیزی که می توانند در تصمیم گیری مفید باشند، امری بسیار مهم و ضروری است. داده کاوی با عنوان کشف دانش در پایگاه های داده (KDD) شناخته میشود. کشف علومی که قبلا ناشناخته بودهاند و اطلاعاتی که در بانکهای اطلاعاتی موجود بوده و ذاتا بالقوه و مفید هستند.
با وجود آنکه داده کاوی و کشف دانش در پایگاههای داده مترادف همدیگر هستند، ولی در اصل، داده کاوی ذاتاً بخشی و تنها قسمتی جزئی از فرآیند کشف دانش است. فرآیند کشف دانش در بر گیرنده ی چندین مرحله می باشد که از اطلاعات خام، گونه هایی از علوم جدید را بدست می دهد. مراحل کشف دانش به قرار زیر است:
۱- پاکسازی داده ها : در این فاز داده های اضافی و نامربوط از مجموعه داده ها حذف می شوند.(داده های ناکامل) [۲] ۲-یکپارچه سازی داده ها : چندین منبع داده ترکیب می شوند،