کوشا فایل

کوشا فایل بانک فایل ایران ، دانلود فایل و پروژه

کوشا فایل

کوشا فایل بانک فایل ایران ، دانلود فایل و پروژه

تحقیق چگونگی رسمیت و لازم الاجرا شدن معاهدات در حقوق کنونی جمهوری اسلامی ایران

اختصاصی از کوشا فایل تحقیق چگونگی رسمیت و لازم الاجرا شدن معاهدات در حقوق کنونی جمهوری اسلامی ایران دانلود با لینک مستقیم و پرسرعت .

تحقیق چگونگی رسمیت و لازم الاجرا شدن معاهدات در حقوق کنونی جمهوری اسلامی ایران


تحقیق چگونگی رسمیت و لازم الاجرا شدن معاهدات در حقوق کنونی جمهوری اسلامی ایران

 

 

 

 

 

 




فرمت فایل : WORD (قابل ویرایش)

تعداد صفحات:54

فهرست مطالب:

چگونگی رسمیت یافتن و لازم الاجرا شدن معاهدات در حقوق کنونی ایران
تعریف معاهده – توافق بین المللی
معاهده بین المللی                                    
آزادی در کتبی بودن معاهده – انعقاد معاهده بین تابعان حقوق بین الملل     
معاهده مشمول حقوق بین الملل – دو یا چند جانبه بودن معاهده         
تعریف معاهده در حقوق ایران – در حقوق بین الملل اسلامی             
انواع معاهدات در حقوق ایران                             
معاهدات رسمی ( عهدنامه – مقاوله نامه – موافقت نامه – پیمانهای مربوط به اتحادیه های بین المللی)                         
تفاهم نامه های بین المللی و انواع آن                         
مراحل تنظیم معاهدات رسمی در حقوق ایران                 
مذاکرات و امضاء مقدماتی                             
تصویب در مجلس – تائید شورای نگهبان – امضاء رئیس جمهور
انتشار در روزنامه رسمی کشور
مبادله اسناد تصویب معاهده
مبادله اسناد تصویب شده     
زمان لازم الاجرا شدن معاهده
منابع

 

چکیده:

چگونگی رسمیت یافتن و لازم الاجرا شدن معاهدات در حقوق کنونی ایران
برای آگاهی یافتن از هر مطلب ، عنوان و موضوعی اقتضاء دارد ابتداً در راستای شناخت اجمالی آن به تعریف و شناسایی آن توضیحاتی ارائه شود لذا در همین رابطه نخست لازم میدانم در خصوص کلمه “ معاهده ” توضیحاتی را ارائه و سپس در خصوص معانی مرتبط و اصطلاحی آن توضیحاتی را داشته باشم .
نخست کلمه معاهده
معاهده به معنای عهد و سوگند و پیمان و شرط . با یکدیگر عهد کردن . پیمان نمودن با کسی و سوگند خوردن . با کسی عهد کردن اسم نوعی از عقد صلح بین مسلمانان و غیر مسلمانان است که پیش از جنگ و یا به عنوان ختم جنگ منعقد می شد و نتیجه آن صلح موقت است . ( به عکس عقد ذمه ) و در متن عقد باید مدت آن معلوم گردد و عقد مذکور استقلال سیاسی خصم را از بین نمی برد و طرف این عقد ممکن است ذمی یا غیر ذمی باشد و پس از انعقاد عقد ، طرف را معاهد نامیده اند ، به جای معاهده لغت مهادنه هم به کار رفته است در ترمینولوژی حقوقی تالیف دکتر جعفری لنگرودی به معنی عهد ( در مقابل نذر ) است و همچنین در اصطلاح حقوق بین المللی به معنی قرارداد بین المللی است .(1) معاهده معادل Traite در زبان فرانسوی و Treaty در زبان انگلیسی می باشد .
1-    لغتنامه دهخدا ص 681 ج 44
تعریف معاهده در حقوق بین الملل ، حقوق ایران و فقه اسلامی
الف – در حقوق بین الملل
قبل از تدوین کنوانسیون وین 1969 درباره حقوق معاهدات ، اکثر حقوقدانان از “ معاهده ” به عنوان مفهوم کلی و وسیله ای عام که کشورها بین خود با صور و اشکال متفاوت ایجاد الزام می کنند ، یاد می نمودند ، ( مانند اوپنهایم توسط اوترپاخت حقوق بین الملل 12 شماره 491 تا 554 و 569 تا 580 ، ص 877 به بعد و شارل روسو ) ولی کنوانسیون مزبور در ماده 2 معاهده را نوعی “ توافق بین المللی ” تلقی نموده و مفهوم محدودتری را برای آن شناخته است و ذیلاً به تعریف این دو واژه می پردازیم .
1-    توافق بین المللی
توافق بین المللی به معنی وسیع کلمه عبارت از عمل حقوقی است که از تعراضی دو یا چند جانبه تابعان حقوق بین الملل ایجاد گردد و مشمول حقوق بین الملل باشد براساس تعریف مذکور خصوصیات توافق بین المللی عبارتند از :
1- هیچگونه شرط صوری ( مثلاً کتبی بودن ) برای توافق بین المللی لازم نمی باشد.
2- بین تابعان حقوق بین الملل ( و نه اشخاص خصوصی ) منعقد شده باشد .
3- مشمول حقوق بین الملل باشد ( و نه حقوق داخلی یک کشور معین )
4- دو یا چند جانبه باشد و نه یکجانبه
لازم است یادآوری گردد که برخلاف معاهده ، توافق بین المللی ممکن است شفاهی و یا حتی بطور ضمنی منعقد شده باشد .
*  دیوان دائمی بین المللی دادگستری در رای مورخ 1933 در قضیه گرینلند شرقی راجع به اختلاف بین دانمارک و نروژ بیانات شفاهی وزیر امور خارجه نروژ را که بنا به درخواست نماینده دولت خارجی صادر شده است ، الزام آور تلقی کرده و بمنزله انعقاد یک توافق بین المللی خوانده است . ( آرای دیوان، شماره A/B . 53  ص71 ) در خصوص ضمنی بودن توافق بین المللی نباید رضایت و تـــوافق ضمنی Tacit Consent دو کشور که ناشی از رفتار مشابه آنها می باشد بـــا رضایت تلویحی Tacit acquiescence که غیر مشخص بوده و تاحدی تخیلی و فرضی است اشتباه کرد .
در بعضی موارد ممکن است حصول توافق بین المللی مبهم به نظر برسد و موجب اشکال و اختلاف نظر گردد.
مثلاً در قضیه “ آمباتیه سوس ” در اختلاف بین یونان و انگلستان ، دیوان بین المللی دادگستری در رای مورخ ژوئیه 1953 ، اعلامیه مورخ 16 ژوئیه 1926 را که یونان بطور یکجانبه درباره صلاحیت رسیدگی به منازعات صادر نموده بود جزئی از توافق مندرج در عهدنامه ای که به تاریخ همان روز بین طرفین امضاء شده بود ، دانسته ، حال آنکه تعدادی از قضات دیوان اعلامیه مزبور را مستقل از معاهده اصلی تلقی نموده اند .
ماده 9 پروتکل بروکسل مورخ 17 اکتبر 1953 حاوی تصمیمات کنفرانس اروپائی وزرای ترابری در مورد تعهدات اقدامات خاص وزراء در کشورشان نیز قابل بحث و بررسی است که آیا یک تعهد لازم الاجرا ی حقوقی است یا یک تعهد اخلاقی gentlemem agreement که دولت را از نظر بین المللی متعهد نمی‌سازد؟
 


دانلود با لینک مستقیم

رهنمون های لازم پیشگیری از بروسلوز برای کارگران کارخانه بسته بندی گوشت

اختصاصی از کوشا فایل رهنمون های لازم پیشگیری از بروسلوز برای کارگران کارخانه بسته بندی گوشت دانلود با لینک مستقیم و پرسرعت .

رهنمون های لازم پیشگیری از بروسلوز برای کارگران کارخانه بسته بندی گوشت


رهنمون های لازم پیشگیری از بروسلوز برای کارگران کارخانه بسته بندی گوشت

 

 

 

 

 

 

 

مقاله با عنوان رهنمون های لازم پیشگیری از بروسلوز برای کارگران کارخانه بسته بندی گوشت در فرمت ورد و شامل مطالب زیر می باشد:

مقدمه
نحوه شیوع بیماری
علائم عمده بیماری
ممارست های کاری
بهداشت شخصی
کمک های اولیه
آموزش کارگران
مراقبت پزشکی
تست سرولوژیکی و تشریح آن
درمان
References


دانلود با لینک مستقیم

نکات اصولی و لازم جهت برنامه ریزی ورزشی

اختصاصی از کوشا فایل نکات اصولی و لازم جهت برنامه ریزی ورزشی دانلود با لینک مستقیم و پرسرعت .

نکات اصولی و لازم جهت برنامه ریزی ورزشی


نکات اصولی و لازم جهت برنامه ریزی ورزشی

 

 

 

 

 

 

 

مقاله با عنوان نکات اصولی و لازم جهت برنامه ریزی ورزشی در فرمت ورد در 10 صفحه و شامل مطالب زیر می باشد:

نکاتی در مورد تمرین های استقامتی
نکاتی در مورد پیاده روی
نکاتی پیرامون ورزش و نرمش
نکاتی در مورد رژیم غذایی و کاهش وزن
نکاتی در مورد دویدن
نکاتی در مورد تعطیلات
نکاتی در مورد عروسی
نکات متفرقه


دانلود با لینک مستقیم

ابزارهای لازم برای پردازش متن در زبان فارسی

اختصاصی از کوشا فایل ابزارهای لازم برای پردازش متن در زبان فارسی دانلود با لینک مستقیم و پرسرعت .

ابزارهای لازم برای پردازش متن در زبان فارسی


 

 

 

 

ابزارهای لازم برای پردازش متن در زبان فارسی

تشخیص دهنده ی جمله: این ابزار باید با توجه به کاراکترهای جداکننده ی جمله در زبان فارسی، توانایی تشخیص جملات را در متن ورودی داشته باشد. برای ایجاد این ابزار باید ابتدا تمامی کاراکترها، نماد ها و احیاناً قواعد دستوری که باعث شکسته شدن جملات می شوند، شناسایی گردند. با توجه به پایه بودن جمله در بسیاری از پردازش های زبانی، خروجی دقیق این ابزار از درجه ی اهمیت بالایی برخوردار است. از نمونه های انگلیسی آن می توان به OpenNLP، Stanford NLP، NLTK و Freeling اشاره کرد.

Tokenizer: ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و … . لازمه ی ایجاد این ابزار جمع آوری واحد هایی است که در زبان فارسی به عنوان واحد های مستقل معنایی شناخته می شوند. سپس بر اساس انتخاب هر کدام از این واحدها متن بر اساس آن شکسته خواهد شد. از نمونه های انگلیسی آن می توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.

Named entity recognition: ابزاری برای تشخیص اسامی و نوع آنها اعم از اسامی افراد، اماکن، مقادیر عددی و … . برای تشخیص اینکه یک کلمه اسم است، راه های مختلفی وجود دارد که از جمله ی آنها مراجعه به لغتنامه، مراجعه به word-net، در نظر گرفتن ریشه ی کلمه، استفاده از قواعد نحوی ساخت واژه و … می باشد. در این ابزار پس از تشخیص اسم ها با استفاده یک لغتنامه از اسامی افراد، مکان ها، مقادیر عددی و … نوع اسم تشخیص داده می شود. به نظر می رسد که این لغتنامه در فارسی موجود نمی باشد.

از جمله نمونه های انگلیسی این ابزار می توان به Stanford NER و Illinois NER اشاره کرد.

Word-net: مجموعه ای از لغات و ارتباط میان آنها به لحاظ معنایی. ارتباطات معنایی در داخل این مجموعه شامل ۱۶  رابطه  می باشد. این مجموعه به عنوان یک مرجع در بسیاری از پردازش های زبانی مورد استفاده قرار می گیرد. ار نمونه های انگلیسی آن می توان به Princeton Wordnet و EuroWordnet اشاره کرد. آزمایشگاه فناوری وب دانشگاه فردوسی مشهد نیز یک نمونه از این مجموعه با نام فردوس نت را تولید کرده است.

Stemmer: ابزاری برای ریشه یابی لغات و تشخیص نوع کلمه ساخته شده از آن ریشه (اسم مکان، اسم زمان، حالت فاعلی، مفعولی و …). معمولاً ریشه یابی لغات بر اساس قواعد ساخت واژه ای و سپس حذف پسوندها می باشد. تاکنون روش مؤثری برای حذف پیشوندها ارائه نشده است. در تلاشی که در آزمایشگاه فناوری وب انجام شده است، سعی شده تا بر اساس آنالیزهای آماری و داده کاوی پسوندها حذف گردند، که این روش هم می تواند راهی برای تشخیص ریشه باشد.

معروفترین الگوریتم ریشه یابی در انگلیسی porter می باشد.

Similarity recognition: ابزاری برای تشخیص میزان شباهت میان دو عبارت بر اساس پارامترهای مختلف مانند نوع اسامی مشابه به کار رفته، استفاده از word-net و… . در این ابزار پس از تشخیص نوع کلمات به کار رفته در یک جمله و سپس بر اساس جایگاه آن کلمات در جمله، کلماتی که در جایگاه های یکسان قرار دارند، مورد مقایسه قرار می گیرند. از نمونه های انگلیسی آن می توان به Illinois NESim و Illinois WNSim اشاره نمود.

Chunker: ابزاری برای تشخیص گروه های اسمی، فعلی و …. در یک جمله. جهت تقویت الگوریتم های وابسته به SRL لازم است نه تنها نقش های کلمات مشخص گردند، بلکه باید وابستگی های کلمات به لحاظ نقشی در جمله مشخص گردند. از جمله نمونه های انگلیسی آن می توان به Illinois Chunker  اشاره کرد.

Semantic role labeler: ابزاری برای تشخیص نقش گرامری کلمه در جمله. این ابزار یکی از مهمترین نقش ها را در پردازش های زبانی بر عهده دارد. دقت در این ابزار بسیار حائز اهمیت است. این ابزار باید نقش های گرامری کلمات در جمله ها مانند فعل، فاعل، مفعول مستقیم، مفعول غیر مستقیم و …. را تشخیص دهد. از جمله نمونه های انگلیسی آن می توان به OpenNlP، Illinois SRL، Swirl و LTHSRL  اشاره کرد. این ابزارها از الگوریتم پارسینگ charniak استفاده می کنند.

Annotator: ابزاری برای ایجاد یک نمونه از یک آنتولوژی در یک سند داده شده. از ابزارهای موجود در انگلیسی می توان به Illinois Curator و Stanford Annotator اشاره کرد.

Coreference resolution: ابزاری برای تعیین مرجع اسمی یک اسم یا یک ضمیر در جملات. این ابزار در زبان انگلیسی معادل ابزاری است که مرجع ضمیر را که به صورت اسم در جمله های قبلی آمده است، مشخص می کند. استفاده از ضمایر به جای اسامی در زبان انگلیسی بسیر رایج می باشد. اما در زبان فارسی این امر چندان رایج نیست. اما در زبان فارسی عنوان یک مفهوم اسمی با اصطلاحات مختلف بسیار رایج می باشد. عملاً ما به دنبال ابزاری هستیم که مرجع خاص یک سری از عنوان ها ی مختلف اسمی را مشخص کند. از نمونه های انگلیسی این ابزار می توان به Illinois Coreference package  اشاره کرد.

Pos tagger: ابزاری برای مشخص کردن نوع کلمات از قبیل اسم، صفت، قید، فعل و … . یکی از روش های کاری برای ایجاد این ابزار، ایجاد یک rule base که معمولاً به صورت دستی تشکلیل می شود، برای تشخیص نوع کلمه است. از نونه های فارسی آن می توان به ابزار آزمایشگاه آقای دکتر بیجن خان، و ابزار آزمایشگاه فناوری وب دانشگاه فردوسی مشهد اشاره کرد. از نمونه های انگلیسی آن می توان به Illinois Part Of Speech Tagger و Stanford POS Tagger اشاره کرد.

————————————————————————-

نرمالسازی متن

در ابتدا بایستی همه‌ی نویسه‌های (کاراکترهای) متن با جایگزینی با معادل استاندارد آن، یکسان‌سازی گردند. در اولین گام باید متون برای استفاده در گام‌های بعدی به شکلی استاندارد درآیند. از آنجایی که متون مختلف ممکن است بسیار به هم شبیه باشند اما به دلیل تفاوت‌های ساده ظاهری از نظر ماشین متفاوت باشند؛ به همین دلیل سعی شده است این تفاوت­های ساده‌ی ظاهری برطرف گردد. همچنین اصلاحات دیگری نیز به منظور پردازش دقیق­تر متون در این مرحله صورت می­گیرد.

در اولین گام باید متون برای استفاده در گام­های بعدی به شکلی استاندارد درآیند. از آنجایی که متون مختلف ممکن است بسیار به هم شبیه باشند اما به دلیل تفاوت‌های ساده ظاهری از نظرماشین متفاوت باشند؛ به همین دلیل سعی شده است این تفاوت‌های ساده­ی ظاهری برطرف گردد. برای رسیدن به این هدف، قبل از مقایسه متون، پیش‌پردازش‌هایی روی آنها آنجام می‌شود. طبیعتا هر چه این پیش‌پردازش‌ها قوی‌تر باشد، نتایج حاصل ازمقایسه متون قابل اطمینان­تر خواهد بود. لازم به ذکر است که از آن جایی که زبان فارسی جزو زبان‌های غیر ساختیافته است با مشکلات بسیار بیشتری نسبت به سایر زبان‌ها مواجه خواهیم شد. متون غیرساخت‌یافته، متونی هستند که پیش فرض خاصی در مورد قالب آنها نداریم و آنها را به صورت مجموعه‌ای مرتب از جملات در نظر می‌گیریم.

در ابتدا بایستی همه­ی نویسه‌های (کاراکترهای) متن با جایگزینی با معادل استاندارد آن یکسان­سازی گردند. در پردازش رسم الخط زبان فارسی، با توجه به قرابتی که با رسم الخط عربی دارد، همواره در تعدادی از حرف­ها مشکل وجود دارد که از جمله آن­ها می­توان به حروف “ک”، “ی”، همزه و … اشاره نمود. در اولین گام باید مشکلات مربوط به این حروف را برطرف ساخت. علاوه بر این، اصلاح و یکسان سازی نویسه‌ی نیم‌فاصله و فاصله در کاربردهای مختلف آن و همچنین حذف نویسه­ی «ـ» که برای کشش نویسه­های چسبان مورد استفاده قرار می­گیرد و مواردی مشابه برای یکسان­سازی متون، از اقدامات لازم قبل از شروع فاز‌های مختلف می­باشد. در این فاز مطابق با یک سری قاعده دقیق و مشخص، فاصله­ها و نیم­فاصله­های موجود در متن برای علاماتی نظیر “ها” و “ی” غیرچسبان در انتهای لغات و همچنین پیشوندها و پسوندهای فعل­ساز نظیر “می”، “ام”، “ایم”، “اید” و موارد مشابه جهت استفاده در فازهای بعدی، اصلاح می­گردند. در ادامه به چند نمونه از این اصلاحات، اشاره شده است.

با استفاده از این ویژگی نرم‌افزار می‌توان همه­ی نویسه‌های (کاراکترهای) متن را استاندارد نمود. اگر نویسه‌ی غیر استانداردی یافت شد، با معادل استاندارد آن جایگزین می‌شود. برخی از این اصلاحات در ذیل آورده شده است:

  • اصلاح انواع حرف «ک» به معادل فارسی آنان.
  • اصلاح انواع حرف «ی» به معادل فارسی آنان.
  • بررسی همزه و انواع مختلف املاهای موجود و اصلاح هر کدام (به عنوان مثال تبدیل ؤ به و ، ئ به ی ، أ به ا ، إ به ا و…)
  • حذف شناسه‌ی همزه از انتهای واژه‌هایی مثل شهداء
  • حذف شناسه «آ» به «ا» مانند: آب به اب
  • اصلاح نویسه‌ی «طور» در واژه‌هایی مانند به طور، آن طور، این طور و …
  • بررسی وجود حرف «ی» در انتهای لغاتی مانند خانه‌ی ما و اصلاح آنان
  • حذف تشدید از واژه‌ها
  • تبدیل ارقام عربی و انگلیسی به معادل فارسی.
  • اصلاح نویسه‌ی نیم‌فاصله
  • اصلاح اعراب و حذف فتحه، کسره و ضمه و همچنین تنوین‌ها
  • حذف نیم‌فاصله‌های تکراری
  • حذف نویسه‌ی «ـ» که برای کشش نویسه­های چسبان مورد استفاده قرار می­گیرد. مانند تبدیل«بــــــــر» و «بـــر» به «بر»
  • چسباندن پسوندهای «تر»، «ترین» و … به آخر واژه‌ها
  • اصلاح فاصله‌گذاری «ها» در انتهای واژه‌ها و همچنین پسوندهای «های»، «هایی»، «هایم»، «هایت»، «هایش» و …
  • اصلاح فاصله‌گذاری «می»، «نمی»، «درمی»، «برمی»، «بی» در ابتدای واژه‌ها
  • تبدیل «‍ة» به «‍ه‌ی»
  • تبدیل «ب» متصل به ابتدای واژه‌ها به «به»
  • اصلاح فاصله‌گذاری پسوندها
  • حذف فاصله‌ها و نیم‌فاصله‌های اضافه بکار رفته در متن
  • تصحیح فاصله‌گذاری در مورد علائم سجاوندی بدین صورت که علائم سجاوندی به لغات قبل از خود می‌چسبند و با لغت بعد از خود فاصله خواهند داشت.

برای اعمال اصلاحات اولیه قبل از هر عملیاتی، بایستی متون مورد پردازش توسط ابزار Normalizer طراحی شده، مورد اصلاح قرار گیرند.

——————————————————————–

ریشه‌یابی معنایی در زبان فارسی

هدف از انجام  پروژه ریشه یابی معنایی در زبان فارسی، جداسازی کلمات از متن و بازگرداندن کلمات به ریشه اصلی تشکیل دهنده آنهاست. تفاوت اصلی این پروژه با سایر پژوهش‌های انجام شده در زمینه ریشه‌یابی، قابلیت بازگرداندن کلمات به ریشه بدون از بین رفتن معنای آنها در جمله می‌باشد. بدین منظور به نقش کلمات در جمله توجه ویژه‌ای شده است. در این طرح از مجموعه افعال گرداوری شده توسط گروه دادگان و لغات پرکاربرد پیکره همشهری استفاده شده است.

 ——————————————————————– 

برچسب گذار نقش کلمات فارسی

برچسب گذاری اجزای واژگانی کلام (Part of Speech tagging) عمل انتساب برچسب های واژگانی به کلمات و نشانه های تشکیل دهنده یک متن است؛ به صورتی که این برچسب ها نشان دهنده نقش کلمات و نشانه ها در جمله باشد. درصد بالایی از کلمات از نقطه نظر برچسب واژگانی دارای ابهام هستند، زیرا کلمات در جایگاههای مختلف برچسب های واژگنی متفاوتی دارند. بنابراین برچسب گذاری واژگانی عمل ابهام زدایی از برچسب ها با توجه به زمینه (متن) مورد نظر است. برچسب گذاری واژگانی عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی(NLP) از قبیل ترجمه ماشینی، خطایاب و تبدیل متن به گفتار می باشد. تا کنون مدل ها و روش های زیادی برای برچسب گذاری در زبان های مختلف استفاده شده است. بعضی از این روش ها عبارتند از:

  •   مدل مخفی مارکوف (Markov Hidden Model)
  •   برچسب گذاری مبتنی بر تبدیل یا قانون (Transformation/Rule -based tagger)
  •   سیستم های مبتنی بر حافظه (Memory-basedSystem
  •   سیستم های ماکزیمم آنتروپی (Maximum Entropy System)

——————————————————————–

پارسر زبان فارسی

به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیلهی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده مانند گروه های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام پارسر صورت می گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.

پارسر طراحی شده برای زبان فارسی در این پروژه، از ساختار لغات، موقعیت و ترتیب لغات در جمله، حروف یا عبارات قبل و بعد از آنها و نوع لغات، درخت نحوی یا پارسینگ را برای جملات متن تشکیل می دهد. در واقع عملیات پارسینگ با توجه به ریختشناسی (مطالعه ساختار و حالتهای مختلف یک کلمه) و همچنین دستورات نحوی گرامر زبان فارسی صورت میگیرد. بدیهی است هر چقدر نگارش بکار رفته در جملات و همچنین رعایت علائم سجاوندی طبق اصول و با دقت بیشتری صورت گرفته باشد، عملیات پارسینگ با کیفیت بهتری صورت خواهد گرفت و اجزای تشکیل دهنده ی جمله با عملیات کمتر و ساده تری برچسب زده خواهند شد.

 

یک فایل فشرده حاوی  فایل EXE (شامل ابزارهای پیش پردازش متون زبان فارسی : نرمالسازی – ریشه یابی – برچسب زنی نحوی – پارسر )

 

کد سی شارپ همراه با کتابخانه های مورد نیاز جهت ریشه یابی کلمات فارسی:

در این نمونه کد، که به زبان سی شارپ نوشته شده است، کتابخانه های لازم برای استفاده از کد ریشه یاب زبان فارسی که در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد تولید شده است، به کد اضافه شده و چگونگی استفاده از این کتابخانه ها در کد مشخص است و در قالب ابزاری جهت دادن ورودی و مشاهده خروجی آماده شده است.

در کد موجود در فایل ضمیمه سه کتابخانه (فایل dll) اضافه شده اند که امکان شناسایی افعال و ریشه یابی کلمات را فراهم می آورند…

 

برای استفاده از نرم افزار در صورت اجرا نشدم برنامه در فایل EXE، ابتدا بسته نرم افزاری دات نت فریمورک ۴.۵ را نصب نمایید.

 


دانلود با لینک مستقیم

ابزارهای لازم برای پردازش متن در زبان فارسی - متن کاوی

اختصاصی از کوشا فایل ابزارهای لازم برای پردازش متن در زبان فارسی - متن کاوی دانلود با لینک مستقیم و پرسرعت .

ابزارهای لازم برای پردازش متن در زبان فارسی - متن کاوی


 

 

 

 

ابزارهای لازم برای پردازش متن در زبان فارسی

تشخیص دهنده ی جمله: این ابزار باید با توجه به کاراکترهای جداکننده ی جمله در زبان فارسی، توانایی تشخیص جملات را در متن ورودی داشته باشد. برای ایجاد این ابزار باید ابتدا تمامی کاراکترها، نماد ها و احیاناً قواعد دستوری که باعث شکسته شدن جملات می شوند، شناسایی گردند. با توجه به پایه بودن جمله در بسیاری از پردازش های زبانی، خروجی دقیق این ابزار از درجه ی اهمیت بالایی برخوردار است. از نمونه های انگلیسی آن می توان به OpenNLP، Stanford NLP، NLTK و Freeling اشاره کرد.

Tokenizer: ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و … . لازمه ی ایجاد این ابزار جمع آوری واحد هایی است که در زبان فارسی به عنوان واحد های مستقل معنایی شناخته می شوند. سپس بر اساس انتخاب هر کدام از این واحدها متن بر اساس آن شکسته خواهد شد. از نمونه های انگلیسی آن می توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.

Named entity recognition: ابزاری برای تشخیص اسامی و نوع آنها اعم از اسامی افراد، اماکن، مقادیر عددی و … . برای تشخیص اینکه یک کلمه اسم است، راه های مختلفی وجود دارد که از جمله ی آنها مراجعه به لغتنامه، مراجعه به word-net، در نظر گرفتن ریشه ی کلمه، استفاده از قواعد نحوی ساخت واژه و … می باشد. در این ابزار پس از تشخیص اسم ها با استفاده یک لغتنامه از اسامی افراد، مکان ها، مقادیر عددی و … نوع اسم تشخیص داده می شود. به نظر می رسد که این لغتنامه در فارسی موجود نمی باشد.

از جمله نمونه های انگلیسی این ابزار می توان به Stanford NER و Illinois NER اشاره کرد.

Word-net: مجموعه ای از لغات و ارتباط میان آنها به لحاظ معنایی. ارتباطات معنایی در داخل این مجموعه شامل ۱۶  رابطه  می باشد. این مجموعه به عنوان یک مرجع در بسیاری از پردازش های زبانی مورد استفاده قرار می گیرد. ار نمونه های انگلیسی آن می توان به Princeton Wordnet و EuroWordnet اشاره کرد. آزمایشگاه فناوری وب دانشگاه فردوسی مشهد نیز یک نمونه از این مجموعه با نام فردوس نت را تولید کرده است.

Stemmer: ابزاری برای ریشه یابی لغات و تشخیص نوع کلمه ساخته شده از آن ریشه (اسم مکان، اسم زمان، حالت فاعلی، مفعولی و …). معمولاً ریشه یابی لغات بر اساس قواعد ساخت واژه ای و سپس حذف پسوندها می باشد. تاکنون روش مؤثری برای حذف پیشوندها ارائه نشده است. در تلاشی که در آزمایشگاه فناوری وب انجام شده است، سعی شده تا بر اساس آنالیزهای آماری و داده کاوی پسوندها حذف گردند، که این روش هم می تواند راهی برای تشخیص ریشه باشد.

معروفترین الگوریتم ریشه یابی در انگلیسی porter می باشد.

Similarity recognition: ابزاری برای تشخیص میزان شباهت میان دو عبارت بر اساس پارامترهای مختلف مانند نوع اسامی مشابه به کار رفته، استفاده از word-net و… . در این ابزار پس از تشخیص نوع کلمات به کار رفته در یک جمله و سپس بر اساس جایگاه آن کلمات در جمله، کلماتی که در جایگاه های یکسان قرار دارند، مورد مقایسه قرار می گیرند. از نمونه های انگلیسی آن می توان به Illinois NESim و Illinois WNSim اشاره نمود.

Chunker: ابزاری برای تشخیص گروه های اسمی، فعلی و …. در یک جمله. جهت تقویت الگوریتم های وابسته به SRL لازم است نه تنها نقش های کلمات مشخص گردند، بلکه باید وابستگی های کلمات به لحاظ نقشی در جمله مشخص گردند. از جمله نمونه های انگلیسی آن می توان به Illinois Chunker  اشاره کرد.

Semantic role labeler: ابزاری برای تشخیص نقش گرامری کلمه در جمله. این ابزار یکی از مهمترین نقش ها را در پردازش های زبانی بر عهده دارد. دقت در این ابزار بسیار حائز اهمیت است. این ابزار باید نقش های گرامری کلمات در جمله ها مانند فعل، فاعل، مفعول مستقیم، مفعول غیر مستقیم و …. را تشخیص دهد. از جمله نمونه های انگلیسی آن می توان به OpenNlP، Illinois SRL، Swirl و LTHSRL  اشاره کرد. این ابزارها از الگوریتم پارسینگ charniak استفاده می کنند.

Annotator: ابزاری برای ایجاد یک نمونه از یک آنتولوژی در یک سند داده شده. از ابزارهای موجود در انگلیسی می توان به Illinois Curator و Stanford Annotator اشاره کرد.

Coreference resolution: ابزاری برای تعیین مرجع اسمی یک اسم یا یک ضمیر در جملات. این ابزار در زبان انگلیسی معادل ابزاری است که مرجع ضمیر را که به صورت اسم در جمله های قبلی آمده است، مشخص می کند. استفاده از ضمایر به جای اسامی در زبان انگلیسی بسیر رایج می باشد. اما در زبان فارسی این امر چندان رایج نیست. اما در زبان فارسی عنوان یک مفهوم اسمی با اصطلاحات مختلف بسیار رایج می باشد. عملاً ما به دنبال ابزاری هستیم که مرجع خاص یک سری از عنوان ها ی مختلف اسمی را مشخص کند. از نمونه های انگلیسی این ابزار می توان به Illinois Coreference package  اشاره کرد.

Pos tagger: ابزاری برای مشخص کردن نوع کلمات از قبیل اسم، صفت، قید، فعل و … . یکی از روش های کاری برای ایجاد این ابزار، ایجاد یک rule base که معمولاً به صورت دستی تشکلیل می شود، برای تشخیص نوع کلمه است. از نونه های فارسی آن می توان به ابزار آزمایشگاه آقای دکتر بیجن خان، و ابزار آزمایشگاه فناوری وب دانشگاه فردوسی مشهد اشاره کرد. از نمونه های انگلیسی آن می توان به Illinois Part Of Speech Tagger و Stanford POS Tagger اشاره کرد.

————————————————————————-

نرمالسازی متن

در ابتدا بایستی همه‌ی نویسه‌های (کاراکترهای) متن با جایگزینی با معادل استاندارد آن، یکسان‌سازی گردند. در اولین گام باید متون برای استفاده در گام‌های بعدی به شکلی استاندارد درآیند. از آنجایی که متون مختلف ممکن است بسیار به هم شبیه باشند اما به دلیل تفاوت‌های ساده ظاهری از نظر ماشین متفاوت باشند؛ به همین دلیل سعی شده است این تفاوت­های ساده‌ی ظاهری برطرف گردد. همچنین اصلاحات دیگری نیز به منظور پردازش دقیق­تر متون در این مرحله صورت می­گیرد.

در اولین گام باید متون برای استفاده در گام­های بعدی به شکلی استاندارد درآیند. از آنجایی که متون مختلف ممکن است بسیار به هم شبیه باشند اما به دلیل تفاوت‌های ساده ظاهری از نظرماشین متفاوت باشند؛ به همین دلیل سعی شده است این تفاوت‌های ساده­ی ظاهری برطرف گردد. برای رسیدن به این هدف، قبل از مقایسه متون، پیش‌پردازش‌هایی روی آنها آنجام می‌شود. طبیعتا هر چه این پیش‌پردازش‌ها قوی‌تر باشد، نتایج حاصل ازمقایسه متون قابل اطمینان­تر خواهد بود. لازم به ذکر است که از آن جایی که زبان فارسی جزو زبان‌های غیر ساختیافته است با مشکلات بسیار بیشتری نسبت به سایر زبان‌ها مواجه خواهیم شد. متون غیرساخت‌یافته، متونی هستند که پیش فرض خاصی در مورد قالب آنها نداریم و آنها را به صورت مجموعه‌ای مرتب از جملات در نظر می‌گیریم.

در ابتدا بایستی همه­ی نویسه‌های (کاراکترهای) متن با جایگزینی با معادل استاندارد آن یکسان­سازی گردند. در پردازش رسم الخط زبان فارسی، با توجه به قرابتی که با رسم الخط عربی دارد، همواره در تعدادی از حرف­ها مشکل وجود دارد که از جمله آن­ها می­توان به حروف “ک”، “ی”، همزه و … اشاره نمود. در اولین گام باید مشکلات مربوط به این حروف را برطرف ساخت. علاوه بر این، اصلاح و یکسان سازی نویسه‌ی نیم‌فاصله و فاصله در کاربردهای مختلف آن و همچنین حذف نویسه­ی «ـ» که برای کشش نویسه­های چسبان مورد استفاده قرار می­گیرد و مواردی مشابه برای یکسان­سازی متون، از اقدامات لازم قبل از شروع فاز‌های مختلف می­باشد. در این فاز مطابق با یک سری قاعده دقیق و مشخص، فاصله­ها و نیم­فاصله­های موجود در متن برای علاماتی نظیر “ها” و “ی” غیرچسبان در انتهای لغات و همچنین پیشوندها و پسوندهای فعل­ساز نظیر “می”، “ام”، “ایم”، “اید” و موارد مشابه جهت استفاده در فازهای بعدی، اصلاح می­گردند. در ادامه به چند نمونه از این اصلاحات، اشاره شده است.

با استفاده از این ویژگی نرم‌افزار می‌توان همه­ی نویسه‌های (کاراکترهای) متن را استاندارد نمود. اگر نویسه‌ی غیر استانداردی یافت شد، با معادل استاندارد آن جایگزین می‌شود. برخی از این اصلاحات در ذیل آورده شده است:

  • اصلاح انواع حرف «ک» به معادل فارسی آنان.
  • اصلاح انواع حرف «ی» به معادل فارسی آنان.
  • بررسی همزه و انواع مختلف املاهای موجود و اصلاح هر کدام (به عنوان مثال تبدیل ؤ به و ، ئ به ی ، أ به ا ، إ به ا و…)
  • حذف شناسه‌ی همزه از انتهای واژه‌هایی مثل شهداء
  • حذف شناسه «آ» به «ا» مانند: آب به اب
  • اصلاح نویسه‌ی «طور» در واژه‌هایی مانند به طور، آن طور، این طور و …
  • بررسی وجود حرف «ی» در انتهای لغاتی مانند خانه‌ی ما و اصلاح آنان
  • حذف تشدید از واژه‌ها
  • تبدیل ارقام عربی و انگلیسی به معادل فارسی.
  • اصلاح نویسه‌ی نیم‌فاصله
  • اصلاح اعراب و حذف فتحه، کسره و ضمه و همچنین تنوین‌ها
  • حذف نیم‌فاصله‌های تکراری
  • حذف نویسه‌ی «ـ» که برای کشش نویسه­های چسبان مورد استفاده قرار می­گیرد. مانند تبدیل«بــــــــر» و «بـــر» به «بر»
  • چسباندن پسوندهای «تر»، «ترین» و … به آخر واژه‌ها
  • اصلاح فاصله‌گذاری «ها» در انتهای واژه‌ها و همچنین پسوندهای «های»، «هایی»، «هایم»، «هایت»، «هایش» و …
  • اصلاح فاصله‌گذاری «می»، «نمی»، «درمی»، «برمی»، «بی» در ابتدای واژه‌ها
  • تبدیل «‍ة» به «‍ه‌ی»
  • تبدیل «ب» متصل به ابتدای واژه‌ها به «به»
  • اصلاح فاصله‌گذاری پسوندها
  • حذف فاصله‌ها و نیم‌فاصله‌های اضافه بکار رفته در متن
  • تصحیح فاصله‌گذاری در مورد علائم سجاوندی بدین صورت که علائم سجاوندی به لغات قبل از خود می‌چسبند و با لغت بعد از خود فاصله خواهند داشت.

برای اعمال اصلاحات اولیه قبل از هر عملیاتی، بایستی متون مورد پردازش توسط ابزار Normalizer طراحی شده، مورد اصلاح قرار گیرند.

——————————————————————–

ریشه‌یابی معنایی در زبان فارسی

هدف از انجام  پروژه ریشه یابی معنایی در زبان فارسی، جداسازی کلمات از متن و بازگرداندن کلمات به ریشه اصلی تشکیل دهنده آنهاست. تفاوت اصلی این پروژه با سایر پژوهش‌های انجام شده در زمینه ریشه‌یابی، قابلیت بازگرداندن کلمات به ریشه بدون از بین رفتن معنای آنها در جمله می‌باشد. بدین منظور به نقش کلمات در جمله توجه ویژه‌ای شده است. در این طرح از مجموعه افعال گرداوری شده توسط گروه دادگان و لغات پرکاربرد پیکره همشهری استفاده شده است.

 ——————————————————————– 

برچسب گذار نقش کلمات فارسی

برچسب گذاری اجزای واژگانی کلام (Part of Speech tagging) عمل انتساب برچسب های واژگانی به کلمات و نشانه های تشکیل دهنده یک متن است؛ به صورتی که این برچسب ها نشان دهنده نقش کلمات و نشانه ها در جمله باشد. درصد بالایی از کلمات از نقطه نظر برچسب واژگانی دارای ابهام هستند، زیرا کلمات در جایگاههای مختلف برچسب های واژگنی متفاوتی دارند. بنابراین برچسب گذاری واژگانی عمل ابهام زدایی از برچسب ها با توجه به زمینه (متن) مورد نظر است. برچسب گذاری واژگانی عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی(NLP) از قبیل ترجمه ماشینی، خطایاب و تبدیل متن به گفتار می باشد. تا کنون مدل ها و روش های زیادی برای برچسب گذاری در زبان های مختلف استفاده شده است. بعضی از این روش ها عبارتند از:

  •   مدل مخفی مارکوف (Markov Hidden Model)
  •   برچسب گذاری مبتنی بر تبدیل یا قانون (Transformation/Rule -based tagger)
  •   سیستم های مبتنی بر حافظه (Memory-basedSystem
  •   سیستم های ماکزیمم آنتروپی (Maximum Entropy System)

——————————————————————–

پارسر زبان فارسی

به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیلهی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده مانند گروه های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام پارسر صورت می گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.

پارسر طراحی شده برای زبان فارسی در این پروژه، از ساختار لغات، موقعیت و ترتیب لغات در جمله، حروف یا عبارات قبل و بعد از آنها و نوع لغات، درخت نحوی یا پارسینگ را برای جملات متن تشکیل می دهد. در واقع عملیات پارسینگ با توجه به ریختشناسی (مطالعه ساختار و حالتهای مختلف یک کلمه) و همچنین دستورات نحوی گرامر زبان فارسی صورت میگیرد. بدیهی است هر چقدر نگارش بکار رفته در جملات و همچنین رعایت علائم سجاوندی طبق اصول و با دقت بیشتری صورت گرفته باشد، عملیات پارسینگ با کیفیت بهتری صورت خواهد گرفت و اجزای تشکیل دهنده ی جمله با عملیات کمتر و ساده تری برچسب زده خواهند شد.

 

یک فایل فشرده حاوی  فایل EXE (شامل ابزارهای پیش پردازش متون زبان فارسی : نرمالسازی – ریشه یابی – برچسب زنی نحوی – پارسر )

 

کد سی شارپ همراه با کتابخانه های مورد نیاز جهت ریشه یابی کلمات فارسی:

در این نمونه کد، که به زبان سی شارپ نوشته شده است، کتابخانه های لازم برای استفاده از کد ریشه یاب زبان فارسی که در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد تولید شده است، به کد اضافه شده و چگونگی استفاده از این کتابخانه ها در کد مشخص است و در قالب ابزاری جهت دادن ورودی و مشاهده خروجی آماده شده است.

در کد موجود در فایل ضمیمه سه کتابخانه (فایل dll) اضافه شده اند که امکان شناسایی افعال و ریشه یابی کلمات را فراهم می آورند…

 

برای استفاده از نرم افزار در صورت اجرا نشدم برنامه در فایل EXE، ابتدا بسته نرم افزاری دات نت فریمورک ۴.۵ را نصب نمایید.

 


دانلود با لینک مستقیم