اگر میخواهید زمانی که متنی را روی صفحه نمایش خود دارید به طور خودکار توسط نرم افزاری تبدیل به گفتار شده و در داخل یک فایل صوتی ذخیره شود. Balabolka یک ابزار تبدیل متن به گفتار است که متن نوشته شده روی صفحه را برای شما میخواند و به وسیله آن میتوانید متن خود را به راحتی تبدیل به گفتار کنید. با استفاده از این نرم افزار تبدیل متن به صدا همه نوع صداهایی که بر روی سیستم کامپیوتر شما نصب شده است در دسترس Balabolka میباشد. با این نرم افزار تبدیل متن به صوت ، متن روی صفحه نمایش میتواند تبدیل به گفتار شده و به صورت یک فایل WAV و یا یک فایل MP3 ذخیره شود. این نرم افزار تبدیل متن به صدا میتواند محتوای کلیپ بورد و همچنین متون داخل یک فایل Word و فایلهای RTF و فایلهای HTML را به راحتی بخواند، میتواند نوع فونت و رنگ پس زمینه را سفارشی کند و میتواند از System Tray بخواند و Hotkeyهای جهانی یا Global را کنترل کند.
این نرم افزار تبدیل متن به گفتار از نسخههای مختلف صوت مایکروسافت که به آن SAPI میگویند استفاده میکند، که میتوانید از طریق این قابلیت پارامترهای صدا از جمله سرعت، گام و حجم صدا را تغییر دهید. با استفاده از این نرم افزار خواندن متن که یک نرم افزار کاربردی میباشد شما میتوانید یک لیستی از صداهای دلخواه را برای تعویض به وجود بیاورید تا در صورت لزوم برای بهبود کیفیت تلفظ ، صدا را تغییر دهید و صدای دیگری را جایگرین کنید. این قابلیت زمانی برای شما مفید خواهد بود که شما میخواهید املای کلمات را تغییر دهید. قواعدی که در این نرم افزار برای تصحیح تلفظ مورد استفاده قرار گرفته است از VBScript برگرفته شده است. در ضمن این نرم افزار Balabolka به زبانهای مختلف و تحت ویندوزهای XP/2000/Vista/Win 7 کار میکند که میتواند برای تمام کاربران بسیار کاربردی باشد.
برای برقراری ارتباط کامپیوتر با انسان بوسیلة گفتار در کار لازم است انجام شود. یکی سنتزل گفتار است. و دیگری بازشناسی گفتار، سنتز گفتار بیان گفتار بوسیلة کامپیوتر میباشد و بازشناسی یعنی فهمیدن گفتار در بازشناسی گفتار. هدف بدست آوردن دنبالة آوایی یک گفتار میباشد و این دنبالة آوایی میتواند بر اساس واج، سیلاب، کلمه، جمله و ... باشد. بازشناسی گفتار عکس عمل سنتز است و گفتار را به متن تبدیل میکند. اما انجام بازشناسی گفتار به دلیل خاصیت صدای انسانها، دارای پیچیدگیهای زیادی است. اما اغلب بازشناسی کامل و درست غیر ممکن است. حتی خود انسانها هم نمیتوانند به طور کامل همه صداها را بفهمند و میزان، درک گوش انسانها حدود 70% میباشد. شکل 1-1 ارتباط گفتاری بین انسانها و کامپیوتر را نشان میدهد. به دلیل نقش مهم و کاربردهای فراوانی که بازشناسی گفتار دارد، تحقیقات و مقالههای زیادی در این زمینه انجام شده و راه حلهای متفاوتی پیشنهاد شده است، ولی بازشناسی گفتار کاملاً درست هنوز امکانپذیر نمیباشد.
بازشناسی گفتار دارای کاربردهای زیادی است. از جمله کاربردهای بازشناسی گفتار، حل مشکل تایپ است، با کمک بازشناسی گفتار میتوان جملهها را یکی پس از دیگری خواند و کامپیوتر آنها را تایپ کند. یکی دیگر از کاربردهای بازشناسی گفتار، حل مشکل صحبت دو فرد مختلف همزبان است. یکی از مشکلات انسانها ارتباط با افرادی است که با زبانهای متفاوت صحبت میکنند. ارتباط بدون دانستن زبان مشکل است. و یادگیری یک زبان دیگر کار وقت گیر و پر زحمتی است ولی به کمک بازشناسی گفتار به یادگیری زبانهای مختلف احتیاجی نخواهد بود و میتوان با یک دستگاه کوچک با فردی که با زبان دیگری صحبت میکند، صحبت نمود. یک کامپیوتر کوچک صدای شما را گرفته و به تعدادی از کلمات تبدیل مینماید. سپس این کلمات به زبان دیگر ترجمه شده و در نهایت با زبان جدید گفته میشوند. دو مرحلة آخر این سیستم جزو مسایل انجام شده گفتار هستند و با کامل نمودن مسئله بازشناسی گفتار بدون دانستن زبانهای دیگر به آنها تکلم نمود.
شکل 1-2 نشان دهنده ارتباط دو فرد با زبانهای مختلف است. یکی از کاربردهای دیگر بازشناسی گفتار، برقراری ارتباط با کامپیوتر است. همان گونه که به انسانهای دیگر دسترس میدهید، به کامپیوتر هم میتوان دستور داد و با آن صحبت کرد. یا حتی میتوانید از او بخواهید کاری برایتان انجام دهد.
حتی با کمک بازشناسی گفتار میتوان به انسانهای نابینا و ناشنوا کمک کرد. به طور مثال نابینایان میتوانند با صحبت کردن و دادن دستور به کامپیوتر با آن کار کنند.
صل اول مقدمه
مدل اعضای صوتی انسان
-2 مدل منبع – فیلتر گفتار
فصل دوم
Speech analysist
مقدمه:
فریم بندی سیگنال صحبت
فیلتر پیش تأکید
جداسازی سیگنال صحبت از روی سیگنال زمینه
پیدا کردن اولین و آخرین فریم واکهدار
مرحله 4 پیدا کردن نقطة انتهایی و ابتدایی
پیاده سازی الگوریتمها
استخراج ضرائب کپزرم
محاسبة ضرایب دلتاکپترال
پردازش روی فریمهای واکه دار:
روش اول: استفاده از autocorrelation
روش دوم: استفاده از ضرائب کپستروم
پیاده سازی الگوریتمها
فرکانس فرمنت
استخراج فرکانس فرمنت از طریق حل ریشههای LPC
آنالیز پیشگویی خطی (LPC)
مدل تولید صحبت
روش همبستگی
روش کوواریانس
مقایسه روشهای همبستگی و کوواریانس
مرتبه پیشگو
کوانتیزاسیون برداری
الگوریتم LBG
فصل سوم: انحراف پویای زمانی (Dynamic time warpping)
مقدمه:
– هم ترازیسازی زمانی و نرمالیزاسیون
مروری بر Dynamic programing
محدودیتهای نرمالیزاسیون زمانی
محدودیتهای نقطه انتها
شرایط یکنواختی
محدودیت پیوستگی محلی
محدودیت در مسیر سراسری
وزن دهی شیب منحنی
انحراف زمانی پویا (dynamic – lime warping)
فصل چهارم
استفاده از مدلهای مارکف مخفی
در تشخیص گفتار
2-3- مدل مارکف مخفی (HMM) ]21[
مدل کاسه و گلوله
1-2-3- اجزای یک HMM
2-2-3- سه مسئله اساسی در HMM
حل مسئله 1
-1-2-2-3- الگوریتم پیشرو – پسرو
2-2-2-3- حل مسئله 2
3-2-2-3- حل مسئله 3
1-4- الگوریتم بام – ولچ ]21[ و ]11[
-4- مسائل مربوط به پیاده سازی روش ML
الف – مقیاس بندی
ب. دنباله های مشاهده چندتایی
پ. تخمین اولیه پارامترهای HMM
فصل 5: بازشناسی و ارزیابی نحوه بیان کلمات مقطع قرآنی
بازشناسی گفتار بوسیله الگوریتم DTW
تاثیر طول پنجره در کیفیت گفتار جداشده در زمینه
تطابق چندالگویی
روش اول: استفاده در میانگین الگوها:
الگوریتم پیدا کردن کلمة مناسب
فلوچارت مربوط به الگوریتم knn
حذف میانگین ضرایب کپستروم
MEI Scald-MFCC
پیاده سازی
طراحی ساختار مدل مخفی مارکوف
مقدار دهی اولیه Hmm
تخمین بیشترین شباهت
بازشناسی گفتار
بخش دوم لرزیابی نحوة بیان گفتار قرآنی
ارزیابی نحوه بیان گفتار قرآنی بوسیله و تطابق الگو
Log spectral Distance
Weignted cepstral Distance
Cepstral Distance
Distance base on LPC
پیدا کردن منحنی فاصلهها
امتیازدهی به گوینده
استفاده از هر ارزیابی نحوة بیان
استفاده از Hmm در ارزیابی نحوة بیان
شامل 141 صفحه فایل word