به نام خدا - didras.ir  · web view2 پژوهشکده … – گروه .... 2. 2. نام...

130
دا ام خ ه ن ب کده ش ه و ژ پ عات لا طوری ا ا ن ف ی در وت ت و ص وی ج( ت س ج ه: ژور پ رح ط ت1 یژ1 پ مد ه: ژور پ کد۹۰۱۹۳۰۱۰۰ ی: اری1 ا ن رض1 لی ع ده: ن رح ط ت1 یژ1 پ مد م1 ی ت: ارشSE-PMG-MGT-MTM-01-V1.0 ه:L اراب خ15/03/95 / : ت ی ه1 ی ل او

Upload: others

Post on 12-Oct-2019

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

به نام خدا

فناوری اطالعات پژوهشکده

جستجوی صوتی در وب مدیریت طرحپروژه:

۹۰۱۹۳۰۱۰۰ کد پروژه:

علیرضا یاریمجری:تیم مدیریت طرحتهیه کننده:

کدگزارش:

SE-PMG-MGT-MTM-01-V1.0

تاریخارائه:

15/03/95

نسخه/وضعیت:

اولیه

در راستای تحقق ماموریت پژوهشگاه ارتباطات و فناوری در فراهم سازی س��کویی ب��رای ارتق��اء-سازی محصوالت و خدمات حوزه فاوا و با هدف جلب مشارکت عالق��هدانش، انتقال فناوری و بومی

Page 2: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

مندان در توسعه و بهره مندی از دستاوردهای پژوهشگاه ارتباطات و فناوری اطالعات، آزاد رس��انی این دستاوردها در زمره برنامه های اولویت دار پژوهشگاه به شمار می آید. به همین منظور مس��تند

، در دسترس عموم قرار گرفته است. ش��ایان4نسخه CC-BY-SA-NCحاضر تحت مجوز بین المللی ذکراس��ت تحت این مج��وز، ض��من حف��ظ م��الکیت فک��ری این مس��تند ب��رای پژوهش��گاه ارتباط��ات و فناوری اطالعات، بازانتشار و بکارگیری آن صرفا ب��رای م��وارد تحقیق��اتی و ب��ا ذک��ر ن��ام پژوهش��گاه

ارتباطات و فناوری اطالعات بالمانع است.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

2

Page 3: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

شناسنامه گزارشنسخه: اولیهشماره عنوان: جستجوی صوتی در وب

SE-PMG-MGT-MTM-01-V1.0:نوع گزارش راهبردی

تاریخ ارائه گزارش:15/03/95

- كاربردی پژوهشینوع پروژه: مدیریت طرحنام پروژه: ماه(30 )20/5/96تاریخ پایان: 20/11/93تاریخ شروع:

طرح جویشگرنام گروه:20/11/93شماره و تاریخ قرارداد: ۹۰۱۹۳۰۱۰۰كد پروژه:

کامبیز بدیع، امین شکری پور وناظر/ ناظرین: مجری: علیرضا یاریروح اله رحمانی

تهیه كننده/ تهیه كنندگان: تیم مدیریت طرحنام و نشانی مجری:

تهران، انتهای خیابان كارگر شمالی، پژوهشگاه ارتباطات و فناوری اطالعات )مركز8005508-10 _ تلفن: 1439955471تحقیقات مخابرات ایران(_ كد پستی:

نام و نشانی حمایت كننده:تهران، خیابان شریعتی، وزارت ارتباطات و فناوری اطالعات

مالحظات: چكیده:

كلمات كلیدی:

زبان گزارش: فارسیوضعیت گزارش: نهایی71 تعداد صفحات:وضعیت دسترسی: عمومی

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

3

اسامی اعضای تیم مدیریت طرح بر اساسحروف الفبا

مژگان فرهودی.12 محمد آزادنیا.1ماندانا فرزانه.13 مهدی ارجمند.2پریسا قادری.14 شادی ایران.3

دوستحسین قمری.15 رضا بدیع.4زهرا گل میرزایی.16 محمد بحرانی.5مریم محمودی.17 سمیه جعفری.6

تازه جانیفاطمه محمدی.18 علیرضا حیدری.7امین میرزایی.19 الهه حیدری علوی.8سیدرضا متقی.20 مهدی حسین پور.9مهدی محمدزاده.21 رضا داوطلب.10مسعود محمدزاده.22 غزاله رحمانی.11

فرزینآرش معبودی.23 عرفان سبزه.12

پرورمصطفی مقدسی.24 علی شریفی.13فراز نبیی.25 مریم طایفه.14

محمودی حمیدرضا نصیری.26

آسایش معصومه عظیم.15

زادهبامداد وفایی.27 طاهره علوی.16

زرگرعلیرضا یاری.28 هادی فرزین.17

Page 4: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

اطالعات مرتبطمستندات مرتبط

نام مستندنوع مستندشماره مستند

تغییرات اعمال شده در نسخه های پیشین شماره

تغییرات اعمال شدهتاریخنسخه

تأییدکنندگان نام و ناممالحظاتامضاءتاریخخانوادگی

مجریعلیرضا یاریپروژه

تهیه كننده/ تهیه

كنندگانتیم مدیریت طرح

ناظرپروژه

کامبیز بدیع، امین شکری پور و روح اله

رحمانی

مدیر گروه

مسئول مستندات

پژوهشكدهمانا روزی طلب

رئیسپژوهشكده/

معاونپژوهشی

علیرضا یاری

فهرست مطالب10مقدمه-112بازشناسی خودکار گفتار-2

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

4

Page 5: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

12مقدمه-2-115پيچيدگي هاي مطرح در سيستم هاي بازشناسي گفتار-2-2

15ميزان وابستگي يا استقالل از گوينده-2-2-116پيوسته يا گسسته بودن گفتار-2-2-217اندازه واژگان-2-2-318محدودیتهای زبانی-2-2-419کارايي در حضور نويز و در محيط هاي کاربردي مختلف-2-2-520ابهام آکوستيکي و ميزان اشتباه بين کلمات-2-2-6

بلوک دياگرام کلي سيستم هاي بازشناسي گفتhhار و تعريhhف اجhhزاي-2-320آن

22استخراج ويژگي ها-2-3-123مدل سازي آوايي-2-3-226مدلسازی زبانی-2-3-329دادگان هاي گفتاري و متني و واژگان-2-3-430بازشناسي: جستجوي واحدهاي آوايي و کلمات-2-3-5

31معيارهاي ارزيابي سيستم هاي بازشناسي گفتار-2-434تبدیل متن به گفتار-3

34مقدمه-3-135ساختار تبدیل متن به گفتار-3-238تبديل متن به گفتار مبتني بر روش انتخاب واحد-3-339تبديل متن به گفتار براي تلفنهاي همراه-3-4

39جستجوی صوتی در وب-439مقدمه-4-148جستجوی گوگل توسط صوت-4-2

48تاریخچه -4-2-151 فناوری -4-2-2 52 معیارها -4-2-354مدل آکوستیکی-4-2-457نرمالیزه کردن متن-4-2-559مدل زبانی با مقیاس بزرگ-4-2-6

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

5

Page 6: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

62واسط کاربری-4-363مزایای استفاده از واسط کاربری چند بعدی-4-3-164استفاده از تصویر-4-3-265چالشهای طراحی واسط چند بعدی-4-3-367تصحیح: نمایش جایگزین-4-3-4

67مطالعات کاربر-4-468نتیجه گیری-4-5

68نیازمندیهای جستجوی صوتی در جویشگرهای بومی-568مقدمه-5-168وضعیت موجود-5-2معماری پیشنهادی در مورد جستجوی صوتی در جویشگرهای بومی-5-3

7072ارزیابی میزان دقت جستجوی صوتی-5-4

72مراجع-6

فهرست اشکال21................................ اجزاء اصلي يک سيستم بازشناسي گفتار1-2شکل 36....(.TTS نمايي از بخشهاي اصلي يك نرم افزار تبديل متن به گفتار)1-3شکل 37............ دياگرام بلوکي بخش ابتدايي سيستم تبديل متن به گفتار.2-3شکل How Do I”.....................................44 افزایش استفاده از سوال “1-4شکل What is the best”..............................44 افزایش استفاده از سوال “2-4شکل

2014 اف��زایش اس��تفاده از کلم��ات و پرسش��های مختل��ف را در س��ال 3-4ش��کل 45.........................................................................2013نسبت به سال

46 تفاوت عملکرد دو رده سنی بزرگسال و جوان در جستجوی صوتی4-4شکل 47 تفاوت عملکرد دو رده سنی بزرگسال و جوان در جستجوی صوتی5-4شکل GOOG-411....................................48 یک دیالوگ ساده در سیستم 6-4شکل GOOG-411.......................................49 نسخه پیشرفته تر سیستم 7-4شکل iPhone.......................50 جستجوی گوگل با استفاده از صوت برای 8-4شکل 52......................................... معماری ساده از بازشناسی گفتار9-4شکل

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

6

Page 7: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

56........................................... در طول زمانWebScore تکامل 10-4شکل 58.......................................................... نرمالیزه کرده متن11-4شکل 60................. بصورت تابعی از اندازه مدل زبانیWebScore و WER 12-4شکل

WER 61......................................... و ابهام برای یک مدل زبانی13-4شکل63........................ مثالی از بازشناسی نادرست درخواست کاربر14-4شکل 63..... ارائه انتخابهای مختلف برای راهنمایی کاربر به جواب درست15-4شکل 64..................................................... جستجوی صوتی گوگل16-4شکل 66................................... فیدبک ورود گفتار کاربران در اندروید17-4شکل 71............. معماری سرویس ارائه خدمات صوتی در جویشگر بومی1-5شکل

فهرست جداول51...................های سرویس جستجوی صوتی گوگلQuery مثالی از 1-2جدول 59...................... عملکرد مدل زبانی برای داده های مشاهده نشده2-2جدول 62.......................................................... نرخ خارج از واژگان3-2جدول 62................................................. اصالح نشدهLM ابهام برای 4-2جدول 62................................................. اصالح شدهLM ابهام برای 5-2جدول

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

7

Page 8: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

مقدمه-1

ساخته شد ، در حالي ک��ه1936اولين سيستم توليد کننده گفتار مصنوعي در سال ميالدي آغاز شده1940تالش براي ساخت سيستم باز شناسي گفتار طبيعي از سال

و هنوز هم به عنوان يکي از ش��اخه هاي فع��ال تحقيق��ات ادام��ه دارد. در دو ده��ه اخ��ير بخش قابل توجهي از تحقيقات در زمين��ه پ��ردازش گفت��ار ب��ه ح��ل مس��ئله بازشناس��ي خودک��ار گفت��ار اختص��اص داش��ته اس��ت ک��ه عام��ل مح��رک بس��ياري از اين تحقيق��ات، موسسه پژوهش هاي تحقيقاتي پيش��رفته ب��وده ک��ه پژوهش ه��اي گس��ترده اي را تحت

RM( روي س��ه پ��روژه SURبرنام��ه پ��ژوهش فهم گفت��ار ) ، ATIS و NAB ک��ه قبال( WSJ

ناميده مي شد( بنيان نهاده اس��ت. در ه��ر ي��ک از اين پروژه ه��ا تنه��ا ح��وزه اي خ��اص از گسترده بسيار وسيع ارتباط گفتاري انسان ها به زبان انگليسي مورد نظر بوده است.

)گفت��ار کت��ابي( در کاربرده��ايي چ��ون دس��تيابي ب��هRM )گفت��ار في البداه��ه( و ATISاز )گفت��ار کت��ابي( ب��راي ک��اربرد ديکت��هNAB/WSJبانک هاي اطالع��اتي و م��ديريت آنه��ا، از

اتوماتيک )مثل بازشناسي کلمات منفرد و نيز گفتار پيوسته( و ترجمه گفت��ار ب��ا دامن��ه منج��ر ب��ه پش��تيباني از گروه ه��ايي مختلفي ازSURمحدود استفاده شده است. پ��روژه

،CMUجمله دانشگاه SRI آزمايشگاه لينکلن دانشگاه ،MIT شرکت ،SDC و BBNشد ک�ه هنوز جزو بهترين مراکز پژوهشي بازشناسي گفتار هستند.

به عنوان يک ره��بر، جهت وDARPAنکته قابل مالحظه در اين پشتيباني اين است که مسير حرکت اين تکنولوژي را تعيين کرده است و ب��ا برن��امه اي از قب��ل تع��يين ش��ده، مراحل کار را قدم به قدم تا رس��يدن ب��ه ه��دف دنب��ال کرده ان��د. يکي از نموده�اي اين مس��ئله، پش��تيباني هاي گس��ترده اي اس��ت ک��ه در حاض��ر اين موسس��ه از سيس��تم هاي ترجمه گفتار به گفتار انجام مي دهد، کاري ک��ه ب��دون داش��تن سيس��تم هاي بازشناس��ي

اش��ارهTransonicگفتار چندان معني ندارد. به عنوان نمونه مي توان به پروژه سه ساله ( و ب��رايUSC براي دانشگاه کالفرني��اي جن��وبي )DARPA توسط 2002کرد که در سال

ترجمه گفتار به گفتار دو طرفه فارسي-انگليسي براي کاربرد پزشکي )ترجمه مکالمه به نتيجه رسيده است.2005بيمار و پزشک( تعريف شده است و در سال

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

8

Page 9: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

عالوه بر موارد نامبرده، در اياالت متحده پروژه هاي گوناگوني در مراکز ديگ��ر مانن��دAT&T ،IBMو مراکز تحقيقاتي ديگر در بازشناسي گفتار انجام شد ک��ه ب��ه نت��ايج قاب��ل

ت��وجه اي دس��ت يافته ان��د. عالوه ب��ر پژوهش ه��اي انج��ام ش��ده در اي��االت متح��ده، در سرتاسر جهان تحقيقات گسترده اي روي بازشناسي گفتار به زبان هاي مختلف صورت

درPhilips و تعميم ه��اي آن از ش��رکت SPICOSگرفت��ه و مي گ��يرد. در اروپ��ا سيس��تم هاي ب��راي اطالع��ات راه آهن اروپ��ايي، سيس��تمهايCSELTزمينه ديکت��ه اتوماتي��ک، سيس��تم

،ABBOTدانشگاه کم��بريج انگلس��تان مث��ل HTK و LIMSIنمونه ه��ايي موف��ق از نت��ايج اين تحقيقات مي باشند. در ژاپن، سيستم هاي بازشناسي گفتار با تعداد زي��اد کلم��ات ب��راي کاربردهاي تلفني پياده سازي شده است. در چين و تايوان سيستم هاي بازشناس��ي ب��ر مبناي تش��خيص هج��ا ب��راي کاربرده�اي ديکت��ه اتوماتي��ک ب��ا تع�داد کلم��ات بس�يار زي��اد

INRSطراحي و پياده سازي شده است. در کانادا، تحقيقات قابل توجهي روي سيس��تم

براي بازشناسي تعداد زياد کلمه منفرد به انجام رسيده است. امروزه و به لطف انجام حجم فوق العاده زياد تحقيقات در زمين��ه بازشناس��ي گفت��ار شاهد کاربردي شدن اين تکنولوژي و اس��تفاده از آن در محيط ه��اي عملي��اتي هس��تيم. سيستم هاي موفق مختلفي براي کاربرد ديکته و تشخيص گفتار تلف��ني ب��ه وي��ژه ب��راي

ب��ه ص��ورت تج��اري در دس��ترس هس��تند ک��ه از90زباني انگليسي از حدود اويل ده��ه اشاره کرد.IBM Via Voice و Dragon Naturally Speakingمهمترين آنها مي توان به سيستم

توضيحات اين سيستم ها و ساير سيستم هاي موفق ديگ��ر در بخش س��وم همين فص��ل آورده ش��ده اند. ام��ا عل��يرغم ک��اربردي ش��دن اين سيس��تم ها، هن��وز مح��دوديت هايي مختلفي مانند کاهش کارايي در شرايط نويزي، محدود بودن به گفتار کت��ابي و ض��عف يادگيري کلمات جديد وجود دارد. از اينرو مي توان گفت که نه تنها مس��ئله بازشناس��ي گفتار حل نشده بلکه شاهد هجوم سيل روش ها و بهبودهاي مختلف که خ��ود ح��اکي از عطش روز افزون براي دستيابي به حل کامل مس��ئله اس��ت ن��يز هس��تيم. ام��روزه ب��ا رشد توان محاسباتي کامپيوترها و وجود تجارب گذشته اميد ب��ه ح��ل س��ريعتر مس��ائل موجود در اين زمينه وجود دارد. در واقع شايد يکي از داليل تاخير چند دهه در پرداخت جدي و حل مسئله بازشناسي گفت��ار را بت��وان در دس��ت نب��ودن تکنول��وژي الزم ب��راي

پوشاندن حجم محاسبات بسيار باالي حل مسئله دانست.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

9

Page 10: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

با توسعه اینترنت و گسترش استفاده از اینترنت، استفاده از ابزارهای مختلف برای تسهیل ارتب��اط ب��ا موتوره��ای جس��تجو اف��زایش یافت��ه اس��ت. در این راس��تا ابزاره��ای مختلفی ب�رای اس�تفاده به�تر از قابلیته�ای جس�تجوی موتوره�ای جس�تجو ارای�ه ش�ده است. به عنوان نمونه می توان به ارائه کاربردهای اس��تفاده از موتوره��ای جس��تجو در

موبایلهای هوشمند اشاره نمود که با گسترش این موبایلها ارائه شدند. از جمله سرویسهایی که برای اس��تفاده به��تر از امکان��ات موتوره��ای جس��تجو ارائ��ه شدند، می توان به جستجوی صوتی اشاره نمود. جستجوی صوتی این امکان را فراهم می کند تا با استفاده از صوت به جستجو در وب و موتورهای جستجو بپردازیم. در این گزارش در م��ورد این س��رویس و ک�اربرد آن ب�رای اس��تفاده به�تر از وب توض��یح داده

می شود.

بازشناسی خودکار گفتار-2

مقدمه-2-1

برقراري ارتباط ب��وده و هس��ت وة گفتار براي انسان ساده ترين و کارآمدترين وسيل استفاده از آن جهت برقراري ارتباط با ماشين ها يکي از آرزوهاي ديرينه انس��ان ب��وده است. ب��ا وج��ود پيش��رفت نس��بتا زي��اد تکنول��وژي و عجين ش��دن ماش��ين ها ب��ا زن��دگي روزمره افراد، هنوز روش محاوره و ارتباط با آنه��ا از طري��ق گفت��ار مش��كل اس��ت در حالي كه هدف نهايي از پيشرفت هاي موجود، خلق ماشين هايي حداقل ب��ا توانايي ه��اي انسان است، ماشين هايي که بتوانن��د بش��نوند، بفهمن��د و نهايت��ا عكس العم��ل مناس��ب نشان دهند. پر واضح است که داشتن ماشيني توانمند ب��دون حس ش��نوايي و گوي��ايي براي استفاده انسان چندان خوشايند نيست. پردازش گفتار و عل��وم مرتب��ط ب��ا آن ب��ا تالش ها و تحقيقات فراوان از ديرباز تاکنون، هدف خود را در برآوردن ك��ردن اين مهم گذاشته اند و در نتيجة اين تالش ها امروزه مي توان ب��ه ط��ور اميدوارکنن��ده اي از گفت��ار ب��راي ارتب��اط ب��ا ماش��ين ها اس��تفاده ک��رد و ام��روزه ش��اهد ك��وچ اين سيس��تم ها از

آزمايشگاه ها به محيط هاي كاربردي و عملي هستيم.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

10

Page 11: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

2 ب��ه عن��وان يکي از زمينه ه��اي پ��ردازش گفت��ار1بازشناسي يا تشخيص خودکار گفتار سعي مي کند که گفتار انسان را ب��ه متن ي��ا دس��تورالعمل مع��ادل تب��ديل نماي��د. گفت��ار مورد نظر مي تواند به ص��ورت ي��ک فاي��ل ص��وتي باش��د و ي��ا از طري��ق ميکروف��ون، از طري��ق خ��ط تلفن و ي��ا فرم��ان از راه دور دري��افت ش��ود. در واق��ع ه��دف نه��ايي در بازشناسي گفتار خلق ماشين هايي است که بتوانند مانند انسان بشنوند و عکس العمل

مناسب نشان دهند. اولين تالش ها براي ساخت سيستم بازشناسي گفتار از اوايل دهه چهل ميالدي آغ��از شد وتا اکنون اين تالش ها ادامه دارند. اگر چه رويکرده��اي مختلفي ب��راي بازشناس��ي

اس�ت ک�ه تقريب�ا هم�ه3گفت�ار وج�ود دارد ام�ا م�وفق ترين آنه�ا رويک�رد تش�خيص الگو سيستم هاي موفق امروزي بر اساس آن عمل مي کنند. در اين رويکرد گفتار ب�ه کم�ک

( م�دل مي ش�ود و ب�راي8 ي�ا واج7، س�ه واجي6، هجا5 )مانن�د کلمه4تعدادي واح�د آوايي بازشناسي نيز از تشخيص اين واحدها و کنار هم قرار دادن آنها، متن متناسب با گفتار تشخيص داده مي شود. اين مدل به نوعي متناسب با نظريه ه��اي زبان شناس��ي »ن��وام چامسکي« است که بر اساس آن، هر انساني در برخورد با گفتاري از زبان آش��نا، آن

ممکن تب��ديل مي نماي��د و س��پس در9را ب��ه رش��ته اي از کوچک��ترين واح�د هاي زيرکلمه مغزش به پ��ردازش اين رش��ته مي پ��ردازد ت��ا هجاه��ا، کلم��ات، جمالت و نهايت��ا متن ادا شده را بازشناسي کند. اگرچ��ه ام��روزه سيس��تم هاي موف��ق مختلفي ب��ر اس��اس اين رويکرد ارائه شده اند و در عمل نيز از آنها استفاده مي شود ولي همگي آنها به گونه اي ب��رخي از مح��دوديت هاي س��اده کننده را ي��دک مي کش��ند ک��ه ح��ذف اين مح��دوديت ها مي تواند ب�ه ط��ور قاب�ل مالحظه اي ب�ر پيچي�دگي آنه�ا بيفزاي�د. در واق�ع، ي��ک سيس��تمبازشناسي کامل، که بتواند مشابه انسان عمل نمايد بايستي داراي خواص زير باشد:

1 - Automatic Speech Recognition (ASR)2 - Speech Processing 3 - Pattern Recognition 4 - Acoustic Unit 5 - Word6 - Syllabus 7 - Tri-Phone 8 - Phoneme 9- Sub word

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

11

Page 12: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

باشد.11 و محاوره اي10قادر به بازشناسي گفتار پيوستهگفتار افراد مختلف به يک زبان، حتي با لهجه هاي متفاوت را بازشناسي نمايد.

در محيط هاي شلوغ و نويزي هم جوابگو باشد. عمل کند.12بصورت بالدرنگ

قادر به فراگيري اطالعات جديد نظير کلمات، قوانين زباني و . . . باشد.درحاليکه در همه سيستم هاي کاربردي امروزي، موارد فوق به صورت زير هستند:

باشد.13گفتار بايستي به صورت کتابي گفتار بايستي بر اساس حالت استاندارد زبان باش��د و تغي��يرات مرب��وط ب��ه لهجه ه��ا منجر به کاهش کارايي مي شود. هرچند اغلب سيستمهاي موجود نيز بر اساس ح��الت

ارائ�ه ش��ده اند ام�ا در بيش�تر م�وارد )ب�ه غ�ير از م�وارد مح�دود و14مستقل از گوينده م��ورد اس��تفاده15کاربردهاي خاص( پيشنهاد مي شود که به صورت وابسته ب��ه گوين��ده

قرار گيرند. عليرغم اينکه تکنيک هاي مختلفي براي افزايش مق��اومت اين سيس��تم ها در ش��رايط نويزي ارائه شده است اما استفاده از آنها در محيط و ش��رايط ن��ويزي منج��ر ب��ه افت

کارايي و دقت آنها مي شود. اغلب سيستم هاي کاربردي امروزي تقريبا بالدرنگ هستند. هس�تند و از اطالع�ات16سيستم هاي موج�ود مح��دود ب�ه کلم�ات موج�ود در واژگ�ان

زباني و معنايي به صورت محدود استفاده مي کنند.

پيچيدگي هاي مطرح در سيستم هاي بازشناسي گفتار-2-2

ميزان پيچيدگي يک سيستم بازشناسي گفت��ار ب��ه عوام��ل متع��ددي بس��تگي دارد. در اين سيستم ها، براي کاربردي کردن سعي شده است با ايج��اد مح��دوديت هايي م��يزان

10 - Continuous 11 - Spontaneous 12- Real Time13 - Read 14 - Speaker Independent (SI)15 - Speaker Dependent (SD)16 - Vocabulary

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

12

Page 13: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

پيچيدگي را کاهش دهند. اين کار باعث تعريف دقيق سيستم براي کاربردي مشخص و کاهش دامنة کاربرد آن ولي با ک��ارايي به��تري در آن ک��اربرد مي ش��ود. مهم��ترين اين مح��دوديت ها ک��ه توانمن��دي ي��ک سيس��تم بازشناس��ي گفت��ار را مش��خص مي کنن��د، در

بخش هاي زير آمده است.ميزان وابستگي يا استقالل از گوينده-2-2-1

سيستم هايي که تنه��ا ب��ه ي��ک و ي��ا چن��د گوين��ده خ��اص پاس��خ مي گوين��د، وابس��ته ب��ه 18 و آنهايي که به تمام گويندگان يک زبان پاسخ مي گوين��د مس��تقل از گوين��ده17گوينده

ناميده مي شوند. اصوال بيشتر الگوريتم هاي بازشناسي گفتار قادرند به ه��ر دو ص��ورت عمل کنند. وابستگي يا استقالل از گوينده در مورد يک سيس��تم بازشناس��ي گفت��ار، در مرحلة آم��وزش مش��خص مي ش��ود. ي��ک سيس��تم وابس��ته ب��ه گوين��ده ب��راي فراگ��يري پارامترهاي م��ورد ني��از، الگوه��ايي را ب��ه ک��ار مي ب��رد ک��ه از گفت��ار ي��ک ف��رد ي��ا اف��راد بخصوصي استخراج شده اند، اين سيستم در مرحل��ة بازشناس��ي ق��ادر ب��ه بازشناس��ي گفتار همان فرد يا افراد مي باشد. اگر چه دقت بازشناسي در سيستم هاي وابس��ته ب��ه گوينده نسبتا باالتر از سيستم هاي مستقل از گوينده اس��ت ولي ل��زوم آم��وزش مج��دد سيستم براي اين که توسط کاربران جديد مورد استفاده ق��رار گ��يرد ب��راي آنه��ا نقص

بزرگي به حساب مي آيد. از آنجايي که ويژگي هاي سيگنالي گفتار افراد مختلف با توجه به عواملي مانند سن، جنسيت، لهج��ه، لحن و س��رعت اداي گفت��ار متف��اوت مي باش��د، بازشناس��ي گفت��ار ب��ه صورت مستقل از گوينده داراي پيچيدگي بيشتري مي باشد چراک��ه در اين ح��الت ني��از به پوشش تنوع بيشتري است از اينرو کارايي سيستم هاي وابسته به گوين��ده ب��ه علت محدوديت و تنوع کمتر بهتر از سيستم هاي مستقل از گوينده مي باشد. در کاربرده��اي واقعي که گوينده از ابتدا مشخص نيست سيستم را مس��تقل از گوين��ده آم��وزش داده

،19مي ش��ود و س�پس هنگ��ام اس��تفاده ب��ه کم�ک ب��رخي رويکرده�ا مانن��د تط�بيق م�دل سيستم براي يک گوينده خاص تط�بيق داده مي ش�ود ت�ا بص�ورت وابس�ته ب�ه آن

17- Speaker Dependent (SD)18- Speaker Independent (SI)19 - Model Adaptation

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

13

Page 14: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

گوينده درآيد. در برخي کاربردهاي ديگر مانند بازشناسي از پشت خط تلفن وابسته بهگوينده بودن چندان معني خاصي ندارد چون گوينده از ابتدا مشخص نيست.

پيوسته يا گسسته بودن گفتار-2-2-2

سيستم هاي بازشناس��ي گفت��ار ممکن اس��ت مح��دوديت هايي ب��ر نح��وة اداي کلم��ات توس��ط گوين��ده اعم��ال کن��د. م��يزان پيوس��تگي ي��ا گسس��تگي کلم��ات ب��ه س��ه دس��ته

و21، سيس��تم هاي بازشناس��ي کلم��ات متصل20سيس��تم هاي بازشناس��ي کلم��ات مج��زا طبقه بن�دي مي ش��وند. در ح�الت مج�زا گفت��ار22سيستم هاي بازشناسي گفت�ار پيوس��ته

گوينده به صورت کلمه به کلمه و کامال مجزا از يکديگر بيان مي شود. در سيستم هاي بازشناسي کلمات متصل، گوينده مي تواند دنباله اي از کلمات را به صورت متصل بيان کند ولي کلمات بايد کامال واضح و به صورت کام��ل بي��ان ش��ده و ب��ه وس��يلة س��کوتي کوتاه از هم جدا شوند. سيستم هاي بازشناس��ي پيوس��ته گوين��ده را چن��دان مجب��ور ب��ه پيروي از قوانين خاصي در بيان گفتار نمي کنند بلکه در آن گوين��ده جمالت را ب��ه ط��ور پيوسته و طبيعي بيان مي کند هر چند در اين حالت نيز فرض کتابي بودن گفت��ار وج��ود

است ک��ه23دارد. نوعي ديگر که پيوسته اما کامال غير ماشيني است گفتار في البداهه در آن گوينده مي تواند گفتار را به صورت کامال ط��بيعي بي��ان کن��د. در چ��نين گفت��اري، جمالت ن��اقص، س��رفه، تپ��ق، مکث ه��اي ط��والني و ... وج��ود دارد. پيچي��دگي مس��ئلة بازشناسي گفتار پيوسته و في البداهه بسيار بيشتر است زيرا مش��کالتي ناش��ي از اث��ر بافت مانند مشخص نبودن مرز کلمات متوالي و ادغام شدن ابتداي يک کلمه با انتهاي کلمة قبلي در اين حالت وجود دارد. ادعاهاي موجود در سيستم هاي بازشناسي گفت��ار موجود فقط براي خواندن کتابي اس��ت و ام��روزه تش��خيص گفت��ار في البداه��ه يکي از

زمينه هاي فعال تحقيقات مي باشد.

20- Isolated Word Recognition (IWR)21- Connected Word Recognition22- Continuous Speech Recognition (CSR)23 -Spontaneous Speech

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

14

Page 15: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

اندازه واژگان-2-2-3

و تعداد کلمات مورد استفاده در يک سيستم بازشناسي از عوام��ل24اندازة واژگان موثر در دقت و سرعت سيستم است. بعضي از سيستم هاي بازشناس��ي فق��ط ب��راي تشخيص تعداد محدودي کلمه طراحي ش��ده اند درحالي ک��ه بعض��ي ديگ��ر از سيس��تم ها قادرن��د مجموع��ة ب��زرگي از کلم��ات را تش��خيص دهن��د. معم��وال دقت ي��ک سيس��تم بازشناسي با افزايش تعداد کلمات کم مي شود. اين مسئله کامال بديهي است چرا ک��ه بازشناسي اعداد صفر تا نه که در آن بين کلمات شباهت زياد وجود ندارد، داراي دقت باالتري نسبت به سيستمي است که هزار کلم��ه دارد. سيس��تم هاي بازشناس��ي گفت��ار معموال از لحاظ تعداد کلمات مورد بازشناسي به سيستم هاي بازشناسي ب��ا مجموع��ه

ب��ا تع��داد26، مجموع��ه واژگ��ان متوسط99 ت��ا 1 با تع��داد کلم��ات بين 25واژگان کوچک و1000 با تعداد کلم��ات بيش��تر از 27، مجموعه واژگان بزرگ999 تا 100کلمات بين

60000 با تعداد کلم��ات بيش��تر از 28 و مجموعه واژگان خيلي بزرگ60000کمتر از تقسيم مي شوند.محدودیتهای زبانی-2-2-4

مي باشد ک��ه29يکي از مهمترين بخش هاي يک سيستم بازشناسي گفتار، مدل زباني در واقع بيانگر محدوديت هاي زباني است. مدل زباني يک زبان طبيعي مرکب از چه��ار

مي باش��د. س��مبل هاي زب��ان،32 و جنب��ه واقعيت گ��رايي31، معنا30جزء سمبل ها، دس��تور واحدهايي هستند که پيام ها را تشکيل مي دهند و در واقع کلمات يا واح��د هاي کوچک��تر

و33از کلمه مانند هجاها يا واج ها هستند. دستور زبان مرکب از محدوديت هاي واژگاني

24- Vocabulary Size25- Small Vocabulary26- Medium Vocabulary27- Large Vocabulary28- Very Large Vocabulary29 - Language Model 30 - Grammar 31 - Semantic32 - Pragmatic33 - Lexical

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

15

Page 16: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

است که بيانگر نحوة شکل گرفتن کلمات از واحدهايي کوچکتر از کلمه و ن��يز34نحوي شکل گرفتن جمالت از کلمات است. جنبة معنايي مرتبط با نحوة ترکيب کلمات براي شکل دادن پيغام هاي با معني است. به عنوان مثال: جملة »صندلي غذا مي خ��ورد« از لحاظ نحوي درست ولي از لحاظ معن��ايي نادرس��ت اس��ت. در ب��االترين س��طح، جنب��ة عملي يک زبان جاي دارد که بيانگر وابستگي ادا ک��ردن و مع��ني کلم��ه ب��ه گوين��ده ها و

محيط است. محدوديت هاي معنايي و جنب��ة واقعيت گ��رايي ب��ه ن��درت در سيس��تم هاي بازشناس��ي گفتار استفاده مي شوند زيرا ک�ه اين مح��دوديت ها را ب�ه دش��واري مي ت��وان ب��ه ش�کل فرمول بيان کرد. ولي محدوديت هاي دستوري تقريبا در تمامي سيستم هاي بازشناسي گفتار پيوسته بصورت مح��دوديت واژگ��اني و نح��وي م��ورد اس��تفاده ق��رار مي گيرن��د و تعداد جمالت مجاز براي بازشناسي را کاهش مي دهند. به عبارت ديگ��ر فض��اي م��ورد جستجو کوچک تر مي شود. ميزان محدوديتي که توسط مدل زباني درون ي��ک سيس��تم

آن مدل زباني ناميده مي شود. 35بازشناسي ايجاد مي شود، پيچيدگي تاثير اطالع��ات زب��اني در تش��خيص )و درک( گفت��ار در سيس��تم هاي تش��خيص گفت��ار امروزي تا اندازه اي است که مي توان ادعا کرد که تحقق يک سيس��تم تش��خيص گفت��ار با واژگان بزرگ )يا خيلي بزرگ( با کاربرد واقعي بدون استفاده از اطالعات زباني غير

ممکن است.کارايي در حضور نويز و در محيط هاي کاربردي مختلف-2-2-5

مسئلة بازشناسي گفتار با وجود اثرات مخربي چون نويز، پژواک، تداخل و اعوج��اج که معموال از محيط، ميکروفن و يا کانال انتق��ال ناش��ي مي ش��وند، بس��يار متف��اوت ب��ا مسئلة بازشناسي گفتار در محيطي آرام و ب��دون تخ��ريب اس��ت. هرگ��اه گفت��ار م��ورد بازشناسي، با نويز تخريب گردد کارايي سيستم بازشناسي به ش��دت ک��اهش مي ياب��د. اثر تخريبي سيگنال گفتار آن است که توزي��ع برداره��اي وي��ژگي گفت��ار تخ��ريب ش��ده، شبيه توزيعي که سيستم با آن آموزش ديده است، نمي باشد. اين ع�دم تط�ابق ب�اعث کاهش کارايي سيستم هاي بازشناسي در شرايط نويزي مي ش��ود. روش ه��اي مختلفي جهت مبارزه با نويز در سيستم هاي بازشناسي ارائه شده است که مي توان آنها را در

34 - Syntactic 35- Perplexity

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

16

Page 17: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

سه دستة کلي قرار داد: دستة اول روش هايي هستند که از ويژگي هاي مقاوم به ن��ويز استفاده مي کنند. در اين روش ها ويژگي هايي از گفتار استخراج مي شود که در مقاب��ل نويز حساسيت کمتري داشته باشند. دستة دوم روش هايي هس��تند ک�ه ب��ر پاي��ة تخمين گفت��ار تم��يز عم��ل مي کنن��د. در اين روش ه��ا گفت��ار م��ورد بازشناس��ي ب��ا اس��تفاده از

، تميز مي شوند. و دستة آخ��ر، روش ه��اي مبت��ني ب��ر اص��الح36الگوريتم هاي بهبود گفتار مدل آکوس��تيکي سيس�تم بازشناس�ي هس�تند. ب�ه اين ص�ورت ک�ه سيس�تم به گ�ونه اي اصالح مي شود که نسبت ب��ه ن��ويز مق��اوم باش��د. دو دس��تة اول ني��ازي ب��ه تغي��ير دادن شيوة تطبيق الگو ندارد و فرايند مقاوم سازي فق��ط در مرحل��ه پيش پ��ردازش سيس��تم

صورت مي گيرد. بعضي از سيستم هاي بازشناسي تنها در شرايط محيطي محدود و ب��ا ن��ويز کم ق��ادر به تشخيص گفتار با دقت مطلوب مي باشند. کارايي اين سيستم ها با تغي��ير محي��ط ب��ه ش��دت ک��اهش مي ياب��د. اينک��ه سيس��تمي بتوان��د ب��ا تغي��ير محي��ط و حض��ور ن��ويز دقت بازشناسي خود را حفظ کند يکي از معيارهاي مهم بويژه در کاربردي ب��ودن آن اس��ت

که درنظر گرفتن اين مهم بر پيچيدگي مسئله مي افزايد. بين کلمات38 و ميزان اشتباه37ابهام آکوستيکي-2-2-6

کلماتي که شکل نوش��تاري متم��ايزي دارن��د ولي از لح��اظ گفت��اري مانن��د هم تلف��ظ مي شوند سبب ايجاد ابهام آکوستيکي مي شوند، کلم��اتي نظ��ير »خيش« و »خ��ويش« همچنين کلماتي که تلفظ آنها به يک��ديگر ش��باهت دارن��د، مانن��د »دو« و »ن��ه«، ممکن است بجاي يکديگر بازشناسي شوند و دقت را پايين بياورند؛ ه��ر چن��د تع��داد اين گون��ه کلمات در بانک واژگان بيشتر شود، دقت سيستم بازشناسي پايين تر مي آيد. لذا ب��راي جبران اين مسئله، سيستم بازشناسي بايد از مدل زباني در سطوح گرامري و معنايي

کمک بگيرد.

36 Speech Enhancement37 - Acoustic ambiguity38 - Confusability

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

17

Page 18: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

بلوک دياگرام کلي سيستم هاي بازشناسhhي گفتhhار و تعريhhف-2-3اجزاي آن

س��اختار مرس��وم ب��راي ي��ک سيس��تم بازشناس��ي گفت��ار )ب��ا رويک��رد1-2در ش��کل تشخيص الگو( نشان داده شده اس��ت. ه��ر سيس��تم بازشناس��ي گفت��اري ک��ه از روش بازشناس��ي الگ��و اس��تفاده مي کن��د، داراي دو ف��از آم��وزش و آزم��ون اس��ت. در ف��از آموزش الگوهاي مربوط به هرکالس که همان واح��دهاي آوايي هس��تند ب��ا اس��تفاده از روش هايي مدل سازي مي شوند. مقايسه گفتار ورودي با الگوهاي آم��وزش داده ش��ده جهت تشخيص واحدهاي آوايي موجود درگفتار ورودي، در فاز آزمون انج��ام مي گ��ردد.

نش�ان داده ش�ده اس��ت، ي�ک سيس�تم بازشناس��ي گفت��ار1-2همانگونه ک�ه در ش�کل شامل دو جزء اصلي استخراج ويژگي ها و واح��د م��دل ک�ردن )ب��راي ف��از آم��وزش( و به کارگيري مدل يا جستجو )براي فاز آزمون و استفاده( مي باشد. در اين س��اختار ه��ر کدام از واحدهاي مربوطه نيز خود ب��ه روش ه��اي مختلفي قاب��ل انج��ام هس��تند. واح��د استخراج ويژگي که گاهي آنرا پيش پردازش نيز مي گويند يکي از واحدهاي مورد ني��از اغلب کاربردهاي بازشناسي الگو مي باشد. هدف اين واحد در سيستم هاي بازشناس��ي گفت��ار ک��اهش حجم محاس��بات و ح��ذف افزونگي ه��اي موج��ود در س��يگنال گفت��ار ب��ا استخراج تعداد محدودي پارامتر از آن است. پارامتره��اي اس��تخراج ش��ده توس��ط اين واحد بايس��تي متناس��ب ب��ا ک��اربرد م��ورد نظ��ر باش��د ب��ه اين مع��ني ک��ه ب��راي ک��اربرد بازشناسي گفتار مستقل از گوينده سعي شود پارامترهايي استخراج شود ک��ه ح��داقل حساسيت را به نح��وه اداي آواه��اي مختل��ف ي��ک گفت��ار خ��اص از نظ��ر کالم و گوين��ده داشته باشند. از ط�رفي ب�راي کاربرده�اي وابس�ته ب�ه گوين�ده مانن�د تش�خيص ه�ويت گوينده به کمک گفتار بهتر است واحد استخراج ويژگي پارامترهاي وابسته به گوين��ده مانند وابستگي به لحن، شکل و طول مس��ير ص�وتي ، دوره )پري�ود( گ�ام و غ��يره را استخراج نمايد. از آنج��ا ک��ه کلي��ه عملي��ات بع��دي روي اين ويژگي ه��ا انج��ام مي ش��ود،

به کارگيري يک روش توانا از عوامل موفقيت يک سيستم بازشناسي خواهد بود.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

18

Page 19: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

مدلهاي آوايي

مدلهاي زباني

مدلها واژگان تخمين

دادگان گفتاري

مدلها تخمين

متني دادگان

استخراج ويژگي

جستجو کلمات دنبالهگفتار سيگنال

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

اجزاء اصلي يک سيستم بازشناسي گفتار1-2شکل

در فاز آموزش معموال دو نوع مدل آماده مي شود که در فاز آزمون از آنها اس��تفاده شود، م��دل هاي آوايي و م��دل هاي زب��اني . اس��تخراج م��دل هاي آوايي از روي دادگ��ان گفتاري و با استفاده از روش هاي مختلفي امکان پذير است که برخي از مهمترين آنها در ادام��ه آورده ش��ده اند. م��دل هاي زب��اني معم��ول م��ورد اس��تفاده در سيس��تم هاي تشخيص گفتار امروزي شامل روش هاي گرامري و آم��اري هس��تند. در روش گرام��ري سعي مي شود که به جمالت خروجي ساختار گرامري آن زب��ان )ي��ا آن ک��اربرد خ��اص( اعمال شود و در روش آماري احتمال پشت سرهم آمدن کلمات )مث��ل مون��وگرام ي��ا احتمال وقوع کلمات در زبان، بايگرام يا آمار وقوع دو کلم��ه پش��ت س��ر هم در زب��ان

و ...( به عنوان مدل هاي زباني استخراج مي گردند. جستجو و تبديل واح�دهاي آوايي تش��خيص داده ش��ده ب�ه کلم�ه و س��پس ب��ه جمل��ه، مهمترين کاري است که در فاز آزمون انج��ام مي گ��يرد. ب��راي انج��ام اين ک��ار، بع��د از تشخيص واحدهاي آوايي مدل شده، اين واحدها به همراه واژگان سيستم و مدل هاي زباني به کمک الگوريتم هاي جستجو به کلم��ه و نهايت��ا ب��ه جمل��ه تب��ديل مي ش��وند. اين

توضيح داده شده است.4-2واحد به صورت مختصر در بخش استخراج ويژگي ها-2-3-1

هدف واحد استخراج ويژگي عالوه بر کاهش حجم محاسبات و ح��ذف افزونگي ه��اي موجود در سيگنال گفتار، به کارگيري اطالع�ات متناس�ب بازشناس�ي گفت�ار ب�ا ح�داقل

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

19

Page 20: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

حساسيت به نويز است. روش هاي مختلفي ب��راي اس��تخراج وي��ژگي وج��ود دارن��د ک��ه برخي از ايده توليد گفت��ار در سيس��تم ص��وتي انس��ان و ب��رخي ديگ��ر از اي��ده سيس��تم شنوايي بهره مي گيرند و هر کدام در شرايطي خاص توان�ايي بيش�تري از بقي�ه دارن�د، مثال روش هاي مبت��ني ب��ر سيس�تم ش��نوايي ب�ه نس�بت س�اير روش ه�ا در مقاب��ل ن��ويز مقاوم تر هستند. از روش هاي مرسوم استخراج ويژگي در بازشناس��ي گفت��ار مي ت��وان

( و ض��رايب کپس��ترال فرکانس��ي درPLP39دو روش م��وفق تر آن��اليز پيش��گويي خطي )( را نام برد.MFCC40مقياس مل )

روش آن��اليز پيش��گويي خطي يکي از مش��هورترين روش ه��اي آن��اليز و س��نتز گفت��ار است که بخاطر توانايي آن در نمايش مناسب شکل موج گفتار بر حس��ب پارامتره��اي نامتغير با زمان، در بس��ياري از کاربرده��اي ک��دکردن گفت��ار ن��يز ب��ه ک��ار مي رود. اي��دة اصلي آن، بر اين اساس است که مي توان هر نمونه )فريم( سيگنال گفتار را برحسب نمونه هاي )فريم هاي( قبلي پيش بيني کرد. اين مسئله را معموال با پاسخ فرکانسي يک فيلتر تم��ام قطب تق��ريب مي زنن��د و ض��رائب اين فيل��تر را مي ت��وان ب��ه عن��وان ب��ردار

ويژگي آن فريم مورد استفاده قرار داد. روش آناليز مل-کپستروم يا استخراج ضرايب کپسترال فرکانس��ي در مقي��اس م��ل در بازشناسي گفتار بيشتر از ساير روش ها مورد استفاده قرار مي گ��يرد و ک��ارايي آن در شرايط آزمايش��گاهي و روي داده ه��اي تم��يز از س��اير روش ه��ا به��تر اس��ت. در اين روش طيف سيگنال گفتار محاسبه شده و سپس با تشکيل يک بانک فيلتر در مقي��اس مل، لگاريتم انرژي هر باند محاسبه مي شود. نهايتا تب��ديل تب��ديل کسينوس��ي گسس��ته روي مقادير انرژي فيلترها جهت برگرداندن ويژگي ها به ح��وزه زم��ان و ک��اهش تع��داد

آنها اعمال مي شود.مدل سازي آوايي-2-3-2

از مهم��ترين روش ه��اي م��دل ک��ردن گفت��ار ک��ه در بازشناس��ي مبت��ني ب��ر الگ��و دربازشناسي گفتار استفاده مي شوند، مي توان به موارد زير اشاره کرد:

39 Perceptual Linear Prediction40 Mel-frequency Xepstral Coefficients

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

20

Page 21: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

(DTWمدل انطباق زماني پويا )-2-3-2-1

که از برنامه س��ازي پوي��ا اس��تفاده مي کن��د از روش ه��اي س��اده و اولي��هDTW41روش مورد استفاده در بازشناس�ي گفت��ار ش�ناخته مي ش��ود. از اين روش ب�راي پي��دا ک�ردن شباهت دو الگوي گفتار استفاده مي شود. در اين روش، ه��ر الگ��وي گفت��ار از تع��دادي بردار ويژگي بدست آم�ده از رش�ته هاي گفت��ار تش�کيل ش��ده اس�ت. نقط�ة ق�وت اين تکنيک در رفع عدم انطباق زماني اج��زاي واح��دهاي بازشناس��ي، هنگ��ام انطب��اق الگ��و به وسيلة جابجايي پوياي زماني است. در اين تکني��ک ب��راي ه��ر واح��د بازشناس��ي )ک��ه معموال کلم��ه ي��ا ي��ک عب��ارت کوت��اه اس��ت( ي��ک الگ��وي مرج��ع وج��ود دارد ک��ه هنگ��ام بازشناسي، ميزان انطباق الگوي ورودي با تمام الگوهاي مرجع محاسبه مي شود. اين کار در حجم لغات زياد نيازمند حجم حافظه و محاسبات بس�يار ب��االيي خواه��د ب�ود. از طرف ديگر در کاربرد بازشناسي گفتار پيوسته به لحاظ مشخص نب��ودن م��رز کلم��ات به طور دقيق و نيز در استفاده براي گوين��دگان متع��دد، اين تکني��ک ک��ارايي خ��ود را از دست مي دهد. به همين دليل از اين مدل بيشتر براي کاربردهايي که تع��داد گوين��دگان

کلمه است مثل شماره گيري صوتي در گوشي هاي100محدود و تعداد لغات کمتر از موبايل، استفاده مي شود.

(ANN )42شبکة عصبي مصنوعي-2-3-2-2

شبکه هاي عصبي مصنوعي به عنوان يکي از رويکردهاي ساده و در عين ح��ال توان��ا در بسياري از کاربردها از جمله بازشناسي الگو به طور وسيعي م��ورد اس��تفاده ق��رار مي گيرد. اين روش عليرغم تمام انتقادهايي که از آن مي شود، به عنوان مدل ديگ��ري در شناس��ايي گفت��ار ق��درت ب��االيي از نظ��ر پ��ردازش م��وازي، مق��اوم ب��ودن ب��ه ن��ويز، طبقه بندي و بازشناخت الگو دارد. عليرغم توانايي هاي فوق، از مشکالت عمدة ش��بکة عص��بي محاس��بات ب��اال و زم��ان ط��والني در ف��از آم��وزش مي باش��د. رويکرده��ا و ساختارهاي متنوعي براي ک��ار بازشناس��ي ب��ه کم��ک اين روش اراي��ه ش��ده اس��تکه در روش هاي آموزش آنها، امتياز هر کالس خاص با توجه به امتياز کالس هاي ديگ��ر تع��يين مي شود )آموزش تمايزي (. اين مسئله نسبت به آموزش مبتني بر م��اکزيمم ش��باهت در مدل مخفي مارکف يک مزيت محسوب مي شود. از شبکه هاي رايج مورد استفاده

41 Dynamic Time Warping42- Artificial Neural Network (ANN)

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

21

Page 22: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

( و ن��وع پوي��ا ش��ده آنMLP43در بازشناس��ي گفت��ار مي ت��وان پرس��پترون چن��د الي��ه )( کرد.SOM( و شبکه هاي خود سازمان ده)TDNN44شبکه هاي تاخير زماني )

(HMM )45مدل مخفي مارکوف-2-3-2-3

مدل مخفي مارکوف، يک ماشين حالت متناهي است ن��ه تنه��ا در بازشناس��ي گفت��ار بلکه در موارد بسياري توانايي بااليي در مدل کردن دارد. اين روش آماري با توجه ب��ه تئوري قدرتمند و نشان دادن توانايي مدل کردن خوب در بازشناسي گفتار، به نس��بت بقيه از موفقيت بيشتري برخوردار است و عمده سيستم هاي کاربردي امروزي از اين روش استفاده مي کنند. با توجه ب��ه ف��رض گاوس��ي ب��ودن توزي��ع برداره��اي وي��ژگي در گفتار، براي هر واحد آوايي از تعدادي حالت و در هر ح��الت از تع��دادي ت��ابع گاوس��ي که آن��را تلفي��ق مي نامن��د، ب��ه ازاي ه��ر عنص��ر در ب��ردار ويژگي ه��ا جهت م��دل ک��ردن استفاده مي کند. تابع هاي چگالي يا توزيع هاي گاوس��ي تعري��ف ش��ده ب��راي ه��ر ح��الت

براي هر واحدHMMمي توانند گسسته يا پيوسته باشند. در روش هاي آموزش کالسيک آوايي بطور جداگانه با استفاده از نمونه هاي متن��اظر از مجموع��ة آم��وزش، ي��ک م��دل س��اخته مي ش��ود. اينک��ه ب��راي آم��وزش ي��ک م��دل از اطالع��ات واح��دهاي آوايي ديگ��ر استفاده نمي ش��ود و آم��وزش ب��ه ص��ورت تم��ايزي نيس��ت، ي��ک عيب عم��ده محس��وب مي شود، هرچند روش ه��ايي ب��راي به ک��ارگيري اطالع��ات واح��دهاي آوايي ديگ��ر وج��ود دارد, با اين وجود تا به امروز اين مدل سازي از موفق ترين روش ها ب��راي ح�ل مس�ئلة

بازشناسي گفتار پيوسته با تعداد کلمات زياد و مستقل از گوينده بوده است. در اين روش آم��اري، گفت��ار ب��ه ص��ورت ي��ک منب��ع تولي��د اطالع��ات در نظ��ر گرفت��ه مي شود که رشته کلم��ات را ب��ه ص��ورت الگوه��اي تص��ادفي در مي آورد و مج��ددا باي��د توسط سيستم بازشناسي به صورت دنباله اي از کلم��ات درآي��د. اگ��ر ف��رض ک��نيم ک��ه نشان دهندة دنباله کلمات مربوط به دنباله آکوستيکي بيان شده باشد، دربازشناسي گفتار هدف اين است که با داشتن دنبالة آکوستيک ، دنبالة کلمات را چنان پيدا ک��نيم

که احتمال آن به شرط بيشينه شود:

(2-1) W=argmax

WP(W|O)

43 Multilayer perceptron44 Time Delay Neural Network

45- Hidden Markov Model (HMM) هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

22

Page 23: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

با استفاده از قانون بيز ، رابطة باال را مي توان به صورت زير بازنويسي کرد:

(2-2) W=argmaxW

P(O|W ).P (W )P (O)

=argmaxW

P(O|W ) .P (W )

در اين رابطه، بيانگر احتمال مش��اهدة دنبال�ة آکوس�تيک ، ب�ه ش��رط بي��ان دنبال�ة لغت مي باشد. اين احتمال در سيستم بازشناسي به وسيلة يک رمزگشاي آکوس��تيک

محاسبه مي شود. ن��يز بي��انگر احتم��ال1-2و با استفاده از مدل آوايي گفتار در شکل وقوع دنبالة لغت در زبان مي باشد. اين احتمال به وسيلة يک رمزگش��اي زب��اني و ب��ا

، محاسبه مي گردد. 1-2استفاده از مدل زباني نشان داده شده در شکل براي مدل كردن آوايي گفتار از مدل مخفي مارکوف كه يک ماش��ين ح��الت متن��اهي است و در هر حالت آن يک ي��ا چن��د ت��ابع چگ��الي احتم��ال گسس��ته ي��ا پيوس��ته تعري��ف

هايي که براي مدل سازي گفتار ب��ه ک��ار مي رون��د،HMM مي شود، استفاده مي شود. در توابع چگالي احتم�ال ب�ه وس��يلة دنبال�ة مش�اهدات گفت�ار تع�يين مي ش�وند. منظ�ور از مشاهدات همان بردارهاي ويژگي هستند كه در مرحلة استخراج برداره��اي وي��ژگي از هر فريم سيگنال گفتار استخراج مي گردند كه به دليل ماهيت پيوسته اين مشاهدات،

HMM.هاي مورد استفاده در مدل سازي گفتار معموال از نوع چگالي پيوس��ته مي باش��ند معم��وال ب��هHMMهمچنين براي اين كه ترتيب زماني مشاهدات حفظ شود، توپول��وژي

صورت چپ به راست درنظر گرفته مي شود. در توپولوژي چپ به راست پرش از يكحالت فقط به خود آن حالت و حالت هاي بعدي و نه حالت هاي قبلي مجاز است.

مدلهای ترکیبی-2-3-2-4

هر کدام از مدل هاي فوق، نقاط ضعف و قوت ويژة خ��ود را دارن��د. ت��رکيب م��دل ها راهي جهت جبران نقاط ضعف هر کدام از مدل ها و استفاده از نقاط قوت آنها با هم

روش هايي موفق و در مواردي پاياپاي هستند ام��ا ه��رHMMاست. شبکه هاي عصبي و کدام از اين دو معايبي دارند که ديگري ندارد. از اينرو انتظ��ار مي رود ک��ه ت��رکيب آنه�ا منجر ب��ه بهب��ود ک��ارايي ش��ود. مثال ش��بکه هاي عص��بي طبقه بن��دي کنن��ده هاي ايس��تايي

ديناميک است و رفتار کوتاه مدت گفت��ار را ب��ه خ��وبي م��دلHMMهستند، در حالي که مي کند در ع��وض ش��بکه هاي عص��بي ب��راي آم��وزش ي��ک م��دل از اطالع��ات آموزش��ي

فق��ط از اطالع��ات مرب��وط ب��ه آنHMMمدلهاي ديکر نيز استفاده مي کند در حالي که هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

23

Page 24: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

مدل خاص استفاده مي کند و در نتيجه ش��بکه عص��بي در مقاب��ل تغي��يرات مق��اوم تر ازHMMاست. اين رويکرد در بسياري از تالش هاي انج��ام ش��ده جهت بهب��ود ک��ارايي اين

سيستم ها ديده مي شود.

مدلسازی زبانی-2-3-3

به دليل ارزش و اهميت زب��ان و اطالع��ات زب��اني، دانش ه��وش مص��نوعي آن را در ليست اولويت هاي خود ب��راي شبه س��ازي رفت��ار بش��ر در ق��الب رش��ته پ��ردازش زب��ان

( قرار داده است. استخراج و استفاده از اطالعات زب��اني در زمينه ه��ايNLP )46طبيعي مختلفي که هدف آنها تقليد رفتار انسان اس��ت، گريزناپ��ذير اس��ت. کاربرده�ايي مانن��د

OC )48(، ترجمه ماشيني، تشخيص ک��اراکترTTS)47بازشناسي گفتار، تبديل متن به گفتار

Rبحث49( و ... . اطالعات زباني مي تواند در قالب ه��اي مختلفي مانن��د ريخت شناسي( س��اخته50در مورد اينكه لغات چگونه از روي واحد هاي با معني كوچكتر ب��ه ن��ام تک��واژ

)چگ��ونگي كن��ار هم ق��رار دادن لغ��ات ب��راي ايج��اد ي��ك جمل��ه51مي شوند(، س��اختاري )بحث در رابطه با معاني لغات و52درست و دادن يك نقش به هريك از آن ها(، معنايي

)بحث در مورد اين كه ي��ك53 واقعيت گراييچگونگي تركيب آن ها در جمالت با معنا( و جمله در جايگاه هاي مختلف چ��ه معنا ه��ايي مي توان��د داش��ته باش��د( اس��تخراج و م��ورد

استفاده قرار گيرند. در سيستم هاي بازشناسي گفتار با واژگ��ان متوس��ط و ب��االتر، اس��تفاده از م��دل هاي زباني براي افزايش دقت ضرورت دارد. در واقع اين سيستم ها، عالوه ب��ر اس��تفاده از مدل آکوستيکي، نياز به مدلي از ارتب��اط بين کلم��ات در ي��ک جمل��ه دارن��د. ب��ه عب��ارت ديگر اطالع از اين که چه دنباله اي از کلمات ممکن يا محتمل است که پش��ت س��ر هم واقع شوند و يا جمالت بيان شده در چه ساختاري قرار دارند، الزم است. متداول ترين

46- Natural Language Processing (NLP)47- Text-To-Speech (TTS)48- Optical Character Recognition (OCR)49- Morphological50- Morpheme 51- Syntactic52- Semantic53- Pragmatic

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

24

Page 25: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

م��دل زب��اني م��ورد اس��تفاده در سيس��تم هاي بازشناس��ي گفت��ار ام��روزي م��دل زب��اني احتمالي است که بيانگر آمار پشت سرهم آمدن کلمات مختلف زبان است. آمار قرار

مي نامن��دو ب��ه ص��ورت زي��ر قاب��ل محاس��بهN-gram کلم��ه پش��ت س��رهم را Nگ��رفتن مي باشد:

(2-3)P(w1 ,w2 ,w3 , .. . ,wN )=∏i=1

N

P(wi|w i−1 ,wi−2 ,. .. ,w1)

اما در عمل با توج��ه ب��ه مح��دوديت م��يزان داده ه��اي در دس��ترس و ب��ار محاس��بات، محاسبه مي ش��ود ک��ه در اين3 و يا 2،�� 1 برابر با مقادير Nمعموال آمار فوق را براي

،mono-gramصورت مدل هاي آماري استخراج شده به ترتيب bi-gram و tri-gramنامي��ده مي شوند. محاسبه مقادير اين آمار براي اين سه حالت به صورت نشان داده شده در روابط زير مي باشد. داده هاي متني مورد استفاده براي اس��تخراج م��دل هاي زب��اني ب�ه

در دسترس هستند.54صورت دادگان هايي به نام پيكره متني

(2-4)P(w i|wi−1 ,wi−2 , . .. ,w1 )≈P (wi )

(2-5)P(w i|wi−1 ,wi−2 , . .. ,w1 )≈P (wi|wi−1 )

(2-6)P(w i|wi−1 ,wi−2 , . .. ,w1)≈P (wi|wi−1w i−2)

ب��هHMM در اين رواب��ط، در سيس��تم هاي مبت��ني ب��ر مقدار بدست آمده ب��راي

( مورد استفاده قرار مي گيرند ک��ه ب��ر اس��اس2-1صورت نشان داده شده در رابطه )آن مقدار امتياز دنباله کلمات محاسبه مي شود.

عالوه ب��ر م��دل هاي آم��اري ک��ه رايج��ترين ن��وع م��دل هاي زب��اني م��ورد اس��تفاده در بازشناسي گفتار هستند، گاهي از مدل هاي گرام��ري ن��يز اس��تفاده مي ش��ود. خ��روجي

-به��ترين فرض��يهnسيستم هاي بازشناسي گفتار پيوسته معموال ب��ه ص��ورت ليس��تي از -به��ترين فرض��يه معم��وال ب��ا درnمعادل با گفتار ورودي مي باشند. در اين سيستم ه��ا,

نظر گرفتن مدل هاي آکوستيک و مدل هاي زباني آماري به دست مي آيد و امتياز آن ه��ا54- Text corpus

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

25

Page 26: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

بر اساس اين مدل ها محاسبه مي شود و از ميان آن ه��ا فرض��ية ب��ا ب��االترين امتي��از ب��ه عنوان خروجي نهايي در نظ��ر گرفت��ه مي ش��ود. چ��ون م��دل آکوس��تيک )و ح��تي م��دل nزباني آماري( محدوديت دس�توري زي�ادي ب�ر روي خروجي ه�ا اعم�ال نمي کنن�د، پس

فرض��يه حاص��ل ممکن اس��ت از لح��اظ دس��توري درس��ت ي��ا نادرس��ت باش��ند. در کاربردهايي که انتظار داريم که جمل��ه گفت��اري ورودي و مع��ادل آن جمل��ه خ��روجي از نظر دستوري درست باشد, خروجي هاي سيس��تم بازشناس��ي از لح��اظ درس��ت ب��ودن دستوري نيز چک مي گردند. براي اين کار احتياج به ي�ک م�دل دس��توري اس�ت ک�ه اين مدل دستوري شامل الگوهاي نحوي جمالت و همچنين مشخصه هاي دس��توري کلم��ات مورد استفاده مي باشد که با استفاده از اين مدل يک تحليل گر نحوي خروجي سيستم بازشناسي را مورد پردازش قرار مي دهد و فرضيه هاي نادرست )از نظر دستوري( را رد مي کند و در نهايت فرضيه اي را به عنوان خ��روجي نه��ايي تولي��د مي کن��د ک��ه هم از لحاظ دستوري درست باشد و هم داراي بيشترين امتياز ) از لحاظ آكوستيك و آماري(

فرضيه خروجي باشد. با توجه به مح��دوديت هايي ک��ه اين م��دل روي س��اختارnدر بين جمالت قرار مي دهد، از اين مدل معموال فقط در کاربردهاي محدود و خاص منظ��وره استفاده مي کنند و در سيستم هاي بزرگتر مانند سيستم ديکته آنها را به کار نمي گيرند.

دادگان هاي گفتاري و متني و واژگان-2-3-4

دادگان ه��اي گفت��اري و مت��ني ب��ه هم��راه واژگ��ان بانک ه��اي اطالع��اتي ي��ک سيس��تم ن�يز پيداس�ت، تهي�ه1-2بازشناسي گفتار را تشکيل مي دهند. همانگون�ه ک�ه در ش��کل

مدل هاي آوايي نيازمند دادگان هاي متني جهت انجام کار آموزش اس��ت. ج��دا از روش مدل سازي، فرآيند آموزش مدل هاي آکوستيکي بايستي به کمک دادگان هاي گفتاري از قبل تهيه شده صورت بگيريد که اين دادگان ها شامل حجم قابل ت��وجهي از نمونه ه��اي

ساعت گفتار( همراه با تنوع کافي در تعداد گوين��دگان جهت پوش��ش200آوايي )مثال تغييرات آوايي زبان ايت. اين دادگان معموال به ص��ورت فايل ه��اي ص��وتي ب��ا برچس��پ متني معادل در سطح واج يا کلمه هستند که گاهي داراي تقطيع در س��طح واج، کلم��ه

يا جمله نيز هستند. براي ايجاد مدل هاي زباني يا مي توان به صورت مش��ابه از روي دادگ��ان ه��اي مت��ني آمار و اطالعات مربوط به کلمات را استخراج نمود و يا اينکه با قوانين نحوي )که ب��از

treeمي تواند به کمک دادگان هاي پارس شده يا bankها اسخراج گردد و ي��ا ب��ه ص��ورت هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

26

Page 27: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

دس��تي انج��ام ش��ود( س�اختار زب��ان را در سيس�تم هاي بازشناس�ي گفت��ار پي�اده نم��ود. ميلي��ون200دادگان هاي مت��ني ن��يز دربرگيرن��ده حجم وس��يعي از کلم��ات )مثال ح��دود

کلمه( هستند که به کمک آنه�ا اطالع�ات آم�اري ش�امل احتم�ال رخ�داد کلم�ات پش�تسرهم و اطالعات معنايي استخراج مي گردد.

ها نيز از اجزاي اص��لي م��ورد اس��تفاده در سيس��تم هاي بازشناس��يLexiconواژگان يا گفتار هستند که شامل ليست کلماتي است که توسط سيستم بازشناس��ي مي گردن��د. در واژگان هاي مورد استفاده در سيستم هاي بازشناسي گفتار پيوسته با تعداد واژگ��ان زياد، عالوه بر ليست خود کلمات، اطالعات مختلفي در مورد هر کلم��ه مانن��د احتم��ال

(، احتم��ال وق��وع آن بع��د از س��اير کلم��ات،mono-gramوق��وع آن در زب��ان )احتم��ال نقش)هاي( گرام��ري در جمل��ه و ... را ن��يز ش��امل مي ش��ود. ب��ه اين گون��ه واژگان ه��ا،

واژگان محاسباتي گفته مي شود.بازشناسي: جستجوي واحدهاي آوايي و کلمات-2-3-5

بهترين دنبال��هOبعد از آموزش مدل ها، هنگام بازشناسي بايستي براي دنباله آوايي پيدا شود. بنابراين در يک سيس��تم بازشناس��ي گفت��ار پيوس��ته، ب��ا در اختي��ارWکلمات

داشتن مدل هاي آکوستيک واحدهاي آوايي، يافتن واحدهاي آوايي گفتار ورودي ب��ه ي��ك مسئلة جستجو تبديل مي شود، به ط��وري ك�ه به�ترين انطب��اق ممكن بين دنبال��ه آوايي سيگنال ورودي و مدل هاي آکوستيک ايجاد شود. در هنگ�ام جس�تجو، احتم�ال تعل�ق ي�ا ميزان شباهت بردارهاي ويژگي گفتار ورودي، با مدل هاي مربوط ب��ه واح�دهاي آوايي، محاسبه شده و از ميان محتمل ترين جواب ها دنباله هايي از واحدهاي آوايي ب��ه عن��وان فرضيه شکل مي گيرد. فرضيه اي كه بيش�ترين امتي��از را داش��ته باش��د، به�ترين ج�واب خواهد بود. در يك جس��تجوي كام��ل ك��ه هم��ة فرض��يه هاي ممکن م��ورد بررس��ي ق��رار مي گيرند، تعداد فرضيه ها با افزايش تع��داد برداره��اي وي��ژگي گفت��ار ورودي، ب��ه ط��ور نمايي افزايش پيدا مي كند، ار اينرو معموال از روش هاي جستجويي اس��تفاده مي ش��ود که قادرند به ج��اي بررس��ي ک��ل فض��اي جس��تجو، تنه��ا ب��ا بررس��ي قس��متي از فض��اي جستجو، جواب خوبي بدهند. در بازشناس��ي گفت��ار پيوس��ته، روش ه��اي مختلفي ب��راي جستجو وجود دارد. مشهورترين روش هاي جستجو عبارتند از: جستجوي ويتربي که بر

که شکل ک�اراتري از55مبناي الگوريتم ويتربي عمل مي کند؛ جستجوي ويتربي شعاعي55- Beam Viterbi

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

27

Page 28: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

*A که بر مبناي الگوريتم جستجوي56جستجوي ويتربي است و جستجو بر مبناي پشتهعمل مي کند.

در سيستم هاي با واژگان بزرگ و سيستم هايي که واحد آوايي آنها واحدهايي کوچ��ک مثل واج يا هجا هستند، بايستي دنباله آنها به دنباله کلمات تبديل شود. از آن ج��ايي ک��ه خروجي رمزگشاي آکوستيک، دنباله اي ناقص و خطادار از واج ها مي باشد، براي تبديل دنبالة واجي به دنبالة کلمات، نياز به يک مدل زباني و يک رمزگش��اي زب��اني داريم. در تبديل دنبالة واجي به کلمات مي توان از دو رويکرد استفاده کرد. در حالت اول دنبال��ة واجي حاص��ل از رمزگش��اي آکوس��تيکي ب��ه ط��ور کام��ل تش��کيل مي ش��ود، س��پس ب��ا اس��تفاده از درخت واژگ��ان و الگوريتم ه��اي جس��تجوي گ��راف، به��ترين دنبال��ة کلم��ات متناظر با دنبالة واجي تشکيل مي گردد. در رويکرد دوم، همزمان با ش��کل گيري دنبال��ة واجي، بهترين دنبال��ة کلم��ه ن��يز ب��ا جس��تجو در ي��ک درخت واژگ��ان ب��ه دس��ت مي آي��د. استفاده از اطالعات بيشتر زباني مانن��د اطالع��ات آم��اري س��طح ب��االتر و اس��تفاده از گرام�ر مي توان�د نت��ايج به�تري را منج��ر ش��ود. اين اطالع�ات مي توان�د هم روي دنبال�ه کلمات نهايي براي امتياز دهي مجدد فرضيه ها استفاده شود و هم در حين ايجاد دنباله کلمات از روي دنباله واجي جهت جلوگيري از رشد فرضيه هاي نادرست و ضعيف بکار

گرفته شود.معيارهاي ارزيابي سيستم هاي بازشناسي گفتار-2-4

در ارزيابي عملکرد سيستم هاي بازشناسي گفتار بايستي م��وارد مختلفي را در نظ��ر گ��رفت. تع��داد کلم��ات موج��ود در واژگ��ان سيس��تم، تع��داد کلم��ات خ��ارج از دادگ��ان

(، سازگاري/عدم س��ازگاري داده ه��اي آم��وزش و آزم��ون ،OOV57مجموعه آزمون )نرخ محيط آکوستيکي آزمون و ميزان سيگنال به نويز سيگنال گفتار از جمل��ه اين مس��ائل هستند. در آزمودن ي�ک سيس�تم بازشناس��ي گفت�ار روي ي�ک مجموع�ه آزم�ون، ممکن

و خط��اي59، خطاي درج58است يکي از سه نوع خطاي زير اتفاق بيافتد: خطاي حذف . خطاي حذف زماني اتفاق مي افتد كه يك واحد آوايي )کلم��ه( در س��يگنال60جايگزيني

56- Stack57- Out-Of-Vocabulary (OOV)58- Deletion 59- Insertion 60- Substitution

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

28

Page 29: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

گفت��ار وج��ود دارد ولي بازشناس��ي نمي ش��ود. درخط��اي درج، واح��د آوايي )کلم��ه( بازشناسي شده در سيگنال گفتار وجود ندارد. اين نوع خطا معموال در هنگام تشخيص نويز به جاي يک واحد آوايي )کلمه( پيش مي آيد. وقتي كه يك واح��د آوايي )کلم��ه( ب��ه اشتباه به جاي يک واحد آوايي )کلمه( ديگري بازشناس��ي مي ش��ود، خط��اي ج��ايگزيني

رخ داده است. 61با توجه به خطاهاي فوق، در سيستم هاي بازشناسي گفتار معيارهاي ك��ارايي دقت

روي دادگان آزم��ون تعري��ف مي ش��ود. ب��راي محاس��به اين معياره��ا، دنبال��ة62و صحت واج ها )کلمات( حاصل از بازشناسي كه با خطاه��اي درج، ح��ذف و ج��ايگزيني هم��راه مي باشد، با دنبالة واج هاي )کلمات( صحيح مقايسه شده و بر اساس تع��داد خطاه��اي سيستم، درصد دقت و درص��د ص��حت بازشناس��ي ب��ه ت��رتيب ب��ا رواب��ط زي��ر محاس��به

مي شوند:

(2-7)Accuracy%=N All−(N Del.+N Ins .+N Sub .)

N All ×100

(2-8)Correctness%=N All−(N Del.+N Sub .)

N All ×100

Nدر روابط باال، Ins . ،N Del N و . Sub به ترتيب تعداد خطاهاي درج، حذف و ج�ايگزيني و.N Allتعداد کل کلمات )و يا واج هاي( دنبالة صحيح مي باشد. ب��ا توج��ه ب��ه تعري��ف اخ��ير

درصد دقت مي تواند عددي منفي باشد ک��ه نش��ان از خط��اي درج زي�اد، مي باش��د وليدرصد دقت بين صفر تا صد خواهد بود.

يکي ديگر از معيارهاي بسيار پرکاربرد در ارزي��ابي ک��ارايي سيس��تم هاي بازشناس��ي ( مي باشد. اين معيار که م��يزان خطاه��اي سيس��تم راWER )63گفتار نرخ خطاي کلمات

نشان مي دهد، به نوعي مفهوم عکس دقت را دارد و به صورت زير محاسبه مي شود.

(2-9)WER%=1−Accuracy%=NDel .+N Ins .+N Sub .

N All ×100

61 - Accuracy62 - Correctness 63- Word Error Rate (WER)

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

29

Page 30: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

يکي ديگر از معيارهايي که در ارزيابي سيستم هاي بازشناسي گفتار به ک��ار مي رود، سرگش��تگي ک��ه روي م��دل هاي زب��اني تعري��ف مي ش��ود، يکي از اس��ت. 64سرگشتگي

معيارهاي مناسب جهت ارزيابي و مقايسه م��دل هاي زب��اني مختل��ف مي باش��د. مق��دار اين معيار بر روي جمالت و کلمات دادگ��ان آزم��ون ب��ر اس��اس م��دل زب��اني اس��تخراج شده، محاس��به ک��رد. اين معي��ار مي��انگين تع��داد کلم��ات محتم��ل بع��د از ه��ر کلم��ه در

زب��ان روي65مجموعه آزم��ون را نش��ان مي ده��د و نماين��ده متوس��ط ض��ريب انش��عاب کلمات موجود در مجموعه آزمون است. به اين معني که اگر مقدار سرگش��تگي روي

کلم��ه مختل��ف100 باشد، "به طور متوس��ط" احتم��ال وق��وع 100يک مجموعه جمله بعد از هر کلمه موجود در مجموعه جمالت وجود دارد. مقدار سرگشتگي م��دل زب��اني استخراج شده بزرگتر يا مس��اوي سرگش��تگي م��دل واقعي مي باش��د، ام��ا از آنج��ا ک��ه توزيع واقعي در دسترس نيست، از ميان مدل هاي زب��اني اس��تخراج ش��ده، م��دلي ک��هسرگشتگي پايين تري دارد، به عنوان مدل نزديک تر به مدل واقعي، انتخاب مي شود.

جهت به دست آوردن مقدار سرگشتگي از رابطه زير اس��تفاده مي ش��ود ک��ه در آنH (W است.W برابر مقدار آنتروپي دنباله کلمات (

(2-10)Perplexity=2H (W )

w1براي محاسبه مقدار آنتروپي دنباله کلمات , .. . ,wnاز رابطه )تقريب( زي��ر اس��تفاده p(wمي شود که در آن است.w احتمال وقوع کلمه (

(2-11)H (W )=−∑wp(w) log p(w )≈−limn→∞

1nlog p (w1 , . .. ,wn )

ميزان سرگشتگي تابعي از مدل زب��اني و متن اس��ت و مقايس��ه آن ب��راي م��دل هاي مختلف تنها در صورتي معنا پيدا مي کن��د ک��ه مت��ون آزم��ون و واژگ��ان يکس��اني م��ورد

استفاده قرار بگيرد. يکي ديگر از معيارهايي که بيشتر در ش��رايط ک��اربردي م��ورد نظ��ر اس��ت، س��رعت

گفت��ه مي ش��ود،66بازشناسي گفتار ورودي است. اين مس��ئله ک��ه ن��رخ بالدرن��گ ب��ودن64- Perplexity 65- Branching Factor66- Real-Time Rate

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

30

Page 31: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

بيانگر اين است که براي تبديل گفتار وروردي به متن، سيس��تم بازشناس��ي ب��ه چق��در زمان نياز دارد. مق��دار اين ف��اکتور براب��ر ب��ا نس��بت زم��ان م��ورد ني��از ب��راي پ��ردازش سيگنال به زمان خود سيگنال مي باشد و به صورت زير محاسبه مي ش��ود. ک��ه در اين

)P|رابطه t X زمان مورد نياز براي کامل شدن پردازش سيگنال |( ( t اس��ت ک��ه ط��ول(

X|اين سيگنال برابر ( t است. |(

(2-12)RT=|P( t )||X ( t )|

تبدیل متن به گفتار-3

مقدمه-3-1

تبديل متن به گفتار يكي از مهمترين فناوريهايي است كه امروزه نقش اساس��ي را در تعامل انسان - رايانه ايفا مي كند. تعامل رايانه با انس�ان بص�ورت گفت�اري، روز ب�ه

تر و وسيعتر گرديده است و در اكثر سيس��تمهاي تع��املي م��ورد اس��تفادهروز گسترده قرار مي گيرد. آنچه ام��روزه پس از س��اليان متم��ادي تحقي��ق و بررس��ي در اين زمين��ه

افزاره�اي مب�دل متن ب�ه گفت�ار، ب�ه نح�وي اس�ت ك�هجلب توجه مي كند، توس��عة ن�رم بودن گفتار سنتز شده عالوه بر قاب��ل فهم ب��ودن آن م��ورد توج��ه خوشايندي و طبيعي

خاص قرار گرفته است. لذا فناوريهاي بسيار جديدي در اين زمينه توسعه يافته اند ك��ه شامل انواع روشهاي سنتز گفتاري، انتخ��اب ن��وع واح��دهاي س��نتز گفت��ار و پردازش��گر

طبيعي زبان مي باشند. افزارهاي جديد تبديل متن ب��ه گفت��ار موج��ود در زبانه��اي رايج، عالوه ب��ر كيفيت،نرم

پردازش و سنتز سريع متون و سهولت بكارگرفته شدن در نرم افزارهاي ديگر را ن��يز مد نظر قرار داده اند. ع�دم وج�ود جهش و ناپيوس�تگي آوايي و گفت�اري بين واح�دهاي

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

31

Page 32: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

الحاقي، پروزودي و زير وبمي مناسب، پردازش هم آوايي، پردازش معن��ايي و ... ن��يزاز ويژگيهاي اين نرم افزارها مي باشد.

ساختار تبدیل متن به گفتار-3-2

اف��زاري اس��ت ك��ه¬تبديل متن به گفتار همانطور كه از نام آن مشخص اس��ت، ن��رم متن را در ورودي دريافت و آنرا ب��ه گفت��ار تب��ديل مي كن��د. اين ن��رم اف��زار ك��ه تعام��ل انسان و رايانه را آسان مي كند، نيازمند الگوريتمهاي پ��ردازش ط��بيعي زب��ان و ه��وش مصنوعي مي باشد. احساساتي كه يك انسان مي تواند در هنگام خواندن ي��ك متن آن��را ابراز كند، كلماتي كه بعضا در متون جديد هستند و انسان با توجه به تجربي��ات پيش��ين خود قادر به اداي آنها است، آهنگ بيان جمالت كه در بيان فهم جمل��ه مهم مي باش��د و موارد بيشماري كه در هنگ�ام اداي ي�ك متن توس��ط انس��ان رع�ايت مي ش��ود، م�وجب مي شود تا طراحي يك نرم افزار تبديل متن به گفتار مشكل شود. ل��ذا ب��راي ط��راحي يك نرم افزار تبديل متن ب��ه گفت��ار ب��ا كيفيت مناس��ب، الزم اس��ت ت��ا ع��واملي ك��ه در كيفيت اين نرم افزار تاثير گذار اس�ت را مش�خص نم�اييم. از مهم�ترين نك�اتي ك�ه دركيفيت يك نرم افزار تبديل متن به گفتار مهم است مي توان به موارد زير اشاره كرد:

بيان و تلفظ صحيح كلمات و عبارات و حتي كلمات غير متداول•قابليت فهم باالي عبارات بيان شده • خوشايند بودن عبارات بيان شده براي شنونده كه به عوامل زيادي مانند كيفيت•

طيفي گفتار سنتز شده، يكنواخ��تي گفت��ار س��نتز ش��ده و م��يزان ش��باهت آن ب��ا گفت��ارانسان، پروزودي و ... بستگي دارد.

قابليت هماهنگي با زبان انگليسي و عدم كاهش كيفيت در هنگام تغيير زبان •قابليت هماهنگ بودن با ابزارهاي صفحه خوان • خوشايند گستردگي استفاده نرم اف��زار ب��راي كاربرده��اي مختل��ف مانن��د مت��ون•

اقتصادي، سياسي، اجتماعي، اخبار، رمان، رياضي و ... سرعت مناسب پردازش و پخش جمالت به نحوي كه جمالت بدون وقف��ه قاب��ل•

پخش باشند. عدم نياز به پردازش باال به نحوي كه كاربر بتواند به راحتي ب��ه هم��راه اين ن��رم•

افزارهاي موجود در رايانه خود كار كند. ¬افزار با بقيه نرم

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

32

Page 33: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

طراحي ماژوالر به نحوي كه امكان باال بردن كيفيت به مرور زمان و با دريافت•فيدبكهاي كاربران وجود داشته باشد.

را نش��ان مي ده��د. هم��انطورTTS( نمايي از بخشهاي اصلي يك نرم افزار 1-3شكل) از چه�ار بخش تحلي�ل مت�ني، تحلي��ل آوايي،TTSكه مشاهده مي ش��ود، ي�ك ن�رم اف�زار

تعيين نوا و توليد گفتار تشكيل مي شود.

(.TTS نمايي از بخشهاي اصلي يك نرم افزار تبديل متن به گفتار)2-3شکل

براي طراحي نرم افزار تبديل متن به گفتار باي��د در ط��راحي ه��ر ي��ك از چه��ار بخشفوق موارد باال را در نظر گرفت.

آناليز متن در بسياري از زبان هاي دنيا کار نسبتا آساني است، ام��ا در زب��ان فارس��ي به دليل مشکالتي که در موارد زير بيان شده است، اس��تخراج اطالع��ات آوايي از متن

ورودي کار چندان آساني نيست. هيچ نگاشت صريحي بين صورت نوشتاري کلمات و صورت آوايي کلمات وج��ود•

ندارد. بارزترين مشکل اين است که واکه و واکه مرکب ها به خصوص واکه هاي کوت��اهدر زبان فارسي نوشته نمي شوند.

هر کلمه در زبان فارسي ممکن است به صورت هاي مختلف خوان��ده ش��ود. ب��ه• اين کلمه ه��ا هم نويس��ه مي گوين��د. اين مش��کل در زب��ان فارس��ي ش��ديدتر از زب��ان

انگليسي است.عدم نگارش کسره اضافه موجب افزايش تعداد هم نويسه ها مي شود.• مشکالت نوشتاري در زبان فارسي بسيار رايج است. به عن��وان مث��ال ه��ر س��ه•

کلمه ي /بص��ورتي که/ ، /به ص��ورتي که/ ، و /ب��ه ص��ورتي ک��ه/ رايج هس��تند و داراي ي��کمفهوم و کاربرد مي باشند.

براي حل اين مشکالت و ساخت يک سيستم تبديل متن به دنباله ي آوايي، س�اختاري( آمده است، مدنظر قرار مي گيرد. 2-2مانند آنچه در شکل )

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

33

گفتا

Page 34: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

دياگرام بلوکي بخش ابتدايي سيستم تبديل متن به گفتار.3-3شکل

در ابتدا يک غلط ياب اماليي متن ورودي را گرفته و شکل ص��حيح اماليي آن��را ايج��اد مي کند. اين غلط ياب از تعدادي ق��انون مش��خص ب��راي اين منظ��ور اس��تفاده مي کن��د. سپس تمام کلم��ات در ديکش�نري تلفظي جس��تجو مي ش��وند. ان��دازه ي اين ديکش�نري وابسته به منابع سيستم است. اگر کلمه در ديکشنري يافت شد، کاندي��دهاي مق��وله ي نحوي و دنباله آوايي آنها ذخيره مي ش��وند. در غ��ير اين ص��ورت مي ت��وان از ريش��ه ياب استفاده کرد که براي سيستم هاي با منابع مح��دود اين بخش چن��دان ض��روري نيس��ت. کلماتي که تا اين مرحله بدون تلف�ظ بودن�د، باي�د ب�ا اس��تفاده از تکنيک ه�اي آم�اري ي�ا شبکه هاي عصبي يا هريک از الگوريتم هاي تصميم گ��يري ديگ��ر تلف��ظ ش��وند. مق��وله ي نحوي در يک سامانة تبديل متن به گفتار بسيار مهم است. زيرا مقوله نحوي هر کلم��ه ويژگي مهمي در تصميم گيري هاي بالک هاي بعدي است. متداولترين و موفق ترين مدل

در تشخيص مقوله ي نحوي مدل مخفي مارکوف است. بلوک هايي نيز براي تشخيص محل کسره اضافه و تلفظ صحيح هم نويسه ها در نظ��ر گرفتيم. وجود اين بالک ها براي تلفظ صحيح کلمات ضروري اس��ت. اس��تفاده از م��دل

مخفي مارکوف متداول ترين روش در حل اين مسائل هستند. هدف بخش پردازش و توليد گفتار تبديل دنبال�ة آوايي ب�ه ش��کل م�وج گفت�ار اس�ت. روش هاي متعددي براي اين منظور پيشنهاد شده اس��ت، ك��ه در ادام��ه بيش��تر ب��ا آنه��ا آشنا مي شويم. از آنجاييكه روشهاي مختل��ف س��نتز گفت��ار داراي قابليته��اي مختلفي از

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

34

Page 35: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

قبي��ل كيفيت، س��رعت پ��ردازش و ن��وع بان��ك اطالع��اتي مي باش��ند، ب��راي كاربرده��اي مختلف از انواع مختلفي از آنه��ا اس��تفاده مي ش��ود. در اين پ��روژه ن��يز ان��واع مختل��ف سنتزكننده هاي گفتار مورد بررسي قرار گرفتند و بنا بر ن��وع نرم اف��زار تب��ديل متن ب��ه گفتار)مبتني بر روش انتخاب واحد و موبايل( سنتز كنندة مناسب پيشنهاد ش��ده اند. در ادامه اين بخش با تبديل متن به گفتار ب��ا روش انتخ��اب واح��د و تب��ديل متن ب��ه گفت��ار

براي تلفن همراه بيشتر آشنا مي شويم.تبديل متن به گفتار مبتني بر روش انتخاب واحد-3-3

اس��تفاده از تب��ديل متن ب�ه گفت��ار ب�ا اس��تفاده از روش انتخ��اب واح�د، ب��ا اف�زايش پردازنده هاي كامپيوتري و قابليته��اي ذخ��يرة اطالع��ات روز ب��ه روز گس��ترده ترقابليتهاي

مي گردد. در اين دسته از تبديل كننده هاي متن به گفتار از يك بانك اطالعاتي گس��ترده گفت��ار اس��تفاده مي ش��ود. در هنگ��ام تولي��د ديت��ابيس، ه��ر گفت��ار ض��بط مي گ��ردد و ب��ه مجموعه اي از آواها، دايفونها، نيمه واج ، هجاه��ا، ريش��ه ها، كلم��ات، عب��ارات و جمالت تقسيم بندي مي شود. معم�وال، تقس�يم بندي ب�ه قطع�ات مختل�ف ب�ا اس�تفاده از گفت�ار اصالح شده و بصورت نيمه خودكار انجام مي شود. در روش نيم��ه خودك��ار ابت��دا م��رز بين قطعات مختل��ف بص��ورت مق��دماتي تخمين زده مي ش��ود و س��پس ب��ا اس��تفاده از

مرز قطعات بصورت ديداري از طريق مقايسه شكل م��وج و67روش همترازي اجباريطيف گفتار تصحيح مي گردد.

سپس فهرستي از واحدهاي گفتار مبتني قطعه بن��دي ش��ده، پارامتره��اي آكوس��تيكي مانند فركانس اصلي)پيچ(، مدت، موقعيت در سيالب و واجه��اي همس��ايه در ديت��ابيس ايجاد مي شود. در هنگام اجراي نرم افزار تب��ديل متن ب��ه گفت��ار، گفت��ار م��ورد نظ��ر ب��ا استفاده از تعيين بهترين زنجيره از واحدهاي منتخب در ديتابيس)انتخاب واح��د( ايج��اد

گ��يري وزن دارمي شود. اين پ��ردازش بص��ورت معم��ول ب��ا اس��تفاده از درخت تص��ميم انجام مي شود. روش انتخاب واحد خوشايندي بااليي ب��ه علت اس��تفاده از حجم ب��االي ديتابيس با كيفيت و ك�اهش پردازش��هاي غيرض��روري مي باش��د. گفت��ار س��نتز ش��ده ب�ا استفاده از روش انتخاب واحد قابل تشخيص از گفتار اصلي مي باش��د ولي نس��بت ب��ه

ديگر سنتزكننده ها داراي كيفيت بااليي مي باشد.

67 Forced alignment هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

35

Page 36: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

تبديل متن به گفتار براي تلفنهاي همراه-3-4

امروزه با گسترده شدن استفاده از تلفن همراه، كاربرده��اي اين وس��يله ارتب��اطي افزارهايي كه در تلفنهاي همراه بك��ار مي رون��د ن��يزنيز افزايش يافته و استفاده از نرم

افزايش يافته است. يكي از مشكالتي كه در بيشتر نرم افزارهاي تبديل متن به گفت��ار وجود دارد، نياز آنها به پردازش باال و پايگ��اه دادة ب��ا حجم زي��اد، جهت ايج��اد گفت��ار ب��ا كيفيت ب��اال مي باش��د. اين ام��ر م��وجب ش��ده اس��ت، اس��تفاده از اين ن��رم افزاره��ا در تلفنه��اي هم��راه و تجه��يزاتي ك��ه داراي مح��دوديت پ��ردازش و حافظ��ة كم مي باش��ند، محدود گردد. با توجه به گسترش استفاده از تلفنهاي هم��راه، ض��رورت ط��راحي ن��رم افزار تبديل متن ب��ه گفت��اري ك��ه ب��ا توج��ه ب��ه مح��دوديتهاي موج��ود در تجه��يزات تلفن همراه بتوانند كيفيت قابل قبولي ارائه دهد، بيش از پيش احساس ش��ده اس��ت و ل��ذا طراحي اين نوع از نرم افزارها با بهره گيري از پايگاه دادة كوچك در زبانه��اي مختل��ف

آغاز شده است.

جستجوی صوتی در وب-4

مقدمه-4-1

موتورهای جستجو بر اساس دانش وسیعی توس��عه یافته ان�د ت��ا بتوانن��د ب��ه س��واالت کاربران پاسخ مناسب را بدهند. موتورهای جستجو ام��روزه مح��ل جس��تجوی ک�اربر را تشخیص می دهند و حتی بس��یاری از س��واالت ک�اربران را ب�ه علت تع�دد این س��واالت تشخیص می دهند. اما ارائه پاسخ مناسب به کاربران و ی��ا پیش��بینی نی��از این ک��اربران نمی تواند در بسیاری از م��وارد اس��تفاده از موتوره��ای جس��تجو را تس��هیل نمای��د. ل��ذا تمایل کاربران به استفاده ساده تر از موتورهای جس��تجو م��وجب ش��ده ت��ا اس��تفاده از

صوت در فهرست سرویسهای موتورهای جستجو قرار بگیرد.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

36

Page 37: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

انفج��ار تولی��د و اس��تفاده از گوش��یهای هوش��مند ب��ویژه گوش��یهایی ک��ه ک��ه امک��ان دسترسی به وب و اینترنت را دارند م��وجب ش��ده اس��ت ت��ا نح��وه اس��تفاده ک��اربران،

انتظارات و تجربه کاربری آنها تفاوت فاحشی یافته است. برخی از انتظارت جدید به مربوط به سرویسهای جدید برای ارتباط و دسترسی ب��ه اطالعات اس��ت. ام��روزه ک�اربران بط�ور فزاین��ده ای تمای�ل دارن�د ت��ا ب�ه اطالع�ات و سرویس�های تحت وب دسترس��ی داش��ته باش�ند. ب��ا در نظ��ر گ��رفتن اف�زایش وس��ایل الکترونیکی جدید مانند گوشیهای هوشمند و ارائه سناریوهای جدی��د ب��رای اس��تفاده از فن��اوری در حالته��ایی مانن��د رانن��دگی، دوچرخ��ه س��واری، راه رفتن و ... اس��تفاده از فناوری ص�وتی اهمیت ب�االیی یافت��ه و این فن��اوری ب��رای اس��تفاده در دسترس��یهای ب�ا استفاده از موبایل در هر زمان، هر مکان و هر سناریوی استفاده بس��یار ج��الب ش��ده

است.

شرکت گوگل سرویس��های ص��وتی را آغ��از نم��ود. م��روری ب��ر رون��د1997در سال توسعه این فناوری در گوگ�ل نش�ان می ده�د ک�ه چگون�ه موت�ور جس�تجوی ص�وتی ب�ه عنوان یک سیستم پاسخ شروع ب��ه ک��ار نم��وده اس��ت. بع��د از ارائ��ه س��رویس ص��وتی توسط گوگل بسیاری از دیگر موتورهای جستجو به ارائ��ه خ��دمات ص��وتی پرداخته ان��د

اما هنوز بازیگر غالب در این حوزه شرکت گوگل می باشد. توس��ط گوگ��ل ب��رای کم��ک ب��هAutocomplete تا کنون سرویس 2008در ژانویه سال

کاربران ارائه گردید. این سرویس ب��ه ک��اربران کم��ک می کن��د ت��ا جس��تجوهای خ��ود راکامل نمایند.

ش��رکت گوگ��ل ک��اربرد موبای��ل خ��ود را ب��رای پ��ذیرش2008در نوام��بر س��ال پیامخپیامهای صوتی توسعه داد.

گوگل این امکان را به کاربران خود را داد تا تنها با ی��ک لمس2009در فوریه سال صفحه جستجو در گوگل را انجام دهند.

را راه اندازی نمود که امک��انInstant شرکت گوگل سرویس 2010در سپتامبر سال را امکان پذیر می ساخت.queryارائه نتایج جستجو حتی در هنگام تایپ

به گوگل کروم یک میکروفون اصضافه گردید که به ک��اربر این2011در ژوئن سال امکان را می داد تا جستجو در گوگل را در دسکتاپ با صدای خود انجام دهد.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

37

Page 38: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

گوگل گراف دانش را معرفی نم��ود ک��ه این س��رویس ی��ک بان��ک2012در مه سال داده وسیع برای فهم نحوه ارتباط، مکان و وسیله ارتباط ک��اربر ب��ا این��ترنت ب��ود. این سرویس این امکان را به گوگل داد تا ب�ا اس��تفاده از آن پاس��خ ب�ه ک�اربران را تس�ریع

نماید. دستیار دیجیتال گوگل این امکان را فراهم نمود تا بدون اینک��ه2012در ژوئن سال

کاربران اطالعاتی را خواسته باشند اطالعات مورد دلخواه آنها مانن��د پیش بی��نی آب وهوا، وضعیت تیم مورد عالقه، ترافیک و دیگر موارد را برای کاربر ارائه نماید.

الگوریتمهای جدی�دی را ارائ�ه نم�ود ک�ه بواس�طه آن گوگ�ل2013در آگوست سال می تواند فهم خود را از مفهوم و معنی کلمات بهبود بخشد.

با توسعه سرویسهای گوگل و ارائه آنها امکان ترکیب این سرویها با دیگر سرویسها مانند جستجوی صوتی بوجود آمد. به عنوان مث��ال ت��رکیب گ��راف دانش ب��ا جس��تجوی ص��وتی این امک��ان را ف��راهم نم��ود ت��ا ب��ا اس��تفاده آن ب��ه مکالم��ه ب��ا موت��ور جس��تجو

بپردازید. مشابه فهم جستجو توسط موتور جستجو گراف دانش این امکان را فراهم می کن��د تا با استفاده از آن چیزه��ایی مانن��د کت��اب، مح��ل م��ورد جس��تجو و غ��یره را ب��ه ک��اربر

معرفی نماید. ترکیب سرویسهای مختلف با جستجوی ص��وتی گوگ��ل این امک��ان را می ده��د ت��ا ب��ه کمک آن امکانات بهتری در اختیار کاربران قرار دهد. در حال حاضر عالوه بر سرویس

نیز به ارائه خدمات صوتی می پردازند.Microsoft Cortona و iPhone siriگوگل، iPhone توس��ط اپ��ل ب��رای ارائ��ه ب��ر روی 2011 ابتدا در سال Siriکاربرد 4sعرض��ه

گشت. از آن زمان دارندگان موبایلهای هوش��مند می توانس��تند از ی��ک دس��تیار مج��ازیiOSسوالهای خود را بپرسند. در ,Hey اپل قابلیت 8 Siriرا اضافه نم��ود. ب��ا اس��تفاده از

می توانند از این دستیار مجازی سوالهای خود راHey, Siriاین قابلیت کاربر تنها با گفتن بپرسند و در این حالت نیازی به تماس با صفحه گوشی نمی باشد.

شرکت مایکروسافت نیز پس از این شرکتها اقدام ب��ه ارائ�ه دس��تیار هوش�مند خ�ود عرض��ه گش��ت و در گوش��یهایHaloنمود. این دستیار هوش��مند پس از س��ری بازیه��ای

Windowsهوش��مند ب��ا سیس��تم عام��ل Windows و رایانه ه��ا ب��ا سیس��تم عام��ل 8.1 10

ن��ام دارد وCortanaمی توانستند از این دستیار صوتی استفاده کنند. این دستیار ص��وتی هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

38

Page 39: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

در همگام تنظیم سوالهای زیادی از شما می کند. هرچه به سوالهای این دستیار صوتیبهتر و مناسبتر پاسخ داده شود جوابهای بهتری دریافت می گردد.

سرویس صوتی گوگل در جستجوی خود از سابقه و تنظیمات برای شخص��ی س��ازی جستجو استفاده می کند. این هوش��مندی در بس��یاری دیگ��ر از سرویس��های گوگ��ل ن��یز صدق می کند و به عنوان مثال وقتی شما در مسافرت باشید می توان پیشبینهای آب و

هوایی مناسب شما ارائه کند. دستیاران دیجیتال کامل نیس�تند. همچ��نین ارتق�اء ق�ابلیت سیس�تمهای ص�وتی ب�رای ارتقاء تا حد زبان طبیعی کار سختی است. با اینحال استفاده از روشهای دیگری برای ارتقاء عملکرد سیس��تم پیش��نهاد می گ��ردد. از روش��های پیش��نهادی می ت��وان ب��ه بهین��ه

سازی مبتنی بر کلید واژه، ارائه سوالها و پاسخهای پیش فرض و ... استفاده شود. تفاوت استفاده از کلمات و یا عبارتها در جستجوی ص��وتی بس��یار اهمیت دارد. این تفاوتها از آنجاییکه در کارایی یک سیستم تاثیر گذار اس��ت ب��ه ب��رخی از آنه��ا را در این

قسمت اشاره می کنیم.جستجوهای صوتی معموال بیشتر حالت مکالمه دارند

تجربه سرویسهای صوتی نشان داده است که در مکالمه بیشتر ک��اربران مانن��د ی��ک دوست از سرویس صوتی سوال می پرسند. یکی از سوالهایی که کاربران از سرویس ص��وتی پرس��یده اند این اس��ت ک��ه از »کج��ا می ت��وانم قه��وه اسپرس��و پی��دا کنم؟« در صورتی که پرسش دیگر مانند » قهوه اسپرسو تهران« ی��ک جس��تجوی س��اده و مانن��د

مکالمه با یک غارنشین است. در جستجوی صوتی کاربران به این فکر نمی کنند که باید با سیستم مانند جس��تجوی متنی عمل استفاده کنند. بلکه در این بخش استفاده از صوت به ک��اربران این انگ��یزه

را می دهد تا مانند مکالمه های معمولی از این سیستم استفاده کنند. جستجوهای صوتی بیشتر فوی هستند

استفاده کنندگان از جستجوی صوتی بیشتر به دنبال روش و یا ابزاری هس��تند ت��ا ب��ا فوریت باال موردی را که می خواهند در اینترنت بیابند. از این دست اس��تفاده می ت��وان به جستجو برای یک رستوران و یا ساعت کار یک فروشگاه اشاره ک��رد. تج��ربه ای ک��ه در استفاده از سرویس صوتی گوگل نشان می دهد که کاربران برای ی��افتن نی��از خ��ود

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

39

Page 40: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

در جس��تجوی ص��وتی نی��از ف��وری دارن��د. ب��ه عن��وان مث��ال در جس��تجوی ص��وتی و درجستجوی صوتی قهوه کلمه فوری در بسیاری از موارد دریافت شده است.

جستجوهای صوتی بیشتر وابسته به مکان هستند

یکی دیگ��ر از تجربی��ات اس��تفاده از س��رویس ص��وتی نش��ان می ده��د ک��ه بیش��ترجستجوهای صوتی وابسته به مکان و مکانی که کاربر در آنجا می باشد است.

بنا به مطالعات گوگل پنج دلیلی که ک��اربران از س��رویس ص��وتی اس��تفاده می کنن��دعبارتند از:

سوال در مورد جهت و مسیرتماس با فرد خاصیبرای نوشتن متن خاصیبرای کمک گرفتن در تکالیف روزانهبرای پخش موسیقی

عالوه بر موارد باال نکته مشترک در استفاده از سرویسهای صوتی فوریت اس��تفاده ک��اربران می باش��د. البت��ه اس��تفاده از این سرویس��ها روز ب��ه روز گس��ترش می یاب��د و مطالعات نشان می دهد اس�تفاده از س��والهای پای�ه اف�زایش یافت�ه اس��ت. ش��کل زی�ر

Howنمایی از افزایش استفاده از جمله “ Do Iت��وانم این را” به مع��نی من چگون��ه می .[1 ]انجام دهم می باشد

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

40

Page 41: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

”How Do I افزایش استفاده از سوال “4-4شکل Whatشکل زیر افزایش استفاده از سوال “ is the bestبه معنی چه چیزی به��ترین ”

است را نشان می دهد.

”What is the best افزایش استفاده از سوال “5-4شکل

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

41

Page 42: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

نسبت2014شکل زیر افزایش استفاده از کلمات و پرسشهای مختلف را در سال را نشان می دهد.2013به سال

نسبت به سال2014 افزایش استفاده از کلمات و پرسشهای مختلف را در سال 6-4شکل 2013

عالوه ب��ر اس��تفاده از کلم��ات متل��ف ب��رای جس��تجوی ص��وتی و اف��زایش آن، نح��وه 5-2 و 4-2اس��تفاده ک��اربران مختل��ف و در س��نین مختل��ف متف��اوت اس��ت. ش��کلهای

تفاوت عملکرد دو رده سنی بزرگسال و جوان در جستجوی صوتی را نشان می دهد.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

42

Page 43: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

تفاوت عملکرد دو رده سنی بزرگسال و جوان در جستجوی صوتی7-4شکل

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

43

Page 44: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

تفاوت عملکرد دو رده سنی بزرگسال و جوان در جستجوی صوتی8-4شکل با وجود اینکه استفاده از جستجوی صوتی موجب باال رفتن راحتی استفاده ک�اربران می گردد، این استفاده موجب می گردد تا استفاده کاربران از سایتهای مختلف ک��اهش یابد. به عنوان مثال اگر موتورهای جستجو به کاربران کم��ک کنن��د ت��ا رس��توران م��ورد عالقه خود را بیابند و همچنین اگر این امکان بوج��ود آی��د ت��ا امک��ان رزرو در رس��توران بوجود آید دیگر کاربران نیازی به بازدید وب سایت رس��توران احس��اس نمی کنن��د و ل��ذا

بازدید وب سایت رستوران کاهش می یابد. هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

44

Page 45: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

پیشبینی آینده استفاده از کلمات صوتی ممکن سخت باشد ولی استفاده از وسایلی نظ��یر لباس��های پوش��یدنی و س��اعتهای هوش��مند ممکن اس��ت اس��تفاده از جس��تجوی صوتی را افزایش دهد. این افزایش عم��دتا مرب��وط ب��ه اس��تفاده از جس��تجو بص��ورت مکالمه ای است. این نوع جستجو موجب می گردد تا جستجو بصورت کلید واژه کاهش یابد. همچنین استفاده از جستجوی صوتی موجب کاهش استفاده از وب سایتها گ��ردد.

می ش��ود اس��تفاده ازiOTالبت��ه ب��ا پیش بینی ه��ایی ک��ه در زمین��ه اس��تفاده از فن��اوری جستجوی صوتی برای ارتباط با اشیاء مختلف افزایش خواهد یافت.

جستجوی گوگل توسط صوت-4-2

تاریخچه-4-2-1

4-2-1-1-GOO-411

جستجوی اطالعات با استفاده از صوت به عنوان بخشی از فعالیته��ای روزان��ه ح��تی قبل از همه گیر شدن اینترنت بوده است. در سالهای قبل در ایاالت متح��ده از ش��ماره

در ایران برای درخواس��ت ش��ماره تلفن اس��تفاده می ش��د. در118 مانند شماره 411 ب��رای بازشناس��ی گفت��ار ک��اربران و ارائ��هGOOG-411-800س��الهای بع��د از سیس��تم

اطالعات بصورت خودکار استفاده گردید. این سرویس ابتدا از یک مدل ساده ب�رای شناس��ایی ای��الت و ش��هر ک��اربر و س�پس اطالعات مورد نیاز کاربر استفاده می کرد. شکل زیر نمایی از استفاده از این سیستم

برای گرفتن اطالعات یک پیتزا فروشی را نشان می دهد.

GOOG-411 یک دیالوگ ساده در سیستم 9-4شکل

نسخه پیشرفته تری از این سرویس ارائه گرفت. در این نس��خه تنه��ا2008در سال با یک گفتار کاربر اطالعات مورد نیاز کاربر در اختیار آن قرار می گرفت.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

45

Page 46: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

GOOG-411 نسخه پیشرفته تر سیستم 10-4شکل

همانطور که مالحظه می شود حرکت از یک سیستم دو مرحله ای به یک سیستم ت��ک مرحله ای م��وجب س��ریعتر ش��دن آن گردی��د و م��وجب ش��د ت��ا این سیس��تم بیش��تر ب��ه مکالمات انسانی نزدیک گردد. این امر اگرچه موجب باال رفتن هزینه طراحی سیستم بازشناسی گردید به عنوان گامی در جهت ارائه کارایی بیشتر به سیستم کمک ص��وتی

مطرح گردید.(GMM68نقشه های گوگل برای موبایل)-4-2-1-2

برنامه های کمکی که به آنها اشاره شد یکسری برنامه ه�ای س��اده بودن�د ک�ه تنه�ا از صوت برای ارائه کمک صوتی برای ورودی و خروجی استفاده می کردند. اما در گوگل این پیشنهاد مطرح گردید تا واسطهایی غیر از صوت برای ارائ��ه نت��ایج ب��رای ک��اربرانوجود داشته باشد. در این راستا از نقشه برای ارائه نتایج به کاربر استفاده می گردد.

ارائه گردی��د.GMM کاربردهای چند وجهی صوتی با تلفیق در سیستم 2008در سال را نش��انGMMش��کل زی��ر ی��ک واس��ط چن��دوجهی ص��وتی ب��رای اس��تفاده در سیس��تم

می دهد. IVRیک تجربه چند وجهی بوض��وح دارای مزای��ای مشخص��ی نس��بت ب��ه ی��ک سیس��تم

معمولی با فناوری صوتی دارد. اولین مزیت این اس��ت ک��ه ب��ا تلفی��ق س��رویس کمکی صوتی با نقشه موجب می گردد تا واسط کاربری از یک سرویس کامال ص��وتی ب��ه ی��ک سرویس گرافیکی تبدیل گردد. اطالعات مورد نی��از ک��اربر مانن��د نقش��ه ب��ه راح��تی ب��ا استفاده از سیستم نقشه قابل مشاهده است. مزیت مهم دوم زمان رسیدن کاربر به نتیجه مورد دلخواه خود است. استفاده از یک سیستم نقشه موجب می شود تا نس��بت به حالت استفاده از سیستم صوتی زمان رسیدن کاربر ب��ه نت��ایج زم��ان کم��تری را ب��ه خود اختصاص دهد. نهایتا نحوه اس�تفاده ک�اربر از سیس�تم ص�وتی تنه�ا ب�ه علت ع�دم مشاهده واسط گرافیکی بطور خاصی به زمان و مکان کاربر بس��تگی دارد و این ام��ر

در یک سیستم تلفیق شده با نقشه بوضوح کمتر است.جستجو در گوگل با استفاده از صوت-4-2-1-3

جتسجوی وب با استفاده از ابزارهای موبایلی بطور فزاینده ای مورد تج��وه ک��اربران مختلف می گردد. امکان اس�تفاده از این��ترنت در گوش��یهای هوش��مند م��وجب ش��ده ت�ا

68 Google Maps for Mobile هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

46

Page 47: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

سهم فروش گوشیهای موبایل در دنیا افزایش یابد و تمام این گوشیهای موبایل تجربهکاربری خوبی را نسبت رایانه های شخصی ارائه می کند.

امروز مطالعات نشان می دهد استفاده از موبایل برای دسترسی به وب نس��بت ب��ه کامپیوترهای شخصی اف��زایش یافت��ه اس��ت. هرچن��د اس��تفاده از دس��تگاه های موبای��ل اف��زایش یافت��ه اس��ت و ک��اربران آن از این وس��یله ب��رای جس��تجو در وب اس��تفاده می کنند، نوشتن در وب و جستجو با اس��تفاده از نوش��تار در موبای��ل خطرن��اک ب��وده و

مشکل است.

iPhone جستجوی گوگل با استفاده از صوت برای 11-4شکل

8-2 ارائه گردید. ش��کل iPhone( برای GMA69 کاربرد موبایلی گوگل)2008در نوامبر نمایی از استفاده از این کاربرد را نشان می دهد.

فناوری-4-2-2

1ه��ای ک��اربران اس��ت. ج��دول queryهدف جستجو صوتی گوگل بازشناسی گفت��ار و های نمونه ای که از سرویس فوق اس��تفاده می کنن��د را نش��ان می ده��د.queryبرخی از که به حوزه مربوطه وابسته است، جستجوی گوگل باید بتوان��د ه��رGOOG-411برخالف

69 Google Mobile App هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

47

Page 48: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

آکوستیکی مدل تلفظ مدل زبانی مدل

گراف کامپایلر

ویژگی استخراج صوتی مدل تکامل ویتربی دکدینگ

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

حوزه ای که کاربران آنرا جستجو می کنند را تحت پوشش قرار ده��د. این ام��ر م��وجب معماری9-2شده تا بازشناسی کلمات به یک مساله چالشی تبدیل شده است. شکل

ساده از بازشناسی گفتار بک��ار رفت��ه در س��رویس جس��تجوی ص��وتی گوگ��ل را نش��انمی دهد.

در جستجوی صوتی گوگل برای هر مدل آکوستیکی و زبانی چالشهای فراوانی برایتوسعه و پیاده سازی نر م افزار وجود دارد.

های سرویس جستجوی صوتی گوگلQuery مثالی از 1-4جدول

معماری ساده از بازشناسی گفتار12-4شکل

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

48

Page 49: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

معیارها-4-2-3

انتخاب معیار مناس��ب ب��رای ردگ��یری کیفیت سیس��تم نقش مهمی در م��وفقیت ی��ک سیستم دارد. در این راستا گوگل سعی ننمود از معیارهایی استفاده کند که ب�ه تجرب��ه کاربری نزدیکتر باشد. تالش گوگل برای یافتن معیارهایی که به تجرب��ه ک��اربر نزدیک��تر

باشد منجر به معیارهای زیر گردید:(WER70نرخ خطای کلمه)-4-2-3-1

نرخ خطای کلمه بازشناس��ی اش��تباه را در س��طح کلم��ه ان��دازه گیری می کن��د. ب��رای ان��دازه گیری این معی��ار کلم��ه بازشناس��ی ش��ده ب��ا آنچ��ه ک��اربر ص��حبت نم��وده اس��ت مقایسه و س��پس این معی��ار ان��دازه گیری می ش��ود. ن��رخ خط��ای کلم��ه ب��ا اس��تفاده از

فرمول زیر محاسبه می گردد:WER=Number of Substitution+ Insertion+Deletions

Total number of words

کیفیت معنایی-4-2-3-2

برای جستجوی صوتی گوگل، تنها یم خطای کلمه ت��اثیری ب��رای نتیج��ه نم��ایش داده ” ت�اثیری ب�ر نتیج��ه بازشناس�یof” ی�ا “inشده ندارد. برای مثال حذف کلماتی مانن��د “

” ب��ه عن��وان عالمت جم��عsندارد. بطور مشابه بازشناسی اشتباه کلم��اتی ک�ه ح�اوی “ کلمات هستند نیز تاثیری بر نتیجه نهایی ندارد. لذا آنچه اهمیت دارد میزان دقت نهایی

استفاده می شود ت��اWebScoreو بازشناسی درست نهایی است. در این بخش از معیار میزان دقت بازشناسی تعیین گردد. فرمول زیر محاسبه این معیار را نشان می دهد:

WebScore=Number of correct search resultsTotalnuber of spokenqueries

این معیار تصویر بهتری از تجربه کاربری ارائه می کند و در تمام سرویسهای ص��وتیبه دنبال بهینه نمودن این معیار هستند.

70 Word Error Rate هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

49

Page 50: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

ابهام زدایی-4-2-3-3

در این معیار مدل زبانی بررسی می شود تا بررسی ش��ود ب��ا بازشناس��ی ی��ک کلم��ه کلمه بعدی آیا قابل بازشناسی است یا خیر؟ این معیار نمایی از کیفیت مدل زب��انی را

ارائه می کند و بوسیله فرمول زیر محاسبه می شود:

PPL=2∑i=1

N 1Nlog2q (x i)

(OOV71خارج از واژگان)-4-2-3-4

نرخ خارج از واژگان درصد کلماتی که توسط کاربر بیان و توسط مئ��ل زب��انی م��دل نشده است را نشان می دهد. پایین نگهداشتن این معی��ار بس��یار اهمیت دارد زی��را ه��ر کلمه ای که توسط ک��اربر بی��ان ش��ده و بازشناس��ی نگ��ردد م��وجب ب��روز ی��ک خط��ا در سیستم بازشناسی می گردد. عالوه بر این این خطای بازشناسی ممکن است در مدل زبانی نیز موجب خطا گردد زیرا در مدل زبانی از کلمات بازشناسی شده قبلی ب��رای

بازشناسی کلمات بعدی می گردد.

تاخیر-4-2-3-5

تاخیر بصورت کل زمان سپری شده ب��رای کام��ل نم��ودن جس��تجوی ص��وتی تعری��ف می گردد. به عبارت دیگر وقتی که یک کاربر صحبت خود را به پایان برساند باید نتیج��ه در مرورگر نمایش داده شود. عوام��ل زی��ادی در این بخش تاثیرگ��ذار اس��ت، از جمل��ه

(زم��انی ک��ه سیس��تم پای��ان گفت��ار را شناس��ایی می کن��د، )1این م��وارد می ت��وان ب��ه ) (زم��ان جس�تجو در موت��ور3 گفتاری را بازشناسی می کند، )query(زمانی که سیستم 2

( زم��انی ارائ��ه نم��ایش جس��تجو.5(زمان ارسال پاسخ بازشناسی ش��ده، )4جستجو، ) تمام عوامل باال در باال رفتن تجربه ک��اربری تاثیرگ��ذار ب��وده و م��وجب رض��ایت ک��اربر

خواهد شد.مدل آکوستیکی-4-2-4

مدلهای صوتی و آکوستیکی تخمینی احتمال مشاهده یک آوا در یک فریم گفت��اری را فراهم می آورند. این ویژگیها بطور معمول به ویژگیهای طیفی ف��ریم گفت��اری مرب��وط

71 Out-of-Vocabulary هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

50

Page 51: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

می شوند. با وجود اینک��ه دس�تورالعملها ب�رای آم�وزش م�دل آکوس��تیکی در س�اختار و ترتیب انجام آن متفاوت است، پردازش اصلی همراستا سازی گفتار ب��ا گامه��ای م��دل آکوستیکی، جمع آوری فریمها مربوط به هر گام و تخمین مجدد توزی��ع مرب��وط ب��ه ه��ر گ�ام می باش�د. جزئی��ات این سیس�تمها وس��یع ب�وده ام�ا بهب�ود م�دلها ش��امل آم�وزش مناسب مدل زبانی با داده ها و گفت�اری اس��ت ک�ه ب�ا فعالیته�ا و ن�وع اس��تفاده تط�ابق داشته باشد. افزایش حجم باالی داده ه��ای آموزش��ی م��وجب می ش��ود ت��ا پارامتره��ای

استخراج شده برای تخمین قابلیت اطمینان بیشتری داشته باشد. دو سطح از راه اندازی مورد نیاز اس�ت. س�طح اول ش��روع جمع آوری ی�ک مجموع�ه گفتاری و آغ��از ی��ک م�دل خیلی س��اده ب�رای آم�وزش مانن��د ی�ک سیس�تم ت��ک گوس��ی می باشد. مش�کل دیگ�ر در س�طح ک�اربرد وج�ود دارد. ب�ه منظ�ور جمع آوری داده ه�ای واقعی که کامال با تعامالت کاربر با سیستم تطابق داشته باش��د، نی��از ب��ه ی��ک سیس��تم

ابتدایی و مدل زبانی در گوگل وجود داشت. ب��ه هم��راهGOOG-411برای جستجوی گوگل در وب گوگل برای شروع از مدل زبانی

یک مدل زبانی که از جستجوی وب ایجاد شده بود استفاده ش��د. ش��روع ی��ک سیس��تم نقط�ه خیلی مهمی اس��ت. از ط��رفی ش��اید ش��روع ی��ک سیس��تم ب��دون تق��ویت آن ب��ا استفاده از مدل آکوستیکی وآموزش مناسب ممکن است موجب بروز خطا گردد و از

طرفی بودن استفاده از استفاده کاربران امکان بهبود مدل آکوستیکی پایین است. گوگل زمانی که سیستم اولیه را ارائ��ه نم��ود، بط��ور همزم��ان ش��روع ب��ه جمع اوری

داده ها و ارتقاء و بهبود مدل آکوستیکی نمود. دقت سیستم در حال تکامل-4-2-4-1

فرم اولیه مدلهای آکوستیکی در ادبیات با یکدیگر مشترک هستند. روشهای مختلفی] PLP-cepstral بع��دی 39برای ذخیره و پردازش استفاده می شوند. استفاده از ویژگی

] می توان��د زمین��ه مناس��بی باشدSTC و LDAب��ه هم��راه نرمالیزاس��یون [2 . م��دلهای[3 است کهtriphoneآکوستیکی که برای استفاده پیشنهاد می گردد یکی سیستم مبتنی بر

با متغیرهایی با تعداد گوسیهایی برای هر حالت آکوستیکی استفاده می ش��ود.GMMاز ،MLپیشنهادی برای بهینه سازی MMI تحت عن��وان MMIتق��ویت ش��ده ن��یز ارائ��ه ش��ده

.[4 ]است

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

51

Page 52: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

را ب��رای م��دلهایoff-lineش��کل زی��ر دقت این سیس��تم را ب��رای تس��ت دسترس��ی آکوستیکی که در سال اول در گوگل توسعه داده شده را نشان می دهد. هر نقط��ه در

(LM72 مدل آکوستیکی خاص��ی را نش��ان می ده��د. این تکام��ل از م��دل زب��انی)xمحور کلمه استفاده شده46000 جمله و 14000مشابهی استفاده می کنند. برای تست از

اس��ت ک��ه معی��اری را ب��رای ان��دازه گیری دقتWebScoreاس��ت. معی��ار اس��تفاده ش��ده معنایی در سطح جمله استفاده می شود.

در طول زمانWebScore تکامل 13-4شکل اولین نقطه نشان داده شده در گراف عملکرد سیس��تم اولی��ه بک��ار رفت��ه در گوگ��ل

2 را نشان می ده��د. نقط��ه دوم م��دل GOOG-411یعنی سیستم اولیه با مدل آکوستیکی ساعت اطالعات رونویسی شده می باش��د.1000است که تطبیق مدل با استفاده از

داده های آموزشی دو برابر شده و همچنین مدل برای اس��تفاده از تع��داد3برای مدل 5000 تقویت شده و اضافه ش��دن MMI شامل 4گوسیهای مختلف تغییر سافت. مدل

شامل ارائ��ه اطالع��ات نظ��ارت ش��ده و5ساعت اطالعات نظارت نشده است. مدل است.kHz 16نظارت نشده بیشتر با نرخ نمونه برداری

72 Language Model هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

52

Page 53: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

بیشتر خطاها به علت بازشناسی نادرست بوجود می آین��د. زم��انی ک��ه ی��ک روش ب��ه درستی بهبود نمی یابند سوالی که مطرح می شود این است که آیا پیاده س��ازی اش��تباه بوده است. با وجود این از جمع اوری اطالعات گوگل از آزمایشات مثبت و منفی چن��د روند مالحظه می گردد. اولین روندی که انتظار می رود این است که افزایش اطالعات بیشتر می تواند مفید باشد. بهبودهایی ک��ه در م��دل آکوس��تیکی در گوگ��ل مط��رح ش��د شامل استفاده از مدلهای االس�تیکی اس�ت ک�ه در آن از تع�داد مختل��ف گوس��ی ب�رای گانهای آکوستیکی مختلف استفاده شده اس��ت. همچ��نین نت��ایج نش��ان داده اس��ت ک��ه

می تواند مفید باشد.16KHz و 8KHzاستفاده همزمان از گفتار با نرخ نمونه برداری چالشهای آتی-4-2-4-2

افزایش استفاده کاربران از صوت برای جس��تجو ب��ه هم��راه زیرس��اخت محاس��باتی گوگل موجب ایجاد و خلق فرص�تهایی ب��رای توس��عه م��دلهای آکوس��تیکی ایج�اد نم�ود. چالشهایی که در درون بهبود مول آکوستیکی با آن مواجه هستیم شامل چگونه و کج��ا باید پارامترهای آموزشی را اضافه نمود، چه توابع هدفی را باید در هنگ��ام بهینه س��ازی استفده نماییم، چگونه باید اندازه مناسب از مول آکوستیکی را ب��رای حجم مشخص��ی از داده پیدا کنیم، چگونه یک سرویس زمان واقعی را ب��ا اف��زایش ک��دلهای آکوس��تیکی بزرگ همراه ساخت. آزمایشات روشهایی را در اختیار طراحان این ش��رکت ق��رار داد که شامل بهینه سازی مول آکوستیک و دکدینگ ب��رای بک��ارگیری در کاربرده��ای زم��ان

واقعی است.نرمالیزه کردن متن-4-2-5

ب��ار راه ان��دازی م��ول زب��انی درgoogle.comه��ای اس��تفاده ش��ده در Query گوگ��ل از های موجود این اج��ازه را می ده��دqueryجستجوی صوتی استفاده نمود. حجم باالیی از

ه��اQueyryتا مدلهایی با کیفیت باال ایجاد نمود. هرچند برای ایجاد مدل زبانی ابت��دا بای��د های نوشته شده حاوی حالتهایی است ک��ه ب��رایQueryبه گفتار محاوره ای تبدیل نمود.

ه��ایQueryتبدیل به گفتار محاوره ای باید به آنها دقت نمود. آن��الیز آیتمه��ای موج��ود در % ش��امل لین��ک20ه��ا queyهای پرکاربرد نش��ان می ده��د ک��ه در این queryگوگل بویژه

% شامل اعداد هستند. بدون دقت کافی به نرمالیزاسیون20 و بیش از URLسایتها و

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

53

Page 54: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

متن و بدون در نظر گرفتن موارد ذکر شده کلم��ات سیس��تم بط��ور نج��ومی اف��زایشخواهد یافت.

در سیستم گوگل از یک روش بهینه برای نرمالیزه کردن متن استفاده ش��ده اس��ت. نوش��ته ش��ده باش��د، ف��رم گفت��ار بص��ورت زی��ر قاب��ل بی��انquery نش��ان دهن��ده Tاگ��ر

می باشد.T (spoken)=bestpath(T (wtiten)oN (spoken))

مت��نی ب��ه گفت��اری اس��ت. در اینquery بیان کنن��ده مع��رفی N(spoken)در این فرمول نشان دهن��ده گزینه ه��ای مختل��ف از کلم��ات جس��تجو ش��ده ب��ه ح��الت گفت��ارNفرمول

bestpath م��دل زب��انی گفت��اری در گوگ��ل از n-gramاس��ت. ب��رای پیاده س��ازی محاس��به

استفاده شده است.مبدل متن-4-2-5-1

نرمالیزه کردن متن در فازهای مختلفی انجام می شود. ش��کل زی��ر نرامل��یزه ک��ردنمتن و پردازشهای مربوطه را نشان می دهد.

نرمالیزه کرده متن14-4شکل queryدر اولین گام حاشیه نویسی داده انجام می شود. در این فاز بخشهای مختل��ف

، مکان(.urlبه دسته های مشخص تقسیم بندی می شود)مانند زمان، تاریخ،

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

54

Page 55: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

حاشیه نویسی شد، نرم��الیزه ک��ردن متن مبت��نی ب��ر ن��وع متن وqueryزمانی که یک زیر رشته های متنی امکان پذیر می گردد. هر دسته معرف نرمالیزه مربوط به خ��ود را

Nدارا می باشد. این معرف بصورت cat (spoken)شناخته می شود ب��ر اس��اس ن��وع دس��ته روش��های مبت��نی ب��ر قاع��ده ی��ا ی��ک روش آم��اری ب��رای س��اختن مب��دل متن اس��تفاده می شود. برای دسته اعداد مانند تاریخ، زمان و اعداد استفاده از مدل مبتنی بر قاعده

بسیار مفید خواهد بود. ه��ای گوگ��ل موج��ود هس��تند م��وجبquery ک��ه در URLدر پردازشی گوگل تعداد باالی

بروز چالشهای زیادی در مبدل متن می گردد. مدل زبانی با مقیاس بزرگ-4-2-6

در سالهای اخیر مدلهای زبانی شاهد یک تغییر در پیشرفت روشهای مدلسازی)مانند ( برای تمرکز بر مقیاش پذیری بوده اس��ت. مح��رک اص��لی ب��رایn-gramالگوریتمهای

این تغییر، دسترس پذیری قابل مالحظه داده های آموزشی است تا بتوان بواسطه آنمشکالت بازشناسی اتوماتیک گفتار را برطرف نمود.

میلیارد کلمه آم��وزش داده ش��ده اس��ت.230در گوگل یک ندل زبانی برای بیش از این حجم از داده عالوه بر ایجاد فرصتهای جدید برای ط��راحی م��دل زب��انی چالش��های

جدید را برای آموزش ایجاد می کند. ال یک مدل زبانی بر اساس جس��تجوها و کلم�ات م��ورد جس��تجو آم��وزشبطور ایده

خواهد دید و بدین منظور گوگ��ل از ی��ک میلی��ون کلم��ه پرک��اربرد م��ورد جس��تجو ب��رای اس��ت. ج��دولOOV%�� 0.57تکمیل مدل زبانی استفاده نموده است. این نت��ایج دارای

مشاهده نشده را نشان می دهد.queryزیر عملکرد مدل زبانی را برای داده های عملکرد مدل زبانی برای داده های مشاهده نشده2-4جدول

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

55

Page 56: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

س��والی ک��ه در این بخش مط��رح می گ��ردد این اس��ت ک��ه این حجم از م��دل زب��انی ب��رای داده ه��ایn-gramچگونه بر عملکرد سیستم تاثیر گذار خواهد بود؟ آی��ا این تع��داد

Queryاهمیت دارد؟ -n میلی��ون 15 را برای ی��ک م��دل زب��انی در ان��دازه Webscore و WERشکل زیر میزان

gram میلی�ارد 2 ت�ا n-gramرا نش�ان می ده�د. ب�ا اف�زایش حجم م�دل زب�انی مش�اهده کاهش می یابد.WebScore و WERمی شود که میزان

بصورت تابعی از اندازه مدل زبانیWebScore و WER 15-4شکل و ابهام را ب��رای ی��ک م��دل زب��انی نش��ان می ده��د. در این ح��الت ی��کWERشکل زیر

ارتباط قوی بین ابهام مدل زبانی و نرخ خط��ای کلم��ه ی��افت ش��ده اس��ت. بط��ور کلیابهام پیشبینی کننده ضعیفی برای نرخ خطای کلمه است.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

56

Page 57: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

WER و ابهام برای یک مدل زبانی16-4شکل مسائل محلی-4-2-6-1

در گوگل آزمایشاتی در زمینه اثر محل گفتار در کیفیت مدل زبانی انجام شد. ب��دین در ناحی��ه2008منظور یک مدل زبانی محلی با استفاده از داده های آموزشی قب��ل از

انگلیسی زب�ان م�ورد آزم�ایش ق�رار گ�رفت. این ن�واحی ش�امل آمریک��ا، انگلس�تان و ب��رای جس��تجو بین س��پتامبر وquery 10000استرالیا بود. این داده های تست ش��امل

این نتایج را نشان می دهد. وابستگی ب��ه مح��ل4-2 و 3-2 بود. جداول 2008دسامبر بسیار باال بوده است.

مدل نهایی که یک مدل ترکیبی است با اس��تفاده از تم��ام داده ه��ای اس��تخراج ش��ده نشان داده شده است. ت��رکیب تم��ام داده ه��ا ب��ر5-2ساخته شدکه نتایج آن در جدول

تمام مناطق تاثیر منفی داشته است. بطور خالصه طبق آزمایشات گوگل مشخص گردید که آموزش خاص برای هر ناحیه

عملکرد سیستم را باال برده است.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

57

Page 58: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

نرخ خارج از واژگان3-4جدول

اصالح نشدهLM ابهام برای 4-4جدول

اصالح شدهLM ابهام برای 5-4جدول

واسط کاربری -4-3

ویژگیهای چند بعدی مانند جستجوی گوگل توسط صوت انعط��اف بیش��تری را ب��رای کار کاربران ایجاد می کند. پس از اسنکه سیستمهای مختلف آزمایش شدند این نتیج��ه حاصل شد که استفاده از محیط گرافیکی به همراه قابلیتهای جستجوی صوتی مزایای فراوانی را فراهم نمود. عالوه بر مزایای فراوانی که این بخش برای ک��اربران ف��راهم می کند، ترمهای فراوانی را در زمین��ه ط��راحی واس��ط ک��اربری ایج��اد می کن��د. گوگ��ل

همراه با استفاده کاربران طراحی بهتری را برای سیستم انجام داده است. هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

58

Page 59: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

مزایای استفاده از واسط کاربری چند بعدی-4-3-1

ورود گفتاری در مقابل خروجی-4-3-1-1

با وجود اینکه استفاده از صوت دارای مزایای فراوانی بخصوص در گوشیهای کوچک است، نتیج��ه باشناس��ی ص��وتی مح��دود اس��ت. ل��ذا در ص��ورتی ک��ه بازشناس��ی دارای مشکل باشد امکان تغییر نتیجه بازشناسی وجود ندارد. مانند شکل ... ک��ه بازشناس��ی انجام شده دارای مشکل بوده و نتیجه بازشناسی آنچه کاربر درخواست نموده اس��ت، نمی باشد. در شکل .... راه حلی را برای حل این مشکل ارائه نموده اس��ت. اس��تفاده از انتخابهای مختلف برای بازشناسیهای مختل��ف ممکن اس��ت ک��ه ک��اربر را ب��ه ج��واب درست راهنمایی نماید، ولی موجب افزایش زمان تماس و راهنمایی ک��اربر ب��ه نتیج��ه

درست می گردد.

مثالی از بازشناسی نادرست درخواست کاربر17-4شکل

ارائه انتخابهای مختلف برای راهنمایی کاربر به جواب درست18-4شکل

استفاده از تصویر-4-3-2

استفاده از تصویر به همراه اطالعات ارائه شده ب��ه هم��راه جس��تجوی انج��ام ش��ده صوتی در گوگل نمایش بهتری را از جستجو نشان می دهد. شکل زیر جستجوی س��اده پیتزا را با نمایش نقشه محل قرارگیری پی��تزار فروش��ی هم��راه نم��وده اس��ت. در این

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

59

Page 60: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

حالت چندین آلترناتیو جستجو پس از جستجوی صوت نمایش داده می شود و کاربر ب��ا حرکت به سمت پایین می تواند نسبت به انتخاب گزینه مناسب اقدام کند. در هرک��دام از انتخابها که در سمت چپ تصویر نشان داده شده است اگر کاربر استفاده از نقشه

را انتخاب کند نقشه جستجو نشان داده می شود. در نقشه که در سمت راست تصویر نشان داده شده است، نقشه محل مورد نظ��ر نش��ان داده می ش��ود. در نقش��ه همچ��نین اطالع��ات بیش��تری در م��ورد ن��ام تج��اری و

اطالعات مربوطه نشان داده می شود.

جستجوی صوتی گوگل19-4شکل

انعطاف پذیری و کنترل کاربر-4-3-2-1

یکس دیگر از مزایای جستجوی صوتی گوگل در موبای��ل انعط��اف پ��ذیری و کن��ترلی است که این سرویس در اختیار کاربران خود قرار می دهد. در مقابل سرویس ص��وتی هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

60

Page 61: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

مجزا که در استفاده از آنها به کاربران توصیه می شود که چه کلمه ای را برای جستجو استفاده کنند و این جمالت را چگونه بیان کنند، سرویس صوتی گوگل کامال مبت��نی ب��ر کاربر آغاز می گردد. این بدین معنی است که کاربر خود انتخاب می کند که چه بگوید و چگون��ه خواس��ته خ��ود را بی��ان کن��د. در این روش اس��تفاده شناس��ایی ب��ا اس��تفاده از

دیالوگهای از پیش تعیین شده منتفی است. همانطور که بیان گردید بازشناسی گفتار بیان شده مشکل خواهد بود ولی استفاده از چندین ابزار کاربردی در کنار این بازشناسی گفتار قابلیت آنرا باال خواه��د ب��رد. این بدین معنی است که گوگل برای جستجوهای معمولی نمایش بهتری خواهد داست. به عنوان مثال اگر کاربر تقاضای جس��تجو در م��ورد پ��رواز و مس��افرت ب��ه ی��ک مک��ان را داش��ته باش��د، در ادام��ه گوگ��ل پس از شناس��ایی گفت��ار ک��اربر مس��یرهای ه��وایی و

راهنمایی پروازی را در اختیار کاربر قرار دهد.چالشهای طراحی واسط چند بعدی-4-3-3

تصرف گفتار: دکمه ها، عملیات و فیدبک-4-3-3-1

تص��رف ص��حیح گفت��ار ک��اربران بس��یار اهمیت دارد و در کیفیت بازشناس��ی گفت��ار کاربران بسیار موثر خواهد بود. دریافت صحیح گفتار کاربران عالوه بر اینکه به کیفیت

میکروفون تلفن همراه بستگی دارد به واسط کاربری نیز وابسته است. به عنوان مثال فشردن یک دکمه برای شروع بازشناسی گفت��ار ممکن اس��ت بس��یار ساده باشد، اما همین دکمه در موبایل با توجه به انواع دکمه ه��ای موج��ود در موبای��ل، اندازه آن محل قرارگیری آن و ... انتخ��اب آن��را بس��یار پیچی��ده می کن��د. ط��راح تص��ور

را می فهمد و گفتار خود را بی��ان خواه��د نم��ود. نتیج��هlisteningمی نمود که کاربر معنی را می بینن��د ولی عکس العملیlisteningنشان می دهد که در این نوع ط��راحی ک��اربران

از خود نشان نمی دهند.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

61

Page 62: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

فیدبک ورود گفتار کاربران در اندروید20-4شکل

فیدبک-4-3-3-2

با وجود روشهای متف��اوتی ب��رای آغ��از اس��تفاده از بازشناس��ی گفت��ار توس��ط ک��اربر استفاده می گردد، فی��دبک ک��اربران اهمیت ب��االیی را در نح��وه اس��تفاده ک��اربران ایف��ا

وج��ود دارد ک��ه پس از زدن دکم��ه ض��بطiPhoneمی کن��د. نم��ونه ای از این فی��دبک در … به معنی گ��وش دادن موبای��ل ب��ه گفت��ار ک��اربر در موبای��لlisteningمیکروفون کلمه ظاهر می شود.

اس��تفاده می ش��ود. در این ش��کل17-2در مقابل در اندروید از فیدبکی مانند شکل همانطور که نشان داده ش��ده بی��ان ک��اربر در میکروف��ون نش��ان داده ش��ده در عکس

نشان داده می شود. نتایج نشان می دهد که این روش بسیار سودمند می باشد. هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��ات

می باشد )مركز تحقیقات مخابرات ایران(

62

Page 63: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

تصحیح: نمایش جایگزین-4-3-4

N-Bestلیست -4-3-4-1

بازشناسی گفتار یک سرویس کامل نیست و کاربردهای مبتنی بر بازشناس��ی گفت��ار-nبا خطاهای ناگذیری مواجه خواهند شد. یکی از مهترین مساله در این بخش لیس��ت

bestیا لیست بهترین انتخابها برای کاربر می باشد. اینلیست ی��ک لیس��تی اس��ت ک��ه ب��ه عنوان کلمات بازشناسی شده آلترناتیو به کاربر نشان داده می شود. برای مثال تصور

انگلیسی جمله “ holiday inn” در بازشناسی گفتار “Holy day in South Americaکنید، در

south America بازشناسی گردد. در این ح�الت اس��تفاده از ”n-bestم��وجب می گ��ردد ت�ا کاربر از بیان مجدد جمالت اجتناب نماید و تاثیر بهتری در کاربرد خواهد داشت.

مطالعات کاربر-4-4

یکی از عواملی که باید در جستجوی صوتی کاربر لحاظ گردد، اس��تفاده ک��اربران از جس��تجوی ص��وتی ب��ا اس��تفاده از موبای��ل اس��ت. آنچ��ه اهمیت جس��تجی ص��وتی را در موبایل بیشتر می کند مالحظ��ات اس��تفاده ک��اربر از کاربرده��ای ص��وتی ب��ا اس��تفاده از

موبایل می باشد. مظالعات نش��ان می ده�د ک�ه ک�اربران گوگ�ل در موقعیته�ای مختل�ف از کاربرده��ای موبایل استفاده می کنند، این مطالعات نش��ان می ده��د ک��ه ب��ه عن��وان مث��ال بیش��ترین کاربرد جستجوی صوتی برای جس��تجو در م��ورد غ��ذا، نوش��یدنی و سرویس��های محلی است. همچنین جستجوی کاربران نشان می دهد که بیشتر جستجوهای صوتی کاربران ش��امل مک��ان ب��ودن و س��والهای ح��اوی پرس��ش بس��یار مرس��وم می باش��د. همچ��نین

سوالهایی که تنها شامل یک کلمه هستند نیز بسیار متداول می باشند. نتیجه گیری-4-5

نتایج اس��تفاده ک��اربران از سرویس��های ص��وتی نش��ان می ده��د ک��ه هرچ��ه امکان��ات موبایلها بیشتر می شود و دسترسی ک��اربران ب��ه گوش��یهای هوش��مند بیش��تر می گ��ردد تمایل استفاده کاربران به استفاده از سرویسهای صوتی بیشتر شده و کاربران تمایل دارن��د از این سرویس��ها اس��تفاده کنن��د. همچ��نین تجرب��ه ش��رکتهایی مانن��د گوگ��ل در

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

63

Page 64: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

سرویسهای جستجتوی صوتی به استفاده از رایانش ابری ب��رای این ام��ر ح�ائز اهمیتاست.

نیازمندیهای جستجوی صوتی در جویشگرهای بومی-5

مقدمه-5-1

هماطور که در فصلهای قبلی به آن اشاره شده اس�ت، اس��تفاده از خ�دمات ص�وتی در جویشگرهای بومی نیازمند استفاده از سرویسهای بازشناس��ی گفت��ار و تب��دیل متن به گفتار فارسی است. این سرویسها در صورتی که به درستی اس�تفاده ش�وند، ت�اثیر ب��االیی ب��ر اف��زایش محب��وبیت موتوره��ای جس��تجو خواهن��د داش��ت. در این بخش نیازمندیهای جستجوی صوتی در جویشگرهای ب��ومی و مراح��ل پیش��رو اش��اره خواه��د

شد.وضعیت موجود-5-2

برای تعیین نیازمندیهای صوتی در ط��رح جویش��گر، مراح��ل مختلفی در نظ��ر گرفت��ه ش�د. این مراح�ل ابت�دا ب�ا بررس�ی وض�ع موج�ود و شناس��ایی توانمن�دیهای ش�رکتها و پژوهشگران داخلی آغ��از گردی��د. این بررس��ی از این جهت ح��ائز اهمیت اس��ت ک��ه ب��ا

پروژه های قابل فراخوان و سرویسهای م��ورد نی��از به��تر شناس��اییRFPاستفاده از آن خواهند شد.

این بررسی عالوه بر این این امکان ار ارائه می نماید ت��ا نقط��ه ش��روع سرویس��هایصوتی با توجه به توانمندیهای داخلی مشخص گردد.

در این راستا با شرکتها و افراد زیر ک��ه دارای تجرب��ه و توانمن��دی در زنج��یره کام��ل ارائه خدمات ص��وتی بودن��د جلس��ه برگ��زار گردی��د و وض��عیت موج��ود و توامن��دی آنه��ا

شناسایی گردید. این افراد و شرکتها عبارتند از:شرکت عصر گویش پردازشرکت هوش مصنوعی رایورز

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

64

Page 65: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

شرکت گاتاپژوهشگاه خواجه نصیردکتر محمد مهدی همایون پور

در جلسات برگزار شده عالوه بر شناسایی توانمندی شرکتها، اهداف ط��رح توس��ط مرکز تشریح گردید و عالوه بر این از شرکتها درخواست گردی��د ابت��دا ب��رای س��رویس صوتی کامل شامل بازشناسی پرس و جو با استفاده از صوت و سنتز نتیج��ه پیش��نهاد خود را ارائه کنند و سپس پیشنهادهای دیگر خود را که می تواند طرح کمک نماید ارائه

نمایند.پیشنهاد شرکتها به شرح زیر می باشد:شرکت عصر گویش پرداز.1

شرکت عصر گ�ویش پ��رداز ب��رای ارائ��ه خ�دمات ص��وتی پیش��نهاد اس��تفاده از م��دل سرویس وب برای بازشناسی پرس و جو و تبدیل متن به گفتار فارسی را ارائه نمود. در مدل پیشنهاد شده که در ض��میمه گ��زارش ارائ��ه می گ��ردد س��رویس بازشناس��ی و

می باش��د. در این بخش پیش��نهاد ش��رکتTCPتدیل متن به گفت��ار فارس��ی ب��ر اس��اس اختصاصی کردن سرویس��ها ب��رای اس��تفاده دز ک��اربرد جس��تجو ب��وده و در این راس��تا

موارد زیر در نظر گرفته شده است:بهبود واژگان س��امانه ب��رای پوش��ش هم��ه کلم��ات پرک��اربرد م��ورد اس��تفاده در

جستجوهای کاربرانبهبود مدل زبانی سامانه برای تطبیق با عبارات رایج در جستجوی کاربراناختصاصی کردن برنامه سمت کالینت برای استفاده در موتور جستجو

در این راستا شرکت پیشنهاد نموده است تا به الگ جس��تجوی ک��اربران در دو س��الاخیر دسترسی داشته باشد تا بتواند اختصاصی سازی را انجام دهد.

شرکت هوش مصنوعی رایورز.2

شرکت هوش مصنوعی رایورز در این راس��تا پیش��نهادی ارائ��ه ننم��ود و این ش��رکت در ص��ورت داش��تن توانمن��دی در فراخ��وان ش��رکتRFPبی��ان داش��ت ک��ه پس از تهی��ه

خواهد نمود.شرکت گاتا.3

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

65

Page 66: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

شرکت گاتا نیز ارائه خدمات با استفاده از وب سرویس را پیشنهاد نموده است. در مشخص را مد نظر قرا داد.BPاین پیشنهاد، شرکت ارائه خدمات با استفاده از یک

پژوهشگاه خواجه نصیر.4

پژوهشگاه خواجه نیز استفاده از مدل ارائه خدمات با اس��تفاده از س��رویس وب را پیشنهاد نمود. در این پیش��نهاد ن��یز اس��تفاده از ی��ک س��رور ب��رای ارائ��ه خ��دمات بازشناسی و تبدیل متن به گفتار فارسی پیشنهاد ش��ده اس��ت. موض��وع مهمی ک��ه

جویشگرهای بومی مانند گوگلAPPاین پژوهشگاه بر آن تاکید داشت، فراهم بودن بود تا سرویس صوتی در آن تعبیه گردد.

همچنین این پژوهشگاه تاکید داشت تا حتما به جویشگرهای بومی از طری��ق وبسرویس دسترسی داشته باشند.

دکتر محمد مهدی همایون پور.5

آق��ای دک��تر ن��یز دو پیش��نهاد ارائ��ه نمودن��د ک��ه این پیش��نهادها ش��امل سیس��تم خالصه ساز گفتاری و سیستم جیسجوی صوتی در اسناد گفتاری است. آق��ای دک��تر هم��ایون پ��ور پیش��نهادی در راس��تای پ��روژه اس��تفاده از ص��وت ب��رای پ��رس و ج��و

نداشتند. معماری پیشنهادی در مورد جستجوی صوتی در جویشگرهای-5-3

بومی

با توجه به مطالعات انجام ش��ده، ب��رای اس��تفاده از ص�وت در جس�تجوی ص�وتی در جویشگرهای بومی استفاده از سرویس بازشناسی گفتار و سنتز برای شروع پیشنهاد می شود. در این راستا در گام اول استفاده از خدمات صوتی پیشنهاد می گردد ت��ا پس از فراخوان و تعیین شرکتها دارای توانمندی نسبی در ارائه خ��دمات ص��وتی ب��ه م��دت شش ماه به بهبود عملکرد سامانه صوتی خود اقدام نم��وده و داداگ��ان و م��دل زب��انی

خود را بهبود دهند. پس از این فاز مس��ابقه بین ش��رکتهای ارائ��ه دهن��ده خ��دمت برگ��زار خواه��د ش��د و ش��رکتهای ارائ��ه دهن��ده خ��دمت بص��ورت اختصاص��ی و مبت��نی ب��ر درخواس��ت خ��ود و

جویشگرها می پردازند.APPجویشگهای موجود به ارائه خدمت در

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

66

Page 67: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

صوت ورودی

دیجیتال فرمت به تبدیل

آکوستیکی مدل زبانی مدل

جویشگر با ارتباط واسط

گفتار به متن تبدیل

جویشگر وب سرویس

شده سنتز صدای پخش

کاربر سرور

جویشگر

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

شکل زیر معماری ارائه سرویس صوتی را در گام اول نشان می دهد. همانطور ک��ه در این شکل مشخص است، سرور مورد استفاده در گام اول تنها برای ارزی��ابی دقت استفاده می شود و در گامها آتی برای پاسخگویی به درخواست کاربران باید اس��تفادهاز سخت افزار و استفاده از رایانش ابری برای ارائه خدمات باید در نظر گرفته شود.

معماری سرویس ارائه خدمات صوتی در جویشگر بومی21-5شکل

ارزیابی میزان دقت جستجوی صوتی-5-4

برای ارزیابی میزان دقت عملکرد سیستم جستجوی صوتی پارامتره��ای زی��ادی بای��ددر نظر گرفته شوند. این پارمترها را می توان بصورت زیر در نظر گرفت:

دقت سیستم بازشناسی گفتار در سطح حرفدقت بازشناسی گفتار در سطح کلمهدقت بازشناسی گفتار پیوسته

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

67

Page 68: به نام خدا - didras.ir  · Web view2 پژوهشکده … – گروه .... 2. 2. نام گزارش:جستجوی صوتی در وب. وضعیت :نهایی. se-pmg-mgt-mtm-01-v1.0کد

گروه ....–پژوهشکده … ن���ام گ���زارش:جس���تجوی

صوتی در وب:نه وضعیت

اییSE-PMG-MGT-MTM-01-V1.0 کد

دقت بازشناسی گفتار گسستهدقت مدل زبانی کیفت گفتار سنتز شده بر اساس معیارMOS

کیفیت گفتار سنتز شده بر اساس معیارهایDRT و MRT

کیفیت نرم افزار سمت کالینت در ضبط و پخش صوتتست کیفی نرم افزارتست کارایی سرورتست تعداد کاربر همزمانتست کارایی سیستم کیفیت نسبت به پهنای باند مصرفیتست مقاومت در مقابل نویزتست تطیق پذیری نسبت به نرخ بیت

مراجع-6

[1] 4. B. Papers, “Voice search: talkin' about an evolution,” 4imprint, inc, 2015.

[2] H.Hermanskey, “Perceptual Linear predictive(PLP) anlysis of speech,” Journal of the Acoustic Society of America, (4)87جلد , pp. 1738-1752, 1990.

[3] M. Gales, “Semi-tied full-covariance matrices for hidden Markov models,” 1997.

[4] D. K. B. K. B. R. G. S. a. K. V. D. Povey, “Bossted MMI for model and feature-space discriminative training,” ,Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP) در 2008.

هرگونه استفاده از این گزارش منوط ب��ه اخ��ذ مج��وز كت��بی از پژوهش��گاه ارتباط��ات و فن��اوری اطالع��اتمی باشد )مركز تحقیقات مخابرات ایران(

68