voic maning

Presented By:Am.s

وب، پاگاه داده ها، و سایر منابع اطالعاتی دیجیتیال دربردارنده یک حجم رو بهرشد محتوی آوایی هستند.

برای مثال، اخبار ها، رویداد های ورزشی، مکالمات تلفنی، ثبت جلسات، برنامههای اینترنتی، برنامه های مستند و غیره.

کاربران تمایل دارند تا عمده مواد را با جستجو و شاخص گذاری محتویدیجیتال آوایی ایجاد کنند.

در گذشته، شرکت ها ملزم بودند تا ایجاد کنند و بطور دستی نسخه هایدستنویس محتوی آوایی را با استفاده از رایانه ها جهت تشخیص، تفسیر و

تحلیل کEه دشوار است مورد تجزیه و تحلیل قرار دهند.

تر، ظرفیت های بیشتر ذخیره سازیEبا این حال، توسعه ریزپردازنده های سریعو الگوریتم های بهتر تشخیص گفتار صداکاوی را ساده تر کرده است.

مقدمه

صداکاوی چیست؟

بیان برای تحقیEق صدا منظور بEه کEه اسEت روشEی صEداکاوی گیرد. قرار می اسEتفاده مورد گفتEه شده کلمات و هEا عبارت فناوری گفتاری نیز جهت تشخیص کلمات و آوا هایی که در فایل های صEوتی و تصEویری گفتEه مEی شونEد بکار گرفتEه شده و سپس تحقیقات صEداکاوی را مEی توان جهEت استقرار کلمات و عبارت های معیEن در صEدا انجام داد. ایEن تحقیقات صEداکاوی بEه سرعت زمان از سریعتر برابر هزار معموال کEه شونEد مEی اسEتعمال واقعEی هسEتند، و بنابرایEن مقادیEر وسEیعی از صEدا یEا گفتار را می

توان در یک باره زمانی کوتاه مورد ارزیابی قرار داد.

صداکاوی نیز ارزیابی مبتنی بر متن را صورت داده و عبارت یا جمله رادر یک فایل آوایی قرار می دهد

به عنوان مثال این عامل به کاربران اجازه می دهد تا به سرعت بهبرنامه های معین خود در یک مکالمه ثبت شده و یا تعیین کننده که

چه زمانی نام یک شرکت در یک برنامه خبری گفته می شود.

شاخص گذاری آوایی از تشخیص صدا جهت تحلیل یک فایل و تولیدشاخص قابل جستجو محتوایی دربردارنده کلمات و موقعیت های آنها

استفاده می کند.

این بحرانی است چرا که محتوی آوایی در یک صورت دوگانه قرار داردکه در غیر اینصورت قابل جستجو نخواهد بود.

.شاخص گذاری محتوی آوایی جستجو را مقدور می سازد

درون صداکاوی

:دو روش عمده در صداکاوی وجود دارد شاخص گذاری مبتنی بر متن: .1 •آن گفتار را به متن تبدیل کرده و سپس کلمات را در فرهنگ لغات •

که می تواند دربردارنده چند صد هزار مقوله باشد شناسایی می کند. اگر یک کلمه یا عنوان در فرهنگ لغت وجود نداشته باشد،

سیستم شبیه ترین کلمه ممکن را انتخاب خواهد کرد.

سیستم از تشخیص زبان جهت ایجاد یک سطح مطمعن برای یافته • درصد 100های خود استفاده می کند. برای یافته ها با کمتر از

سطح اعتماد، سیستم سایر کلماتی را که قابلیت تطبیق دارند را پیشنهاد می دهد.

روش های صداکاوی

شاخص گذاری مبتنی بر آوا:. 2

o آن گفتار را به متن تبدیل نمی کند اما به جای آن تنها با اصوات کارمی کند.

o ابتدا سیستم اصوات را در یک بخش محتوی صدا جهت ایجاد یکشاخص مبتنی بر آوا تحلیل کرده و شناسایی می کند

o واج ها کوچک ترین واحد گفتار در یک زبان هستند، همه کلماتمجموعه ای از واج ها هستند.

o•.در نهایت، سیستم به دنبال عبارت ها در شاخص می گردد

روش های صداکاوی )در ادامه(

یک سیستم آوایی مستلزم یک ابزار جستجوگر کارآمد تر می باشدچرا که آن می بایست عبارت جستجو را استعمال کند، سپس سعی

کند تا آن را با خروجی رشته های آوایی موجود تطبیق دهد. این عامل بطور قابل توجهی با استفاده از یکی از ابزار های جستجوی

مبتنی بر متن موجود پیچیده تر می شود.

جستجو های مبتنی بر واج می تواند به انطباق های نادرست نسبتبه رویکرد مبتنی بر متن عموما برای عبارت های جستجوگر کوتاه منتهی شود، چرا که بسیاری از صداهای کلمات مشابه هستند و یا

صدا های نسبت به سایر کلمات متفاوت هستند.

با این حال، شاخص گذاری آوایی نیز در صورتی که مواد تحلیلشده دربردارند کلمات مهمی باشد که در یک فرهنگ لغت سیستم متن وجود نداشت باشد، نظیر یک عبارت خارجی و اسامی افراد و

مکان ها می تواند مفید باشد.

شاخص گذاری مبتنی بر متن در مقابل شاخص گذاری مبتنی بر واج

سیستم های مبتنی بر متن و واج بیشتر در مسیری مشابه مورد بهره برداریقرار می گیرند مگر جایی که سیستم مبتنی بر متن از فرهنگ لغت مبتنی بر متن

استفاده کرده و حروف از یک فرهنگ لغEت آوایی استفاده کنند.

یک تشخیص دهنده گفتار سیگنال آوایی مشاهده شده را در ارائه نوشته شدهکلمات گفته شده تبدیل می کEند.

نرم افزار تشخیص صدا دربردارنده مدل های آوایی به روشی می باشد که درآن همه واج ها ارائه شوند.

همچنین، یک مدل زبان آماری وجود دارد که نشان می دهد چگونه می توانکلمات یکدیگر را را در یک زبان معین دنبال کرد.

با استفاده از این ظرفیت ها و همینطور تحلیل پیچیده احتمال، فناوری می تواندسیگنال محتوی ناشناخته را اتخاذ کرده و آن را به یک سری کلمه تبدیل کند.

فناوری چگونه کار می کند

Figure: ScanSoft Audio Mining System

از آنجایی که اغلب موسیقی با، ما تمایل ژانر توصیف می شود

تا داده های موسیقی خود را با ژانر حاشیه نویسی کنیم.

طبقه بندی با ژانر برای جستجوی موسیقی و بازیابی وهمچنین برای ایجاد یک لیست

پخش مفید است.

شبکه های عصبی خطی و غیرخطی

طبقه بندی گاوسی

مدل های ترکیب گاوسی

مدل پنهان مارکوف

مدل ها برای طبقه بندی صدا

بگذارید یک مسئله پیشبینی ساده را در نظر بگیریم و تالش کنیم تا مدلی را که می تواند شرایط فردا را پیشبینی کند ایجاد کنیم. در این نمونه ما

سه ایستگاه آب و هوای روزانه را در اختیار داریم که می تواند آفتابی (s ،)( ابریc )( یا بارانیr ) باشد. از سابقه هوای شهر مورد ارزیابی قرار

گرفته ما جدول زیر را داریم

مدل پنهان مارکوف

o ما به شرایط آب و هوایی با حالتq اشاره می کنیم نمونه برداری شده و مسئله پیدا کردن tکه در ماه

احتمال شرایط آب و هوا و شرایط فردا می باشد

P(qt+1 /qt).

یک تقریب قابل قبول برای سابقه مثال است:• P(qt+1/qt , qt-1 , qt-2 , ….. , qt-n ) » P(qt+1 /qt).

o این زنجیره دسته اول مارکوف به عنوان سابقه ای است کهمی بایست تنها یک مثال در نظر گرفته شود.

حال بگذارید این سوال را بپرسیم: با توجه به آفتابی بودن امروز با توجه مدل باال باشد S و S، C، C، Rاحتمال اینکه پنج روز آینده

چقدرE است؟

پاسه درE فرمول زیر با استفاده زنجیره دسته اول مارکوف قرار دارد:

P(q1 = S, q2=S, q3=C, q4=C, q5=R, q6=S) =P(S).P(q2=S/q1=S). P(q3=C/q2=S). P(q4=C/q3=C). P(q5=R/q4=C). P(q6=S/q5=R)= 1 x 0.7 x 0.2 x 0.8 x 0.15 x 0.15= 0.00252

، همانطور که در نظر گرفته می شود، امروز S=1(P)احتمال اولیه ابری است.

تعریف می b و aمدل بطور کامل با این سه مجموعه از پارامتر ها را می توان ارجاع داد با:M و مشاهدات N و مدل pشود و

λ = (A , B , p )

A = {aij}, B = {bj(wk)} 1 <=i , j <=N and 1< =k <= Mجایی که است.

Aij احتمال بودن در حالت( احتمال انتقال حالت Sj و حالت Si را )ارائه می کند

aij = P(qt+1=Sj / qt=Si) .

bj(wk) توزیع احتمال در یک حالت Sj .می باشد

W الفبا بوده وk.تعداد نماد ها در الفبا می باشد π = {1 0 0 }.توزیع احتمال حالت اولیه است

o .هر واج )واحد صدا( می تواند با یک حالت متفاوت ارائه گردد

o مطابقا، انتقال بین واج های مختلف جهت تشکیل یک کلمه را نشان داد.A = {aij}می توان با

o مشاهدات در این نمونه صدا های تولید شده در هر موقعیت وبه دلیل ناپایداری ها در سیر تکاملی هر صدا هستند

o• این عامل را نیز می توان با یک تابع احتمالیB = {bj(wk)} جایگزین کرد.

یک چالش بزرگ برای ابزار های تشخیص گفتار، گفتار کاربران مختلف را درمحیط های مختلف تشخیص داده است.

،با وجود این عامل در ذهنBBN، IBM صحبت کردن سریع، و ،ScanSoft فناوری صداکEاوی خود را جهت مستقل بودن گوینده طراحی کرده است.

به عنوان مثال، مدل های آواییFast-Talk جهت تشخیص گویندگان مختلف و نشان دادن داده های آوایی از گویندگان ارائه دهنده سنین مختلف، لهجه ها و

سبک های گفتاری آموزش داده می شوند.

برخی از فناوری های صداکاوی از مدل های آوایی جهت تشخیص گفتار درمحیط های مختلف نظیر تلفن، تلوزیون و یا رادیو استفاده می کEند.

طراحان بر چالش ها غلبه می کنند

طراحی کردن فیلتر ها جهت کاهش نویز زمینه که می تواند باتشخیص صحیح صدا تداخل پیدا کند.

.ایجاد ساختار های کارآمد داده برای نشان دادن محتوی

توسعه الگوریتم هایی که به سرعت از طریق ساختار های داده درحین شاخص گذاری و جستجو کار می کنند.

پیشرفت های دیگر

دقت بهبود می یابد اما همچنان یک مسئله کلیدی است که مانعاتخاذ وسیع بخصوص در برنامه های بحرانی به عنوان گزارش

دادگاه یا دستورالعمل پزشکی است.

پردازش گفتار مکالمه ای می تواند به دلیل چنین فاکتور هایی کهکلمات و نویز زمینه را به اشتراک می گذارند دشوار باشد.

پیشرفت در فهم طبیعی زبان در نهایت به بهبود عظیمی منتهیمی شود، اما صداکاوی تنها بصورت نموی و تدریجی بهتر خواهد

شد.

آن اخیرا به عنوان "داشتن آن خوب است" و نه به عنوان فناوری"نیاز به داشتن آن" مشاهده شده است.

موانع برای پاکسازی

شرکت ها می توانند از صداکاوی در جهت تحلیل سرویس-مصرفکننده و مکالمات مرکزی و حتی میل صوتی استفاده کنند.

اجرای قانون و سازمان های هوشمند می توانند از فناوری درجهت تحلیل مکالمات تلفنی بازدارنده استفاده کنند.

شرکت های اشاعه دهنده نظیرCNN و رادیو آسیا قبال از صداکاوی جهت بازیابی سریع اطالعت زمینه ای مهم از خبر های

قبلی در هنگام رویداد های جدید استفاده کرده اند.

یک زندان در ایاالت متحده از محصول صداکاویScanSoft جهت تحلیل رکورد های تماس های تلفنی زندانیان جهت شناسایی

فعالیت های غیرقانونی استفاده می کنند.

برنامه ها

صداکاوی موسقیایی به شناسایی مشخصات ادراکی مهم یک بخش ازموسیقی نظیر ساختار ملودی، هارمونی و ریتمی مربوط می شود.

ن یک قطعه موسیقی که از نظرEمحققان می توانند جهت پیدا کردمشخصEات ملودی، هارمونی و ریتمی مشابه است استفادEه کنند.

این نمونه از تحلیل را می توان در موسیقی جهت تعیین مشخصات، کلید موسیقی، و ساختار (BPM)نظیر ضرب ها در هر دقیقه

موسقیایی، و اطالعاتی که جهت طبقه بندی موسیقی شناسایی می شوند مورد استفاده قرار داد.

سایت های بارگیری موسیقی که موسیقی را با ژانر طبقه بندی میکنند از صداکاوی جهت تشخیص موسیقی استفاده می کنند.

صداکاوی

موسقیایی

کاربرد های نرم افزار صداکاوی را می توان جهت بررسی محتوی صوتی و صداکاوی

تصویری که دربردارنده گفتار هستند مورد استفاده قرار داد. کاربرد رایج شامل موفقیت های وسیع صوتی و تصویری جایی که

اطالعات کمی دردسترس است محتوی آوایی را بیان می کند. برای مثال این عامل را می توان بطور رایج هزاران برابر سریعتر از زمان واقعی انجام داد که ارزیابی مقادیر وسیعی از داده های

گفتاری زمانی که قبال غیرممکن بوده را ممکن می سازد، چرا که در زمان آن هزاران انسان را ملزم می سازد تا به مواد یک مولفه

.خاص گوش فرا دهند

کاربرد های صداکاوی )ادامه(

روش های صداکاوی نیز در برنامه های تلفنی مورد استفاده قرار می گیرند، برای مثال جهت کمک کردن به ابعاد خودکار کنترل

کیفیت تجارت جایی که برای بررسی ایجنت های تلفن بررسی آنها حائز اهمیت است. ارزیابی های صداکاوی برروی تماس های ثبت

شده را می توان جهت استقرار عبارت ها یا کلماتی که می بایست همواره گفته شوند صورت داد. این کار می تواند مزیت های مهمی را از نظر تعداد تماس ها داشته باشد که می توان آن را به عنوان

سرعت که در آن انطباق های مربوط را می توان با استفاده از صداکاوی دریافت مورد بررسی قرار داد که نسبت به دستیابی با

میانگین های سنتی به مراتب بیشتر است )یک انسان به تماس های .ثبت شده گوش فرا می دهد(

LVCSR روش صدا کاوی

این یک فرآیند دو مرحله ای است. در مرحله اول )مرحله شاخص گذاری یا از پیش مورد پردازش قرار گرفته(، محتوی گفتار آوا با یک

تشخیص دهنده واژگان وسیع جهت تولید یک فایل قابل جستجوی شاخص مورد پردازش قرار می گیرد. فایل شاخص دربردارنده

زنجیره های گفتار های کلمات در داده های صوتی و تصویری می .باشد

در مرحله دوم )مرله بررسی(، یک عبارت جستجو شناسایی می شود )کلمه یا عبارت(، و یک یا چند فایل شاخص را می توان برای رویداد

هایی که عبارت های جستجوی معین را تطبیق می دهند بررسی کرد. نتایج تحقیق را می توان بصورت ترسیمی به عنوان "موفققیت های

جستجو" در فایل صوتی نشان داد یا بخش های مربوط به فایل صوتی و .تصویری را می توان برای کابر پخش کرد

Research paper: “Lets Hear It For Audio Mining” by Neal Leavitt.

Research paper: “Tendencies, Perspectives, and Opportunities of Musical Audio-Mining” by Ghent University, Belgium.

wikipedia.org/wiki/Audio_mining

Thank You

voic maning

Data & Analytics