زمان تخمینی مطالعه: 8 دقیقه
تشخیص گفتار یا گفتار به متن(speech-to-text)، توانایی یک ماشین یا برنامه برای شناسایی کلمات گفته شده و تبدیل آنها به متن قابل خواندن است. نرم افزارهای تشخیص گفتار ابتدایی دایره واژگان محدودی داشتند و ممکن بود تنها زمانی کلمات و عبارات را شناسایی کنند که به وضوح گفته شود. نرم افزارهای پیچیدهتر امروزی میتواند گفتار طبیعی، لهجههای مختلف و زبانهای مختلف را مدیریت کرده و تحت پوشش در آورند.
تشخیص گفتار از طیف وسیعی از تحقیقات در علوم کامپیوتر، زبانشناسی و مهندسی کامپیوتر استفاده میکند. بسیاری از دستگاههای مدرن و برنامههای متمرکز بر متن دارای عملکردهای تشخیص گفتار هستند تا امکان استفاده آسانتر از دستگاه را فراهم کنند. تشخیص گفتار و تشخیص صدا دو فناوری متفاوت هستند و نباید آنها را اشتباه گرفت:
- تشخیص گفتار برای شناسایی کلمات در زبان گفتاری استفاده میشود.
- تشخیص صدا یک فناوری بیومتریک برای شناسایی صدای افراد است.
تشخیص گفتار چگونه کار میکند؟
سیستمهای Speech Recognition از الگوریتمهای کامپیوتری برای پردازش و تفسیر کلمات گفتاری و تبدیل آنها به متن استفاده میکنند. یک برنامه نرم افزاری صدای ضبط شده توسط میکروفون را به زبان نوشتاری تبدیل میکند که رایانهها و انسانها میتوانند آن را درک کنند و مراحل آن در ادامه آورده شده است:
- تجزیه و تحلیل صدا
- تقسیم صدا به قطعات مجزا
- دیجیتالی کردن آن قطعات به یک قالب قابل خواندن توسط کامپیوتر
- تطبیق آن با مناسبترین نمایش متن توسط الگوریتم مناسب
نرم افزار Speech Recognition باید با ماهیت بسیار متغیر و خاص گفتار انسان سازگار باشد. الگوریتمهای نرمافزاری که صدا را در متن پردازش و سازماندهی میکنند، بر روی الگوهای گفتاری، سبکهای گفتاری، زبانها، لهجهها و عبارتهای مختلف آموزش داده میشوند. این نرم افزار همچنین صدای گفتاری را از نویز پس زمینه که اغلب سیگنال صدا را همراهی میکند جدا میکنند. برای برآوردن این الزامات، سیستمهای تشخیص گفتار از دو نوع مدل استفاده میکنند:
- مدلهای آکوستیک: این مدلها نشان دهنده رابطه بین واحدهای زبانی گفتار و سیگنالهای صوتی است.
- مدلهای زبان: در مدلها، صداها با توالی کلمات تطبیق داده میشوند تا بین کلماتی که به نظر شبیه هستند، تمایز قائل شوند.
کاربردهای تشخیص گفتار
سیستمهای تشخیص گفتار کاربردهای بسیار کمی دارند. در اینجا نمونههایی از آنها آورده شده است.
- دستگاههای تلفن همراه: تلفنهای هوشمند از دستورات صوتی برای مسیریابی تماس، پردازش گفتار به متن، شمارهگیری صوتی و جستجوی صوتی استفاده میکنند. کاربران میتوانند بدون نگاه کردن به دستگاه خود به یک متن پاسخ دهند. در آیفونهای اپل، تشخیص گفتار به صفحه کلید و سیری، دستیار مجازی قدرت میدهد. تشخیص گفتار را میتوان در برنامههای پردازش کلمه مانند Microsoft Word نیز یافت، جایی که کاربران میتوانند کلمات را دیکته کنند تا به متن تبدیل شوند.
- آموزش: از نرم افزارهای تشخیص گفتار در آموزش زبان نیز استفاده میشود. این نرم افزارها صحبتهای کاربر را میشنود و برای تلفظ صحیح به آنها کمک میکتند.
- خدمات مشتری: دستیارهای صوتی خودکار به سؤالات مشتری گوش میدهند و منابع مفیدی را ارائه میدهند.
- برنامههای کاربردی مراقبتهای بهداشتی: پزشکان میتوانند از نرم افزار Speech Recognition برای رونویسی یادداشتهای بلادرنگ در سوابق مراقبتهای بهداشتی استفاده کنند.
- کمک به معلولیت: نرمافزار تشخیص گفتار میتواند کلمات گفتاری را با استفاده از زیرنویسهای بسته به متن ترجمه کند تا فردی که دچار کم شنوایی است بتواند بفهمد دیگران چه میگویند. تشخیص گفتار همچنین میتواند افرادی را که از دستهایشان محدود استفاده میکنند، قادر میسازد تا با استفاده از دستورات صوتی به جای تایپ کردن، با رایانه کار کنند.
- گزارش دادگاه: این نرمافزار را میتوان برای رونویسی مراحل دادگاه استفاده کرد و با آنها دیگر نیازی به رونویسکنندههای انسانی نیست.
- تشخیص احساسات: این فناوری میتواند ویژگیهای صوتی خاصی را تجزیه و تحلیل کند تا مشخص کند گوینده چه احساسی دارد. همراه با تجزیه و تحلیل احساسات، این سیستم میتواند نشان دهد که شخص در مورد یک محصول یا خدمات چه احساسی دارد.
- ارتباطات بدون دخالت دست: به عنوان مثال، رانندگان از کنترل صوتی برای ارتباطات بدون دخالت دست، کنترل تلفنها، رادیوها و سیستمهای موقعیتیابی جهانی استفاده میکنند.
ویژگیهای سیستمهای تشخیص گفتار
برنامههای Speech Recognition خوب به کاربران اجازه میدهند آنها را مطابق با نیازهای خود سفارشی کنند. ویژگیهایی که این امکان را فراهم میکند عبارتند از:
- وزندهی زبان: این ویژگی به الگوریتم میگوید که به کلمات خاصی مانند کلماتی که مکررا گفته میشود یا منحصر به مکالمه یا موضوع هستند توجه ویژهای داشته باشد. به عنوان مثال، نرم افزار را میتوان برای گوش دادن به مراجع خاص محصول آموزش داد.
- آموزش آکوستیک: این نرم افزار نویز محیطی را که صدای گفتاری را آلوده میکند، حذف میکند. برنامههای نرمافزاری با آموزش آکوستیک میتوانند سبک، سرعت و حجم صحبت را در میان هیاهوی بسیاری از افراد که در یک دفتر صحبت میکنند، تشخیص دهند.
- برچسبگذاری سخنران: این قابلیت برنامه را قادر میسازد تا تک تک شرکتکنندگان را برچسبگذاری کند و مشارکتهای خاص آنها را در یک مکالمه شناسایی کند.
- فیلتر کردن ناسزا: در اینجا، نرم افزار کلمات و جملات نامطلوب را فیلتر میکند.
الگوریتمهای مختلف تشخیص گفتار کدامند؟
قدرت پشت ویژگیهای بارز تشخیص گفتار از مجموعهای از الگوریتمها و فناوریها ناشی میشود که شامل موارد زیر است:
- مدل پنهان مارکوف: HMM ها در سیستمهای مستقلی استفاده میشوند که در آن حالت تا حدی قابل مشاهده است یا زمانی که تمام اطلاعات لازم برای تصمیمگیری فوراً در دسترس حسگر نیست (در مورد تشخیص گفتار، میکروفون). نمونهای از این حالت(Hidden Markov model) در مدلسازی آکوستیک وجود دارد، جایی که یک برنامه باید واحدهای زبانی را با سیگنالهای صوتی با استفاده از احتمال آماری مطابقت دهد.
- پردازش زبان طبیعی: NLP فرآیند تشخیص گفتار را آسان و تسریع میکند.
- N-gram: این رویکرد ساده مدلهای زبان، توزیع احتمال را برای یک دنباله ایجاد میکند. یک مثال از آن میتواند الگوریتمی باشد که به چند کلمه آخر گفته شده نگاه میکند، تاریخچه نمونه گفتار را تقریب میزند و از آن برای تعیین احتمال کلمه یا عبارت بعدی که گفته میشود استفاده میکند.
- هوش مصنوعی: روشهای هوش مصنوعی و یادگیری ماشین مانند یادگیری عمیق و شبکههای عصبی در نرمافزارهای تشخیص گفتار پیشرفته رایج هستند. این سیستمها از دستور زبان، ساختار، نحو و ترکیب سیگنالهای صدا و صوت برای پردازش گفتار استفاده میکنند. سیستمهای یادگیری ماشینی با هر بار استفاده از آنها دانش به دست میآورند و استفاده از آنها برای تشخیص تفاوتهای ظریف مانند لهجهها مناسب است.
مزایای تشخیص گفتار چیست؟
استفاده از نرم افزار تشخیص گفتار مزایای متعددی دارد که از جمله آنها میتوان به موارد زیر اشاره کرد:
- ارتباط ماشین با انسان: این فناوری دستگاههای الکترونیکی را قادر میسازد تا با زبان طبیعی یا گفتار محاورهای با انسان ارتباط برقرار کنند.
- سرعت و قابلیت دسترسی: این نرم افزارها به طور مکرر در رایانهها و دستگاههای تلفن همراه نصب میشوند و به آن دسترسی پیدا میکنند.
- راحتی استفاده: نرم افزاری که به خوبی طراحی شده باشد کارکرد سادهای داشته و اغلب در پس زمینه اجرا میشود.
- بهبود مستمر و خودکار: سیستمهای تشخیص گفتار که هوش مصنوعی را در خود جای میدهند با گذشت زمان کارآمدتر و آسانتر میشوند. همانطور که سیستمها وظایف تشخیص گفتار را کامل میکنند، دادههای بیشتری در مورد گفتار انسان تولید میکنند و در کاری که انجام میدهند بهتر میشوند.
معایب تشخیص گفتار چیست؟
در کنار راحتی فناوری تشخیص گفتار، هنوز چند مشکل برای حل کردن در این علم وجود دارد. محدودیتهای آن عبارتند از:
- عملکرد ناسازگار: به دلیل تفاوت در تلفظ، همچنین عدم پشتیبانی از برخی زبانها و ناتوانی در مرتبسازی نویز پسزمینه، ممکن است سیستمها نتوانند کلمات را بهطور دقیق ثبت کنند. در ضمن سر و صدای محیط نیز میتواند به طور ویژه چالش برانگیز باشد. آموزش آکوستیک میتواند به فیلتر کردن آن کمک کند، اما این برنامهها کامل نیستند و گاهی اوقات نمیتوانند صدای انسان را جدا کنند.
- سرعت: برخی از برنامههای تشخیص گفتار برای استقرار و تسلط به زمان نیاز دارند. پردازش گفتار ممکن است نسبتا کند اتفاق افتد.
- مشکلات فایل منبع: موفقیت تشخیص گفتار به تجهیزات ضبط مورد استفاده بستگی دارد و فقط به نرم افزار وابسته نیست
نتیجه گیری
تشخیص گفتار یک فناوری در حال تکامل است. این فناوری یکی از راههایی است که افراد میتوانند با تایپ کم یا بدون تایپ با رایانهها ارتباط برقرار کنند. انواع برنامههای کاربردی تجاری مبتنی بر ارتباطات بر راحتی و سرعت ارتباطات گفتاری که این فناوری امکانپذیر میکند، سرمایهگذاری میکنند. همچنین برنامههای Speech Recognition در طول 60 سال توسعه خود بسیار پیشرفت کرده و هنوز هم در حال بهبود هستند، به ویژه توسط فناوری هوش مصنوعی. در این مقاله الکتروهایو تلاش کرده است تا دید مختصری از این تکنولوژی برای مخاطبان عزیز فراهم کند.