شهریور, 1397 2 نظرات
1 ستاره2 ستاره3 ستاره4 ستاره5 ستاره (1 votes, average: 4٫00 out of 5)
Loading...
اخبار تکنولوژی, دسته‌بندی نشده, صدا, کامپیوتر, هوش مصنوعی

تعامل با ماشین

تعامل و گفت و گو با ماشین ها یکی از اتفاقات هیجان انگیزی است که سالهاست بشر در رویای وقوع آن است. در سالهای اخیر کامپیوتر ها با استفاده از شبکه های عصبی به این توانایی رسیده اند که صحبت عادی انسان ها را درک کنند.
یکی از نمونه های بارز آن جستجوی صوتی گوگل (Google Voice Search) است. این که به جای تایپ کردن متن بتوانیم چیزی را که به دنبال آن هستیم به Google search بفهمانیم یا مثلا گوگل بتواند چیزی را که برایمان یافته است را بخواند تا ما در حین انجام کاری دیگر از تعامل با کامپیوتر لذت ببریم شگفت آور است.

Wavenet امکان جدیدی است که در آن کامپیوتر می تواند با شما به گفت و گو بنشیند. گوگل در این امکان جدید خود به توسعه دهندگان اعلام کرده است که می توانند از این فناوری در اپلیکیشن ها و دستگاه های اینترنت اشیاء استفاده کنند و با استفاده از آن محتوای کتاب ها و مقالات را به قالب های صوتی نظیر پادکست ها تبدیل کنند.

TTS چیست؟

با این حال گفت و گو با کامپیوتر فرایندی است که با استفاده از رابط (TTS (Text-To-Speech عمل میکند. در این سیستم ها از یک پایگاه داده بزرگ که شامل جملات کوتاه بسیاری است استفاده می شود تا از کنار هم قرار گرفتن آن ها یک سخنرانی کامل ایجاد شود. یکی از مشکلات این سیستم ها این است که امکان تغییر صوت در آن وجود ندارد و گوینده را نمی توان تغییر داد.
TTS اطلاعات صوتی خام را از صداهای طبیعی انسان به دست می آورد و این به معنی ایجاد صدایی نزدیک به صدای انسان است. این رابط انتخاب گسترده ای برای تعیین نوع صدا در اختیار شما قرار می دهد. صداهایی با زبان ها، لهجه ها و جنسیت های متفاوت که دارای تکنولوژی های تولید متفاوتی نیز هستند.
یکی از رایجترین تکنولوژی های گفتاری استفاده شده در تولید صداهای TTS که Wavenet از آن استفاده میکند تبدیل متن به صدا به شیوه پارامتری است. این روش با استفاده از الگوریتم پردازش سیگنالی بنام Vocoders داده های مورد نیاز برای تبدیل متن به گفتار تحت عنوان یک مدل را جمع آوری و سپس به صوت تبدیل می کند.

Wavenet با استفاده از شکل موج های خام این امکان را فراهم آورده است که تمام اصوات از جمله موسیقی را مدل سازی کند.

Wavenet چگونه عمل می کند؟

سخنرانی ای که Wavenet ایجاد می کند نسبت به دیگر سیستم های تحت TTS بسیار طبیعی تر و نزدیک تر به صدای انسان است.


نمودار بالا مقایسه ای است بین Wavenet و سایر سیستم های تبدیل متن به گفتار.
بر خلاف بیشتر سیستم های تبدیل متن به گفتار یک مدل Wavenet شکل موج صداهای خام را از ابتدا ایجاد می کند و با استفاده از یک شبکه عصبی که با نمونه صداهای زیادی آموزش دیده است کار می کند.
در این آموزش شبکه یاد می گیرد که لایه زیرین ساختار گفتار را استخراج کند. برای مثال جایگاه یک کلمه را در جمله شناسایی می کند و به شکل شگفت آوری در جمله هایی که می سازد از آن استفاده می کند. زمانی که یک متن به Wavenet داده می شود این مدل شکل موج تمام کلمه های موجود در متن را با سرعت 24000 نمونه در ثانیه پیدا می کند.
اما نکته ای را باید بگویم و آن این است که هر متن برای تبدیل به گفتار در Wavenet باید دارای ویژگی هایی باشد و دارای توالی خاصی از هجاها و آواها، تعیین نوع کلمات و … باشد.


شکل بالا ساختار یک Wavenet را نشان می دهد . یک شبکه عصبی با پیچیدگی کامل که لایه های آن دارای انعطاف هستند که باعث می شود به صورت عمودی با عمق رشد کنند و تا هزاران مرحله پیش روند.
توالی ورودی ها شکل موج های ثبت شده از صدای انسان است. ساخت یک نمونه در هر مرحله شامل محاسبات پیچیده ای است که برای ایجاد صدای واقعی ضروری است. در هر مرحله از نمونه برداری یک مقدار از توزیع احتمالی محاسبه شده توسط شبکه کسر می گردد. این مقدار به ورودی برگشته و یک پیش بینی جدید برای مرحله بعدی ایجاد می شود.
بعد از آموزش کار با استفاده از نمونه های ضبط شده ایجاد سخنرانی آغاز می شود .

برچسب ها
درباره نویسنده
2 نظرات
  1. M

    سلام
    مقاله شما عالی بود.
    ایراد مقاله↓
    (TTS (Text-To-Speech) ← TTS (Test-To-Speech

    با احترام

    پاسخ
  2. Mansour Ebrahimi

    سلام. مرسی از نظر شما. اشتباه تایپی بود که رفع شد. خیلی متشکریم

    پاسخ

ارسال نظر شما

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Mimtechmagazine