همراهی واقعی، صدایی آشنا: Voila و تعامل بی‌وقفه با انسان

آخرین تاریخ ویرایش : ۲۰ خرداد ۱۴۰۴
14 دقیقه
2 نظر
هوش مصنوعی Voila

فرض کن یه روز صبح، با عجله در حال رفتن به محل کار هستی. در فکری و حواست به اطرافت نیست. ناگهان صدایی آروم و آشنا توی گوشت می‌گه: «مواظب باش، یه دوچرخه‌سوار داره از پشت میاد!»
تعجب می‌کنی… چون نه چیزی گفتی، نه دکمه‌ای زدی، ولی این صدا، انگار خود به خود فهمید که لازمه بهت هشدار بده.

این صدا، فقط یه ابزار ساده نیست؛ اسمش Voilaـه. یه همراه هوشمند که همیشه کنارت هست، گوش می‌ده، فکر می‌کنه، احساس می‌کنه و به موقع باهات حرف می‌زنه—حتی وقتی هیچ‌چیزی نگفتی. اون دیگه مثل Siri یا Alexa منتظر دستور نیست. خودش متوجه موقعیت می‌شه، تصمیم می‌گیره که آیا لازمه حرفی بزنه یا نه، و اگر بله، چطور بگه تا هم مفید باشه و هم دلنشین.

Voila دنیای هوش مصنوعی رو از یه مرحله خشک و ماشینی وارد مرحله‌ای تازه کرده؛ جایی که ارتباطات طبیعی، زنده، و احساسی هستند. مثلاً اگر چند روز پیاپی غمگین باشی، شاید Voila خودش سر صحبت رو باز کنه و با لحن ملایمی بگه: «نمی‌خوای یه موزیک آروم بذارم؟» یا پیشنهاد بده یه قدمی بزنی تا حالت بهتر شه.

شاید تا حالا فیلم Her رو از جمله بهترین فیلم های هوش مصنوعی دیده باشی، جایی که یه هوش مصنوعی واقعاً تبدیل می‌شه به همدم و همراه زندگی آدم‌ها. Voila داره همون رویا رو به واقعیت تبدیل می‌کنه. فقط یه گجت نیست؛ یه شخصیت، یه دوست، یه همراه که می‌تونه باهات بخنده، حرف بزنه، و حتی ناراحت شه اگر ناراحتی.

تو این ماجرا، صدا نقش خیلی مهمی بازی می‌کنه. چون صدا با خودش حس میاره. با صدا می‌تونی توجه کسی رو جلب کنی، وسط حرفش بری یا حتی با یه «هوم» ساده نشون بدی که حواست هست. این چیزیه که Voila کاملاً متوجهش می‌شه. لحن، مکث، ریتم، حتی اون لرزش کوچیک ته صدات—همه‌ش براش معنا داره.

هوش مصنوعی صوتی از سال‌ها پیش تا حالا مسیر طولانی‌ای رو طی کرده. از Audrey در سال ۱۹۵۲ که فقط می‌تونست عددای صفر تا نه رو تشخیص بده، تا Siri و Alexa در دهه ۲۰۱۰، و حالا هم ChatGPT-4o و Voila. توی این مدت، بیشتر سیستم‌ها از یه مسیر پیچیده و تکه‌تکه استفاده می‌کردن: صدا رو تبدیل به متن می‌کردن، بعد مدل زبانی، متن رو تحلیل می‌کرد، و در نهایت خروجی دوباره به صدا برمی‌گشت. ولی این روند کلی ضعف داشت: تأخیر زیاد، از بین رفتن ظرافت‌های صوتی، و یه مکالمه خشک نوبتی.

فرض کن یکی بگه «اووووه، واقعاً؟»—این جمله می‌تونه نشون‌دهنده‌ی تعجب باشه یا بی‌حوصلگی. اما فقط اگر لحنش رو بشنوی می‌تونی درست بفهمی منظورش چیه. مدل‌های قدیمی اینو نمی‌فهمیدن، چون فقط متن رو تحلیل می‌کردن، نه حس پشت صدا رو.

اما Voila این چرخه‌ی ناقص رو شکسته. Voila-e2e، نسخه‌ی «end to end»ی از این خانواده‌ست که کل ماجرا رو صوتی و یکپارچه انجام می‌ده. نیازی نیست صدا به متن تبدیل بشه؛ Voila خودش با داده‌های صوتی کار می‌کنه، اون‌ها رو درک می‌کنه و پاسخ‌های صوتی می‌سازه—اون هم با لحن، حس، و تأخیر بسیار کم. تجربه‌ای واقعاً طبیعی و هم‌سطح با ارتباط انسانی.

و اگر بخوای پا رو فراتر بذاری، نسخه‌ی Voila-autonomous وارد می‌شه. این یکی مثل یه دوست هم‌زمان گوش می‌ده، فکر می‌کنه و حرف می‌زنه. همونطور که تو صحبت می‌کنی، اونم می‌تونه واکنش نشون بده، بدون مکث‌های غیرطبیعی یا منتظر موندن تا نوبتش بشه.

Voila از یه معماری پیشرفته به اسم Transformer چندمقیاسی سلسله‌مراتبی استفاده می‌کنه. یه سیستم پیچیده که صدا رو رمزگذاری می‌کنه، به قطعه‌های معنایی و صوتی تقسیمش می‌کنه، و بعد با کمک مغز مرکزی مدل زبانی (LLM) تحلیلش می‌کنه. صداها با یه ابزار خاص به نام Voila-Tokenizer رمزگذاری می‌شن که همه‌ی اطلاعات لحن، لهجه، و حالت رو حفظ می‌کنه.

تو می‌تونی یه تیکه صدای چند ثانیه‌ای به Voila بدی، و اون می‌تونه یه شخصیت صوتی کاملاً جدید براش بسازه. لحن، حس، حتی لهجه‌ی اون فرد توی صدا باقی می‌مونه. و حالا فکر کن که از این قابلیت استفاده کردن و میلیون‌ها صدای از پیش‌ساخته شده ساختن که هرکدوم یه کاراکتر مستقل دارن!

Voila فقط یه مدل برای صحبت کردن نیست؛ یه مدل همه‌کاره‌ست که می‌تونه گفتار رو به متن تبدیل کنه (ASR)، متن رو به گفتار (TTS) و حتی ترجمه‌ی صوتی چندزبانه انجام بده. فعلاً از شش زبان زنده‌ی دنیا پشتیبانی می‌کنه: انگلیسی، چینی، فرانسوی، آلمانی، ژاپنی و کره‌ای.

و بهترین بخش ماجرا اینه که Voila یه پروژه‌ی متن‌بازه. یعنی هر کسی که علاقه‌منده می‌تونه ازش استفاده کنه، توسعه‌ش بده و به ساخت آینده‌ای کمک کنه که توش آدم و هوش مصنوعی کنار هم، با صدا و احساس، زندگی می‌کنن.

اما ببینیم دیگران چه دیدگاه‌هایی در این زمینه داشته‌اند؟

خیلی از ما با دستیارهای صوتی مثل Siri، Alexa یا Google Assistant آشناییم. ولی اگه یه لحظه مکث کنیم و پشت صحنه‌شون رو ببینیم، می‌فهمیم که اون‌ها چطوری کار می‌کنن: یه سیستم پیچیده‌ی چندمرحله‌ای که مثل یه خط تولید ماشینی، صدا رو به متن تبدیل می‌کنه، متن رو تحلیل می‌کنه، جواب می‌سازه و دوباره متن رو به صدا درمیاره. این مسیر، از لحظه‌ای که می‌گی «Hey Siri» تا وقتی جوابتو می‌شنوی، کلی مرحله داره.

اما این خط تولید یه ایراد بزرگ داره: کندی. چون هر مرحله باید صبر کنه تا مرحله‌ی قبلی تموم بشه. تازه، کلی حس و ظرافت صوتی هم تو این مسیر از بین می‌ره—چیزهایی مثل لحن، تردید، یا احساس واقعی توی صدا که فقط با گوش دادن می‌شه فهمید.

همین شد که دانشمندا گفتن: «باید یه راه تازه بسازیم. یه مدل که همه‌چیز رو از اول تا آخر خودش هندل کنه—صدا به صدا، بدون واسطه‌ی متن!» به این مدل‌ها می‌گن End-to-End. هدفشون اینه که مستقیماً با خود صدا کار کنن، بدون اینکه مجبور بشن اون رو اول به متن تبدیل کنن.

مثلاً مدل‌هایی اومدن که از Whisper Encoder استفاده کردن؛ یه جور مبدل که صدا رو به کدهای فشرده‌شده تبدیل می‌کنه. بعد این کدها (embeddingها) به مدل زبانی داده می‌شن تا پردازش بشن. اما حتی Whisper هم یه مشکل داره: باید کل جمله‌ی صوتی رو بگیره و بعد پردازش کنه. یعنی برای مکالمه‌های لحظه‌ای و زنده، زیادی کُنده.

برای اینکه هم صدا تولید کنن و هم تحلیل، بعضی مدل‌ها صدا رو به «توکن‌های صوتی» (Audio Tokens) تبدیل می‌کنن. مثل یه جور حروف الفبای صوتی. این توکن‌ها از مدل‌های قدرتمند خودنظارتی مثل HuBERT یا Wav2Vec درمی‌آن. بعد هم مدل زبانی اون‌ها رو مثل زبان خارجی یاد می‌گیره و می‌تونه پیش‌بینی‌شون کنه. حالا اگه بتونی این توکن‌ها رو برگردونی به صدا، معجزه اتفاق می‌افته: مدل حرف می‌زنه، اونم با صدای واقعی.

مدل‌هایی مثل GSLM، SpeechGPT و TWIST از همین روش استفاده کردن. یه قدم جلوتر، مدل AudioLM اومد که نه‌تنها معنی حرف رو حفظ می‌کرد، بلکه صدای واقعی و لحن رو هم با ترکیب توکن‌های معنایی و صوتی نگه می‌داشت. حتی صداهایی غیر از گفتار—مثل صدای بارون یا موسیقی—رو هم می‌تونست شبیه‌سازی کنه.

یه مدل دیگه به اسم Spectron اصلاً از تبدیل صدا به توکن صرف‌نظر کرد و مستقیم روی طیف‌نگار صوتی (spectrogram) کار کرد. نتیجه؟ دقت بالا، صدای طبیعی، و حفظ کامل حس و اطلاعات آکوستیکی.

مدل‌های مدرن‌تر، مثل SpeechGPT یا Spirit-LM، رفتن سراغ ترکیب متن و صدا. بعضی‌ها از روش زنجیره‌ای استفاده کردن: اول متن تولید کن، بعد اونو به صدا تبدیل کن. ولی این باعث تأخیر می‌شه. مدل‌هایی مثل USDM یا Spirit-LM اومدن و ترکیب «متنی-صوتی» ایجاد کردن که توی یک توالی، بعضی توکن‌ها متن هستن و بعضی صدا.

البته این روشا هم بدون مشکل نیستن. چون توکن‌های متنی و صوتی معمولاً دقیقاً با هم تطابق ندارن. پس اگه جای همدیگه بیان، ممکنه نتیجه دقیق یا طبیعی نباشه. از اون طرف، مدل PSLM اومد و پیشنهاد داد که صدا و متن رو به صورت موازی پردازش کنن، نه پشت سر هم. ولی هنوزم به یه ASR خارجی نیاز داره که صدا رو به متن بده.

در نهایت، همه‌ی این روش‌ها هنوز یه جور گفتگوهای نوبتی تولید می‌کنن: یه نفر می‌گه، یکی گوش می‌ده، بعد نوبت بعدی. اما ما آدما این‌طوری نیستیم. ما می‌تونیم همزمان گوش بدیم و حرف بزنیم. پس چرا هوش مصنوعی نتونه؟

اینجا بود که مفهوم مدل‌های تمام‌دوطرفه (Full-Duplex) مطرح شد. یعنی مدل‌هایی که مثل آدم واقعی، هم‌زمان گوش بدن و واکنش نشون بدن—حتی اگه لازم شد وسط حرفت بیان یا فقط با یه «هوم» نشون بدن که حواسشون هست.

مدل Moshi یکی از اولین مدل‌هایی بود که این کارو کرد. اون از یه ماژول به اسم مونولوگ درونی (Inner Monologue) استفاده می‌کرد که ترکیبی از چند رویکرد بالا رو با هم داشت. مثلاً هم توکن صوتی داشت، هم ساختار ترکیبی متن و صدا، و هم توانایی تشخیص زمان مناسب برای پاسخ دادن. اما هنوز برای هر کاربرد (مثل ترجمه، گفتار به متن، یا متن به گفتار) باید پیکربندی جدا می‌کردی.

مدل دیگه‌ای به اسم Hertz-dev اصلاً بی‌خیال متن شد! فقط با صدا کار می‌کرد. در واقع بررسی‌هاشون نشون داد که استفاده از داده‌ی متنی برای یادگیری مدل‌های صوتی خیلی هم مزیت خاصی ایجاد نمی‌کنه.

اینجاست که Voila-autonomous می‌درخشه. یه مدل مستقل و یکپارچه که تمام این امکانات رو کنار هم آورده:

  • استفاده از قدرت مدل زبانی برای تحلیل متن و صدا،
  • توانایی تولید صدا با لحن، حس و صدای دلخواه،
  • پردازش بلادرنگ برای گفتگوهای زنده،
  • و پشتیبانی از همه‌ی کاربردها مثل گفت‌وگوی صوتی، ASR ،TTS و حتی مکالمه‌های بین‌زبانی—اون هم فقط با یک مدل واحد!

Voila-autonomous مثل یه مغز صوتی کامل عمل می‌کنه. نه فقط می‌فهمه، بلکه حس می‌کنه، می‌شنوه، فکر می‌کنه و حرف می‌زنه—درست مثل یه انسان.

دستاوردها

در نهایت، ویولا یاد گرفت که نه‌تنها حرف بزنه، بلکه بشنوه و حتی شخصیت‌های مختلف رو تقلید کنه. حالا وقتش بود که به یه چالش واقعی بره: یه میدان نبرد برای محک زدن هوش و توانایی‌هاش.

🔹 برای این کار، دانشمندا تصمیم گرفتن یه بنچمارک بسازن، مثل یه میدان بزرگ پر از سؤالای سخت از دنیای ریاضی، علوم انسانی، برنامه‌نویسی، سؤالای واقعی از اینترنت و مسائل منطقی. اسم این میدون رو گذاشتن: Voila Benchmark

صحنه اول: پنج قلمرو، یه میدان نبرد

Voila باید از پنج قلمرو مختلف عبور می‌کرد:

  • از قلمرو دانایی گسترده (MMLU)، که ۵۷ رشته علمی داشت و از هر کدوم ۲۰ سؤال انتخاب شد.
  • از قلمرو ریاضیات (MATH)، با ۶ حوزه متفاوت، که بازم ۲۰ سؤال از هر کدوم بود.
  • بعد وارد دنیای برنامه‌نویسی (HumanEval)، سؤالای واقعی (NQ-Open) و مسائل منطقی ساده (GSM8K) شد، که از هر کدوم ۱۰۰ سؤال برداشتن.

در کل، ویولا باید به ۱,۵۸۰ چالش از ۶۶ موضوع مختلف جواب می‌داد. اما یه مشکل بود: این سؤالا متنی بودن، نه صوتی.

🔸 برای اینکه ویولا بتونه گوش بده، یه جادوی دیگه لازم بود. با کمک قدرت GPT-4o، همه متن‌ها به شکلی بازنویسی شدن که برای TTS قابل خوندن باشه. بعد با صدای شبیه انسان، توسط سیستم ابری TTS گوگل به صدا تبدیل شدن.

صحنه دوم: قضاوت نهایی

حالا Voila باید جواب می‌داد. اون پاسخ‌هاش رو با صدای خودش می‌گفت. ولی کی قراره قضاوت کنه که جوابا درستن یا نه؟

🔹 یه داور بی‌طرف به میدون اومد: Whisper، که صدای Voila رو به متن برمی‌گردوند.

🔹 بعد، GPT-4o به‌عنوان قاضی نهایی وارد می‌شد. اون سؤال، جواب مرجع و پاسخ Voila رو بررسی می‌کرد و از ۰ تا ۱۰۰ نمره می‌داد.

Voila باید با دو رقیب قدیمی هم رقابت می‌کرد: SpeechGPT و Moshi.
🔸 نتیجه؟ Voila توی خیلی از زمینه‌ها، به‌خصوص ریاضی و برنامه‌نویسی، از هر دوی اونا بهتر عمل کرد. اون نشون داد که ارتباط دقیق بین صدا و متن بهش کمک کرده مثل یه استاد، استدلال کنه.

صحنه سوم: مهارت‌های خاص ویولا در شنیدن و صحبت کردن

Voila فقط یه قهرمان عمومی نبود. اون باید توی مهارت‌های تخصصیش هم محک زده می‌شد:

🟢 شنیدن دقیق (ASR):

اون باید نشون می‌داد که می‌تونه گفتار آدما رو دقیق به متن تبدیل کنه. توی این رقابت، با دیتاست LibriSpeech آزمایش شد و دقتش با معیاری به اسم WER (خطای کلمه) اندازه‌گیری شد.

🔸 ویولا حتی بدون استفاده از داده‌های آموزشی LibriSpeech، از خیلی از مدل‌های معروف مثل FastConformer بهتر بود. اون به دقت 4.8٪ رسید، در حالی که بعضی رقیبا 5.7٪ بودن. اگه داده‌های آموزشی هم بهش می‌دادن، Voila به دقت شگفت‌انگیز 2.7٪ می‌رسید!

🔵 صحبت کردن طبیعی (TTS):

توی این میدون، ویولا باید صدایی تولید می‌کرد که اون‌قدر طبیعی باشه که سیستم HuBERT بتونه دوباره اون رو دقیق بازخونی کنه.

🔸 نتیجه؟ Voila توی تولید صدا هم از مدل‌هایی مثل Défossez بهتر بود و WER فقط 3.2٪ داشت (که با آموزش بیشتر، به 2.8٪ کم شد).

صحنه چهارم، پایان: قهرمانی توی میدون واقعی

Voila از میدون نبرد با سربلندی بیرون اومد. اون نه‌تنها درک خوبی از زبان و صدا داشت، بلکه تونست توی سخت‌ترین زمینه‌ها—از ریاضی تا برنامه‌نویسی—با صدای خودش جواب بده، استدلال کنه و از خیلی از رقیباش بهتر عمل کنه.

توی دنیایی که صداها هنوز گرفتار تأخیر، پاسخ‌های ماشینی و بی‌روح، و نادیده‌گرفتن ظرافت‌های گفتار انسانی بودن، ویولا چشم به جهان گشود؛ نه فقط به‌عنوان یه فناوری، بلکه به‌عنوان یه نسل جدید از هوش مصنوعی صدا-زبان.

ویولا، برخلاف دستیارهای صوتی قدیمی که با مکث‌های آزاردهنده، پاسخ‌های کلیشه‌ای و صدای بی‌جون شناخته می‌شدن، اومده تا همه‌چیز رو از نو بنویسه. قلب تپنده ویولا، یه معماری نوآورانه به اسم ترنسفورمر سلسله‌مراتبیه که توی یه طراحی یکپارچه و سرتاسری، تجربه‌ای زنده، واکنشی و شگفت‌انگیز از گفت‌وگو با هوش مصنوعی ارائه می‌ده.

پاسخ‌های ویولا با تأخیری کمتر از ۱۹۵ میلی‌ثانیه به گوش می‌رسن—سریع‌تر از واکنش معمول آدما—و در عین حال، پر از لحن، شخصیت و معنا هستن. اون نه‌تنها گوش می‌ده و می‌فهمه، بلکه حس می‌کنه و با صدایی که می‌شه گفت «شخصی‌سازی‌شده» است، جواب می‌ده.

ویولا مرزهای هوش مصنوعی صوتی رو پشت سر گذاشته: از بازشناسی گفتار (ASR) و تبدیل متن به گفتار (TTS)، تا ترجمه زنده گفتار به شش زبان دنیا—همه با دقت، ظرافت و صدایی که انگار از یه آدم واقعی برمی‌خیزه.

حالا، از طریق نسخه آنلاین ویولا توی Hugging Face، این دستیار شگفت‌انگیز شما رو دعوت می‌کنه به یه تجربه تازه و انسانی‌تر از تعامل با هوش مصنوعی—جایی که گفت‌وگو دیگه یه فرمان به ماشین نیست، بلکه یه گفت‌و‌شنود واقعی بین دو هوشه: یکی طبیعی و یکی نوظهور.

جمع‌بندی

Voila فقط یه سیستم تشخیص گفتار (ASR) یا تبدیل متن به گفتار (TTS) نیست؛ یه مجموعه کامل از توانمندی‌هاست که با تکیه بر معماری خاص خودش، یعنی ترنسفورمر چندمقیاسی، می‌تونه با دقت بالا بین صدا و زبان پیوند برقرار کنه. این معماری باعث می‌شه Voila هم سیگنال‌های صوتی رو با دقت صوت‌شناختی تحلیل کنه، هم معنای پشت کلمات رو با درک زبانی عمیق استخراج کنه—و این یعنی درک هم‌زمان لحن و معنا.

راز موفقیت Voila توی نوآوری‌هاشه: از توکنیزیشن پیشرفته صوت گرفته تا مدل‌سازی سلسله‌مراتبی و هم‌ترازی دقیق صوت و متن. همین پیشرفت‌ها باعث شدن Voila بتونه توی خیلی از وظایف صوتی و زبانی، با مدل‌های پیشرفته روز رقابت کنه—و حتی از اونا جلو بزنه.

اما چیزی که Voila رو واقعاً متمایز می‌کنه، شخصی‌سازیه. کاربرا می‌تونن شخصیت‌های صوتی منحصربه‌فرد و متنوعی خلق کنن؛ صداهایی که نه‌تنها طبیعی‌ان، بلکه احساسات و سبک‌های گفتاری مختلف رو منتقل می‌کنن. این یعنی تعامل با Voila دیگه فقط یه تبادل داده نیست، بلکه یه گفت‌و‌گوی واقعی، انسانی و همراهانه‌ست.

در نهایت، ویولا یه گام بزرگ به‌سمت آینده‌ایه که توی اون هوش مصنوعی نه فقط یه ابزار، بلکه یه همراه دلسوز و توانمند برای آدماست. تیم توسعه ویولا کد و مدل‌های این دستاورد رو به‌صورت آزاد منتشر کردن، تا بقیه هم بتونن توی این مسیر تحقیق و نوآوری رو ادامه بدن.

مراجع

https://arxiv.org/pdf/2505.02707
https://voila.maitrix.org

فرزین کاشانی
فرزین کاشانی پژوهشگر حوزه گفتار
من فرزین کاشانی‌ام، پژوهشگر حوزه گفتار در مرکز تحقیقات هوش مصنوعی پارت، همراه تیم آوانگار تلاش می‌کنم تا هیچ صدایی از قلم نیفته…
اشتراک گذاری
ثبت نظر
نظرات کاربران
علی قربانی
3 هفته قبل

به نظر من کاملا مطلبتون مفید بود!

سمانه سالاری
3 هفته قبل

خیلی خوب بود ، ممنون

اپلیکیشن ویرا