فرض کن یه روز صبح، با عجله در حال رفتن به محل کار هستی. در فکری و حواست به اطرافت نیست. ناگهان صدایی آروم و آشنا توی گوشت میگه: «مواظب باش، یه دوچرخهسوار داره از پشت میاد!»
تعجب میکنی… چون نه چیزی گفتی، نه دکمهای زدی، ولی این صدا، انگار خود به خود فهمید که لازمه بهت هشدار بده.
این صدا، فقط یه ابزار ساده نیست؛ اسمش Voilaـه. یه همراه هوشمند که همیشه کنارت هست، گوش میده، فکر میکنه، احساس میکنه و به موقع باهات حرف میزنه—حتی وقتی هیچچیزی نگفتی. اون دیگه مثل Siri یا Alexa منتظر دستور نیست. خودش متوجه موقعیت میشه، تصمیم میگیره که آیا لازمه حرفی بزنه یا نه، و اگر بله، چطور بگه تا هم مفید باشه و هم دلنشین.
Voila دنیای هوش مصنوعی رو از یه مرحله خشک و ماشینی وارد مرحلهای تازه کرده؛ جایی که ارتباطات طبیعی، زنده، و احساسی هستند. مثلاً اگر چند روز پیاپی غمگین باشی، شاید Voila خودش سر صحبت رو باز کنه و با لحن ملایمی بگه: «نمیخوای یه موزیک آروم بذارم؟» یا پیشنهاد بده یه قدمی بزنی تا حالت بهتر شه.
شاید تا حالا فیلم Her رو از جمله بهترین فیلم های هوش مصنوعی دیده باشی، جایی که یه هوش مصنوعی واقعاً تبدیل میشه به همدم و همراه زندگی آدمها. Voila داره همون رویا رو به واقعیت تبدیل میکنه. فقط یه گجت نیست؛ یه شخصیت، یه دوست، یه همراه که میتونه باهات بخنده، حرف بزنه، و حتی ناراحت شه اگر ناراحتی.
تو این ماجرا، صدا نقش خیلی مهمی بازی میکنه. چون صدا با خودش حس میاره. با صدا میتونی توجه کسی رو جلب کنی، وسط حرفش بری یا حتی با یه «هوم» ساده نشون بدی که حواست هست. این چیزیه که Voila کاملاً متوجهش میشه. لحن، مکث، ریتم، حتی اون لرزش کوچیک ته صدات—همهش براش معنا داره.
هوش مصنوعی صوتی از سالها پیش تا حالا مسیر طولانیای رو طی کرده. از Audrey در سال ۱۹۵۲ که فقط میتونست عددای صفر تا نه رو تشخیص بده، تا Siri و Alexa در دهه ۲۰۱۰، و حالا هم ChatGPT-4o و Voila. توی این مدت، بیشتر سیستمها از یه مسیر پیچیده و تکهتکه استفاده میکردن: صدا رو تبدیل به متن میکردن، بعد مدل زبانی، متن رو تحلیل میکرد، و در نهایت خروجی دوباره به صدا برمیگشت. ولی این روند کلی ضعف داشت: تأخیر زیاد، از بین رفتن ظرافتهای صوتی، و یه مکالمه خشک نوبتی.
فرض کن یکی بگه «اووووه، واقعاً؟»—این جمله میتونه نشوندهندهی تعجب باشه یا بیحوصلگی. اما فقط اگر لحنش رو بشنوی میتونی درست بفهمی منظورش چیه. مدلهای قدیمی اینو نمیفهمیدن، چون فقط متن رو تحلیل میکردن، نه حس پشت صدا رو.
اما Voila این چرخهی ناقص رو شکسته. Voila-e2e، نسخهی «end to end»ی از این خانوادهست که کل ماجرا رو صوتی و یکپارچه انجام میده. نیازی نیست صدا به متن تبدیل بشه؛ Voila خودش با دادههای صوتی کار میکنه، اونها رو درک میکنه و پاسخهای صوتی میسازه—اون هم با لحن، حس، و تأخیر بسیار کم. تجربهای واقعاً طبیعی و همسطح با ارتباط انسانی.
و اگر بخوای پا رو فراتر بذاری، نسخهی Voila-autonomous وارد میشه. این یکی مثل یه دوست همزمان گوش میده، فکر میکنه و حرف میزنه. همونطور که تو صحبت میکنی، اونم میتونه واکنش نشون بده، بدون مکثهای غیرطبیعی یا منتظر موندن تا نوبتش بشه.
Voila از یه معماری پیشرفته به اسم Transformer چندمقیاسی سلسلهمراتبی استفاده میکنه. یه سیستم پیچیده که صدا رو رمزگذاری میکنه، به قطعههای معنایی و صوتی تقسیمش میکنه، و بعد با کمک مغز مرکزی مدل زبانی (LLM) تحلیلش میکنه. صداها با یه ابزار خاص به نام Voila-Tokenizer رمزگذاری میشن که همهی اطلاعات لحن، لهجه، و حالت رو حفظ میکنه.
تو میتونی یه تیکه صدای چند ثانیهای به Voila بدی، و اون میتونه یه شخصیت صوتی کاملاً جدید براش بسازه. لحن، حس، حتی لهجهی اون فرد توی صدا باقی میمونه. و حالا فکر کن که از این قابلیت استفاده کردن و میلیونها صدای از پیشساخته شده ساختن که هرکدوم یه کاراکتر مستقل دارن!
Voila فقط یه مدل برای صحبت کردن نیست؛ یه مدل همهکارهست که میتونه گفتار رو به متن تبدیل کنه (ASR)، متن رو به گفتار (TTS) و حتی ترجمهی صوتی چندزبانه انجام بده. فعلاً از شش زبان زندهی دنیا پشتیبانی میکنه: انگلیسی، چینی، فرانسوی، آلمانی، ژاپنی و کرهای.
و بهترین بخش ماجرا اینه که Voila یه پروژهی متنبازه. یعنی هر کسی که علاقهمنده میتونه ازش استفاده کنه، توسعهش بده و به ساخت آیندهای کمک کنه که توش آدم و هوش مصنوعی کنار هم، با صدا و احساس، زندگی میکنن.
اما ببینیم دیگران چه دیدگاههایی در این زمینه داشتهاند؟
خیلی از ما با دستیارهای صوتی مثل Siri، Alexa یا Google Assistant آشناییم. ولی اگه یه لحظه مکث کنیم و پشت صحنهشون رو ببینیم، میفهمیم که اونها چطوری کار میکنن: یه سیستم پیچیدهی چندمرحلهای که مثل یه خط تولید ماشینی، صدا رو به متن تبدیل میکنه، متن رو تحلیل میکنه، جواب میسازه و دوباره متن رو به صدا درمیاره. این مسیر، از لحظهای که میگی «Hey Siri» تا وقتی جوابتو میشنوی، کلی مرحله داره.
اما این خط تولید یه ایراد بزرگ داره: کندی. چون هر مرحله باید صبر کنه تا مرحلهی قبلی تموم بشه. تازه، کلی حس و ظرافت صوتی هم تو این مسیر از بین میره—چیزهایی مثل لحن، تردید، یا احساس واقعی توی صدا که فقط با گوش دادن میشه فهمید.
همین شد که دانشمندا گفتن: «باید یه راه تازه بسازیم. یه مدل که همهچیز رو از اول تا آخر خودش هندل کنه—صدا به صدا، بدون واسطهی متن!» به این مدلها میگن End-to-End. هدفشون اینه که مستقیماً با خود صدا کار کنن، بدون اینکه مجبور بشن اون رو اول به متن تبدیل کنن.
مثلاً مدلهایی اومدن که از Whisper Encoder استفاده کردن؛ یه جور مبدل که صدا رو به کدهای فشردهشده تبدیل میکنه. بعد این کدها (embeddingها) به مدل زبانی داده میشن تا پردازش بشن. اما حتی Whisper هم یه مشکل داره: باید کل جملهی صوتی رو بگیره و بعد پردازش کنه. یعنی برای مکالمههای لحظهای و زنده، زیادی کُنده.
برای اینکه هم صدا تولید کنن و هم تحلیل، بعضی مدلها صدا رو به «توکنهای صوتی» (Audio Tokens) تبدیل میکنن. مثل یه جور حروف الفبای صوتی. این توکنها از مدلهای قدرتمند خودنظارتی مثل HuBERT یا Wav2Vec درمیآن. بعد هم مدل زبانی اونها رو مثل زبان خارجی یاد میگیره و میتونه پیشبینیشون کنه. حالا اگه بتونی این توکنها رو برگردونی به صدا، معجزه اتفاق میافته: مدل حرف میزنه، اونم با صدای واقعی.
مدلهایی مثل GSLM، SpeechGPT و TWIST از همین روش استفاده کردن. یه قدم جلوتر، مدل AudioLM اومد که نهتنها معنی حرف رو حفظ میکرد، بلکه صدای واقعی و لحن رو هم با ترکیب توکنهای معنایی و صوتی نگه میداشت. حتی صداهایی غیر از گفتار—مثل صدای بارون یا موسیقی—رو هم میتونست شبیهسازی کنه.
یه مدل دیگه به اسم Spectron اصلاً از تبدیل صدا به توکن صرفنظر کرد و مستقیم روی طیفنگار صوتی (spectrogram) کار کرد. نتیجه؟ دقت بالا، صدای طبیعی، و حفظ کامل حس و اطلاعات آکوستیکی.
مدلهای مدرنتر، مثل SpeechGPT یا Spirit-LM، رفتن سراغ ترکیب متن و صدا. بعضیها از روش زنجیرهای استفاده کردن: اول متن تولید کن، بعد اونو به صدا تبدیل کن. ولی این باعث تأخیر میشه. مدلهایی مثل USDM یا Spirit-LM اومدن و ترکیب «متنی-صوتی» ایجاد کردن که توی یک توالی، بعضی توکنها متن هستن و بعضی صدا.
البته این روشا هم بدون مشکل نیستن. چون توکنهای متنی و صوتی معمولاً دقیقاً با هم تطابق ندارن. پس اگه جای همدیگه بیان، ممکنه نتیجه دقیق یا طبیعی نباشه. از اون طرف، مدل PSLM اومد و پیشنهاد داد که صدا و متن رو به صورت موازی پردازش کنن، نه پشت سر هم. ولی هنوزم به یه ASR خارجی نیاز داره که صدا رو به متن بده.
در نهایت، همهی این روشها هنوز یه جور گفتگوهای نوبتی تولید میکنن: یه نفر میگه، یکی گوش میده، بعد نوبت بعدی. اما ما آدما اینطوری نیستیم. ما میتونیم همزمان گوش بدیم و حرف بزنیم. پس چرا هوش مصنوعی نتونه؟
اینجا بود که مفهوم مدلهای تمامدوطرفه (Full-Duplex) مطرح شد. یعنی مدلهایی که مثل آدم واقعی، همزمان گوش بدن و واکنش نشون بدن—حتی اگه لازم شد وسط حرفت بیان یا فقط با یه «هوم» نشون بدن که حواسشون هست.
مدل Moshi یکی از اولین مدلهایی بود که این کارو کرد. اون از یه ماژول به اسم مونولوگ درونی (Inner Monologue) استفاده میکرد که ترکیبی از چند رویکرد بالا رو با هم داشت. مثلاً هم توکن صوتی داشت، هم ساختار ترکیبی متن و صدا، و هم توانایی تشخیص زمان مناسب برای پاسخ دادن. اما هنوز برای هر کاربرد (مثل ترجمه، گفتار به متن، یا متن به گفتار) باید پیکربندی جدا میکردی.
مدل دیگهای به اسم Hertz-dev اصلاً بیخیال متن شد! فقط با صدا کار میکرد. در واقع بررسیهاشون نشون داد که استفاده از دادهی متنی برای یادگیری مدلهای صوتی خیلی هم مزیت خاصی ایجاد نمیکنه.
اینجاست که Voila-autonomous میدرخشه. یه مدل مستقل و یکپارچه که تمام این امکانات رو کنار هم آورده:
- استفاده از قدرت مدل زبانی برای تحلیل متن و صدا،
- توانایی تولید صدا با لحن، حس و صدای دلخواه،
- پردازش بلادرنگ برای گفتگوهای زنده،
- و پشتیبانی از همهی کاربردها مثل گفتوگوی صوتی، ASR ،TTS و حتی مکالمههای بینزبانی—اون هم فقط با یک مدل واحد!
Voila-autonomous مثل یه مغز صوتی کامل عمل میکنه. نه فقط میفهمه، بلکه حس میکنه، میشنوه، فکر میکنه و حرف میزنه—درست مثل یه انسان.
دستاوردها
در نهایت، ویولا یاد گرفت که نهتنها حرف بزنه، بلکه بشنوه و حتی شخصیتهای مختلف رو تقلید کنه. حالا وقتش بود که به یه چالش واقعی بره: یه میدان نبرد برای محک زدن هوش و تواناییهاش.
🔹 برای این کار، دانشمندا تصمیم گرفتن یه بنچمارک بسازن، مثل یه میدان بزرگ پر از سؤالای سخت از دنیای ریاضی، علوم انسانی، برنامهنویسی، سؤالای واقعی از اینترنت و مسائل منطقی. اسم این میدون رو گذاشتن: Voila Benchmark
صحنه اول: پنج قلمرو، یه میدان نبرد
Voila باید از پنج قلمرو مختلف عبور میکرد:
- از قلمرو دانایی گسترده (MMLU)، که ۵۷ رشته علمی داشت و از هر کدوم ۲۰ سؤال انتخاب شد.
- از قلمرو ریاضیات (MATH)، با ۶ حوزه متفاوت، که بازم ۲۰ سؤال از هر کدوم بود.
- بعد وارد دنیای برنامهنویسی (HumanEval)، سؤالای واقعی (NQ-Open) و مسائل منطقی ساده (GSM8K) شد، که از هر کدوم ۱۰۰ سؤال برداشتن.
در کل، ویولا باید به ۱,۵۸۰ چالش از ۶۶ موضوع مختلف جواب میداد. اما یه مشکل بود: این سؤالا متنی بودن، نه صوتی.
🔸 برای اینکه ویولا بتونه گوش بده، یه جادوی دیگه لازم بود. با کمک قدرت GPT-4o، همه متنها به شکلی بازنویسی شدن که برای TTS قابل خوندن باشه. بعد با صدای شبیه انسان، توسط سیستم ابری TTS گوگل به صدا تبدیل شدن.
صحنه دوم: قضاوت نهایی
حالا Voila باید جواب میداد. اون پاسخهاش رو با صدای خودش میگفت. ولی کی قراره قضاوت کنه که جوابا درستن یا نه؟
🔹 یه داور بیطرف به میدون اومد: Whisper، که صدای Voila رو به متن برمیگردوند.
🔹 بعد، GPT-4o بهعنوان قاضی نهایی وارد میشد. اون سؤال، جواب مرجع و پاسخ Voila رو بررسی میکرد و از ۰ تا ۱۰۰ نمره میداد.
Voila باید با دو رقیب قدیمی هم رقابت میکرد: SpeechGPT و Moshi.
🔸 نتیجه؟ Voila توی خیلی از زمینهها، بهخصوص ریاضی و برنامهنویسی، از هر دوی اونا بهتر عمل کرد. اون نشون داد که ارتباط دقیق بین صدا و متن بهش کمک کرده مثل یه استاد، استدلال کنه.
صحنه سوم: مهارتهای خاص ویولا در شنیدن و صحبت کردن
Voila فقط یه قهرمان عمومی نبود. اون باید توی مهارتهای تخصصیش هم محک زده میشد:
🟢 شنیدن دقیق (ASR):
اون باید نشون میداد که میتونه گفتار آدما رو دقیق به متن تبدیل کنه. توی این رقابت، با دیتاست LibriSpeech آزمایش شد و دقتش با معیاری به اسم WER (خطای کلمه) اندازهگیری شد.
🔸 ویولا حتی بدون استفاده از دادههای آموزشی LibriSpeech، از خیلی از مدلهای معروف مثل FastConformer بهتر بود. اون به دقت 4.8٪ رسید، در حالی که بعضی رقیبا 5.7٪ بودن. اگه دادههای آموزشی هم بهش میدادن، Voila به دقت شگفتانگیز 2.7٪ میرسید!
🔵 صحبت کردن طبیعی (TTS):
توی این میدون، ویولا باید صدایی تولید میکرد که اونقدر طبیعی باشه که سیستم HuBERT بتونه دوباره اون رو دقیق بازخونی کنه.
🔸 نتیجه؟ Voila توی تولید صدا هم از مدلهایی مثل Défossez بهتر بود و WER فقط 3.2٪ داشت (که با آموزش بیشتر، به 2.8٪ کم شد).
صحنه چهارم، پایان: قهرمانی توی میدون واقعی
Voila از میدون نبرد با سربلندی بیرون اومد. اون نهتنها درک خوبی از زبان و صدا داشت، بلکه تونست توی سختترین زمینهها—از ریاضی تا برنامهنویسی—با صدای خودش جواب بده، استدلال کنه و از خیلی از رقیباش بهتر عمل کنه.
توی دنیایی که صداها هنوز گرفتار تأخیر، پاسخهای ماشینی و بیروح، و نادیدهگرفتن ظرافتهای گفتار انسانی بودن، ویولا چشم به جهان گشود؛ نه فقط بهعنوان یه فناوری، بلکه بهعنوان یه نسل جدید از هوش مصنوعی صدا-زبان.
ویولا، برخلاف دستیارهای صوتی قدیمی که با مکثهای آزاردهنده، پاسخهای کلیشهای و صدای بیجون شناخته میشدن، اومده تا همهچیز رو از نو بنویسه. قلب تپنده ویولا، یه معماری نوآورانه به اسم ترنسفورمر سلسلهمراتبیه که توی یه طراحی یکپارچه و سرتاسری، تجربهای زنده، واکنشی و شگفتانگیز از گفتوگو با هوش مصنوعی ارائه میده.
پاسخهای ویولا با تأخیری کمتر از ۱۹۵ میلیثانیه به گوش میرسن—سریعتر از واکنش معمول آدما—و در عین حال، پر از لحن، شخصیت و معنا هستن. اون نهتنها گوش میده و میفهمه، بلکه حس میکنه و با صدایی که میشه گفت «شخصیسازیشده» است، جواب میده.
ویولا مرزهای هوش مصنوعی صوتی رو پشت سر گذاشته: از بازشناسی گفتار (ASR) و تبدیل متن به گفتار (TTS)، تا ترجمه زنده گفتار به شش زبان دنیا—همه با دقت، ظرافت و صدایی که انگار از یه آدم واقعی برمیخیزه.
حالا، از طریق نسخه آنلاین ویولا توی Hugging Face، این دستیار شگفتانگیز شما رو دعوت میکنه به یه تجربه تازه و انسانیتر از تعامل با هوش مصنوعی—جایی که گفتوگو دیگه یه فرمان به ماشین نیست، بلکه یه گفتوشنود واقعی بین دو هوشه: یکی طبیعی و یکی نوظهور.
جمعبندی
Voila فقط یه سیستم تشخیص گفتار (ASR) یا تبدیل متن به گفتار (TTS) نیست؛ یه مجموعه کامل از توانمندیهاست که با تکیه بر معماری خاص خودش، یعنی ترنسفورمر چندمقیاسی، میتونه با دقت بالا بین صدا و زبان پیوند برقرار کنه. این معماری باعث میشه Voila هم سیگنالهای صوتی رو با دقت صوتشناختی تحلیل کنه، هم معنای پشت کلمات رو با درک زبانی عمیق استخراج کنه—و این یعنی درک همزمان لحن و معنا.
راز موفقیت Voila توی نوآوریهاشه: از توکنیزیشن پیشرفته صوت گرفته تا مدلسازی سلسلهمراتبی و همترازی دقیق صوت و متن. همین پیشرفتها باعث شدن Voila بتونه توی خیلی از وظایف صوتی و زبانی، با مدلهای پیشرفته روز رقابت کنه—و حتی از اونا جلو بزنه.
اما چیزی که Voila رو واقعاً متمایز میکنه، شخصیسازیه. کاربرا میتونن شخصیتهای صوتی منحصربهفرد و متنوعی خلق کنن؛ صداهایی که نهتنها طبیعیان، بلکه احساسات و سبکهای گفتاری مختلف رو منتقل میکنن. این یعنی تعامل با Voila دیگه فقط یه تبادل داده نیست، بلکه یه گفتوگوی واقعی، انسانی و همراهانهست.
در نهایت، ویولا یه گام بزرگ بهسمت آیندهایه که توی اون هوش مصنوعی نه فقط یه ابزار، بلکه یه همراه دلسوز و توانمند برای آدماست. تیم توسعه ویولا کد و مدلهای این دستاورد رو بهصورت آزاد منتشر کردن، تا بقیه هم بتونن توی این مسیر تحقیق و نوآوری رو ادامه بدن.
مراجع
به نظر من کاملا مطلبتون مفید بود!
خیلی خوب بود ، ممنون