مروری بر معیارهای ارزیابی کیفیت صوت: از روش‌های ذهنی تا مدل‌های یادگیری ماشین

آخرین تاریخ ویرایش : ۱۹ خرداد ۱۴۰۴
7 دقیقه
2 نظر
ارزیابی کیفیت صوت

در سال‌های اخیر، با پیشرفت چشم‌گیر فناوری‌های پردازش گفتار، نیاز به ارزیابی دقیق کیفیت سیگنال‌های صوتی بیش از پیش احساس می‌شود. کیفیت صوت، به ویژه در کاربردهایی مانند تماس‌های اینترنتی، دستیارهای صوتی، سیستم‌های بهبود گفتار و ترجمه هم‌زمان، نقش مهمی در تجربه‌ی کاربر ایفا می‌کند. از این‌رو، تعیین دقیق میزان کیفیت خروجی این سیستم‌ها، گامی حیاتی در جهت بهینه‌سازی عملکرد آن‌هاست.

در حوزه‌ی ارزیابی کیفیت صوت، معیارها به‌طور کلی به دو دسته‌ی اصلی تقسیم می‌شوند: معیارهای ذهنی (Subjective Metrics) و معیارهای عینی (Objective Metrics). معیارهای ذهنی مبتنی بر قضاوت انسانی هستند و معمولاً از طریق آزمون‌هایی مانند ITU-T P.800 یا P.808 انجام می‌شوند که خروجی آن‌ها شاخص‌هایی نظیر میانگین امتیاز ذهنی (Mean Opinion Score) است. از سوی دیگر، معیارهای عینی با استفاده از الگوریتم‌های محاسباتی، کیفیت صوت را به‌صورت خودکار برآورد می‌کنند. این معیارها به دو زیرشاخه‌ی مهم تقسیم می‌شوند: تهاجمی (Intrusive) و غیرتهاجمی (Non-Intrusive). معیارهای تهاجمی برای ارزیابی، نیاز به دسترسی به نسخه‌ی مرجع از سیگنال صوتی دارند، در حالی‌که معیارهای غیرتهاجمی تنها با سیگنال نویزی یا پردازش‌شده کار می‌کنند. به‌دلیل دشواری دسترسی به سیگنال مرجع در کاربردهای واقعی، معیارهای غیرتهاجمی و همچنین روش‌های یادگیری‌محور جدید مانند DNSMOS و NISQA، توجه روزافزونی را به خود جلب کرده‌اند.

با وجود مزایای معیارهای عینی، همچنان چالش‌هایی در همبستگی یا نزدیکی آن‌ها با تجربه‌ی واقعی کاربران وجود دارد. به همین خاطر، پژوهش‌های جدید به‌سمت توسعه‌ی روش‌های مبتنی بر یادگیری ماشین، از جمله مدل‌های پیش‌بینی‌کننده‌ی MOS، پیش رفته‌اند تا بتوانند دقت بالا را در کنار مقیاس‌پذیری فراهم کنند. در ادامه، به معرفی و بررسی مهم‌ترین معیارهای ارزیابی کیفیت صوت، مزایا و محدودیت‌های آن‌ها و روندهای نوین در این حوزه خواهیم پرداخت.

معیارهای عینی:

۱- معیارهای تهاجمی

متریک‌هایی هستند که برای محاسبه کیفیت، به نسخه‌ی مرجع یا تمیز گفتار نیاز دارند. یعنی خروجی الگوریتم باید با نسخه‌ی اصلیِ بدون نویز مقایسه شود. از جمله‌ی این معیارها می توان به موارد زیر اشاره کرد:

  • PESQ (Perceptual Evaluation of Speech Quality):

PESQ یک متریک تهاجمی است که کیفیت گفتار را بر اساس شباهت بین نسخه نویزدار و نسخه تمیز گفتار می‌سنجد. این متریک توسط ITU-T برای ارزیابی تماس‌های صوتی تلفنی طراحی شده و امتیازی بین ۱ تا ۵ تولید می‌کند که با کیفیت ادراکی شنونده مطابقت دارد.

  • POLQA (Perceptual Objective Listening Quality Analysis):

POLQA نسخه‌ی پیشرفته‌تر PESQ است که برای سیستم‌های پهن‌باند (wideband) و فوق‌پهن‌باند (super-wideband) طراحی شده است. دقت بالاتری نسبت به PESQ دارد و می‌تواند طیف وسیع‌تری از نویزها و شرایط واقعی را تحلیل کند، از جمله تأخیر، اعوجاج، و فشرده‌سازی صوتی.

  • SDR (Signal-to-Distortion Ratio):

SDR یک متریک پایه‌ای و تهاجمی است که میزان انرژی سیگنال تمیز را نسبت به انرژی اعوجاج‌ها و خطاهای باقی‌مانده پس از پردازش (مثلاً حذف نویز) اندازه‌گیری می‌کند. مقدار بالاتر SDR به معنای کیفیت بهتر بازسازی گفتار است و معمولاً در ارزیابی مدل‌های پردازش سیگنال کاربرد دارد.

ویژگی‌ها:

  • دقت بالا در شرایط کنترل‌شده (مثلاً آزمایشگاه).
  • نمی‌توان از آن‌ها در شرایط واقعی استفاده کرد، چون نسخه‌ی تمیز گفتار معمولاً موجود نیست.

۲- معیارهای غیرتهاجمی

این متریک‌ها فقط از خروجی سیستم (مثلاً گفتار نویززدایی‌شده) استفاده می‌کنند و نیازی به نسخه‌ی تمیز ندارند. از جمله این معیارها:

  • ITU-T P.563:

– P.563 توسط اتحادیه بین‌المللی مخابرات (ITU-T) توسعه داده شده تا بتواند کیفیت گفتار را بدون نیاز به نسخه‌ی تمیز مرجع ارزیابی کند.

– این معیار مستقیماً روی سیگنال صوتی خروجی (degraded signal) اعمال می‌شود و با استفاده از تحلیل‌های آماری، ویژگی‌های ادراکی و مدل‌سازی سیستم شنوایی انسان، امتیاز کیفیت را تخمین می‌زند.

– کاربرد اصلی آن در شبکه‌های مخابراتی سنتی و narrowband (مثل تماس‌های تلفنی معمولی) است و بهترین عملکرد را در این محدوده دارد.

  • مدل‌های یادگیری ماشین: 
    • مانند DNSMOS که از گفتار نویزدار مستقیماً کیفیت را پیش‌بینی می‌کنند.

ویژگی‌ها:

  • مناسب برای استفاده در دنیای واقعی (مثل تماس‌های تلفنی، دستیارهای صوتی).
  • دقت آن‌ها ممکن است کمتر از متریک‌های تهاجمی باشد، مگر اینکه به‌خوبی آموزش داده شده باشند.
بیشتر بخوانید
مدل‌های انتشار (Diffusion Models) و کاربردهای آن‌ها

معیارهای ذهنی:

ـ میانگین امتیاز ذهنی (MOS)

در ارزیابی کیفیت صوت، معیار میانگین امتیاز ذهنی (MOS) یکی از معتبرترین شاخص‌ها محسوب می‌شود که بر اساس نظرات مستقیم شنوندگان انسانی نسبت به کیفیت درک‌شده‌ی سیگنال صوتی تعیین می‌شود. برخلاف بسیاری از معیارهای عینی، MOS برای محاسبه به هیچ سیگنال مرجعی نیاز ندارد و صرفاً با تحلیل ادراک انسانی از سیگنال پردازش‌شده انجام می‌شود. با این حال، از آنجا که MOS یک معیار ذهنی است و نه محاسبه‌ای، به‌طور معمول در دسته‌بندی‌های تهاجمی یا غیرتهاجمی قرار نمی‌گیرد. به‌عبارتی، این معیار مستقل از این تقسیم‌بندی بوده و در کنار معیارهای عینی، به‌عنوان مبنای اصلی سنجش واقعی کیفیت ادراکی صوت به کار می‌رود. با این وجود، از آنجا که برای انجام تست MOS معمولاً فقط سیگنال خروجی مورد ارزیابی قرار می‌گیرد، می‌توان آن را از نظر داده‌ی مورد نیاز، به معیارهای غیرتهاجمی نزدیک دانست، گرچه ماهیت آن کاملاً متفاوت است.

MOS یا میانگین امتیاز ذهنی، یک روش یا معیار کیفی برای اندازه گیری کیفیت خروجی یک سیستم به شمار می‌رود که برای سیستم‌های تبدیل متن به گفتار یا TTS (Text to Speech)، به طور خاص، از این معیار برای ارزیابی کیفیت فایل صوتی خروجی استفاده می‌گردد. روش بدست آوردن آن نیز، به این صورت است که از تعدادی از افراد خواسته می‌شود که با گوش دادن به یک فایل صوتی، در بازه بین ۱ تا ۵، به آن امتیاز دهند. امتیاز ۱ به منزله‌ی کیفیت ضعیف و امتیاز ۵ به منزله‌ی کیفیت عالی می‌باشد. سپس میانگین امتیاز همه‌ی افراد برای هر فایل محاسبه شده و امتیاز کلی آن محاسبه می‌گردد. در واقع این امتیاز بیان می‌کند که یک فایل صوتی چقدر طبیعی، واضح و شفاف به گوش افراد رسیده است. در توسعه‌ی سیستم‌های TTS، استفاده از MOS می‌تواند در بهبود مدل، مقایسه‌ی خروجی مدل‌های مختلف و تصمیم‌گیری‌های آتی کمک کننده باشد. با این وجود، اجرای یک ارزیابی دقیق در مقیاس بزرگ، می‌تواند بسیار زمان‌بر و هزینه‌بر باشد. همچنین، امتیاز دهی افراد، بسته به پیش‌زمینه‌های ذهنی، فرهنگ و مواردی از این دست می‌تواند دچار سوگیری‌هایی باشد؛ که البته برای جلوگیری از این مشکلات، از یک سری پروتکل‌های خاص و محیط‌های کنترلش شده برای انجام این آزمایش‌ها استفاده می‌کنند.

در سال‌های اخیر، روش‌های جدید مبتنی بر شبکه‌های عصبی برای پیش‌بینی کیفیت گفتار پیشنهاد شده‌اند که برخی از آنها از MOS به‌عنوان معیار آموزش استفاده می‌کنند. یکی از این مدل‌ها DNSMOS نام دارد که یک مدل CNN را با استفاده از داده‌های MOS انسانی حاصل از چارچوب تست آنلاین ITU-T P.808 آموزش می‌دهد. این مدل، که برای شرایط واقعی و نویزی طراحی شده، از یک معماری چندمرحله‌ای خودآموز (Self Teaching) بهره می‌برد تا به دقت بالا و تعمیم‌پذیری مورد قبول دست یابد. مدل DNSMOS به عنوان معیاری عینی و دقیق برای رتبه‌بندی روش‌های حذف نویز گفتار معرفی می‌شود که با ارزیابی انسانی همبستگی بالایی دارد. مدل DNSMOS در مقایسه با معیارهای رایج دیگر مثل POLQA، PESQ و SDR، بیشترین میزان همبستگی با MOS انسانی را از خود نشان داده است. در رتبه بعدی PESQ و POLQA هستند که همبستگی نسبتا خوبی دارند اما SDR همبستگی ضعیفی با MOS انسانی دارد. PESQ و POLQA  نسبت به برخی از اعوجاج‌ها، نسبت به آنچه گوش انسان می‌شنود، حساسیت بیشتری دارند.
به طور کلی، آزمایشات انجام شده توسط محققان، نشان می‌دهد که وزن‌دهی مناسب بین پیش‌بینی مدل و نمرات انسانی باعث بهبود قابل توجه در دقت مدل می‌شود. همچنین، مدل‌های خودآموز چندمرحله‌ای توانایی تعمیم‌دهی به زبان‌ها و سبک‌های مختلف صوت را بیشتر از مدل پایه دارند.

فرنوش کریمی
فرنوش کریمی پژوهشگر یادگیری ماشین
من برنامه‌نویس و پژوهشگرِ حوزه‌ی یادگیری ماشین هستم، با تمرکز بر پردازش گفتار. همواره به دنبال یادگیریِ عمیق‌تر، تجربه‌های نو و حل مسائل پیچیده‌ام.
اشتراک گذاری
ثبت نظر
نظرات کاربران
سمانه دانشور
1 هفته قبل

تا حدودی مفید بود

فرزانه
3 هفته قبل

عالی

اپلیکیشن ویرا