در سالهای اخیر، با پیشرفت چشمگیر فناوریهای پردازش گفتار، نیاز به ارزیابی دقیق کیفیت سیگنالهای صوتی بیش از پیش احساس میشود. کیفیت صوت، به ویژه در کاربردهایی مانند تماسهای اینترنتی، دستیارهای صوتی، سیستمهای بهبود گفتار و ترجمه همزمان، نقش مهمی در تجربهی کاربر ایفا میکند. از اینرو، تعیین دقیق میزان کیفیت خروجی این سیستمها، گامی حیاتی در جهت بهینهسازی عملکرد آنهاست.
در حوزهی ارزیابی کیفیت صوت، معیارها بهطور کلی به دو دستهی اصلی تقسیم میشوند: معیارهای ذهنی (Subjective Metrics) و معیارهای عینی (Objective Metrics). معیارهای ذهنی مبتنی بر قضاوت انسانی هستند و معمولاً از طریق آزمونهایی مانند ITU-T P.800 یا P.808 انجام میشوند که خروجی آنها شاخصهایی نظیر میانگین امتیاز ذهنی (Mean Opinion Score) است. از سوی دیگر، معیارهای عینی با استفاده از الگوریتمهای محاسباتی، کیفیت صوت را بهصورت خودکار برآورد میکنند. این معیارها به دو زیرشاخهی مهم تقسیم میشوند: تهاجمی (Intrusive) و غیرتهاجمی (Non-Intrusive). معیارهای تهاجمی برای ارزیابی، نیاز به دسترسی به نسخهی مرجع از سیگنال صوتی دارند، در حالیکه معیارهای غیرتهاجمی تنها با سیگنال نویزی یا پردازششده کار میکنند. بهدلیل دشواری دسترسی به سیگنال مرجع در کاربردهای واقعی، معیارهای غیرتهاجمی و همچنین روشهای یادگیریمحور جدید مانند DNSMOS و NISQA، توجه روزافزونی را به خود جلب کردهاند.
با وجود مزایای معیارهای عینی، همچنان چالشهایی در همبستگی یا نزدیکی آنها با تجربهی واقعی کاربران وجود دارد. به همین خاطر، پژوهشهای جدید بهسمت توسعهی روشهای مبتنی بر یادگیری ماشین، از جمله مدلهای پیشبینیکنندهی MOS، پیش رفتهاند تا بتوانند دقت بالا را در کنار مقیاسپذیری فراهم کنند. در ادامه، به معرفی و بررسی مهمترین معیارهای ارزیابی کیفیت صوت، مزایا و محدودیتهای آنها و روندهای نوین در این حوزه خواهیم پرداخت.
معیارهای عینی:
۱- معیارهای تهاجمی
متریکهایی هستند که برای محاسبه کیفیت، به نسخهی مرجع یا تمیز گفتار نیاز دارند. یعنی خروجی الگوریتم باید با نسخهی اصلیِ بدون نویز مقایسه شود. از جملهی این معیارها می توان به موارد زیر اشاره کرد:
- PESQ (Perceptual Evaluation of Speech Quality):
PESQ یک متریک تهاجمی است که کیفیت گفتار را بر اساس شباهت بین نسخه نویزدار و نسخه تمیز گفتار میسنجد. این متریک توسط ITU-T برای ارزیابی تماسهای صوتی تلفنی طراحی شده و امتیازی بین ۱ تا ۵ تولید میکند که با کیفیت ادراکی شنونده مطابقت دارد.
- POLQA (Perceptual Objective Listening Quality Analysis):
POLQA نسخهی پیشرفتهتر PESQ است که برای سیستمهای پهنباند (wideband) و فوقپهنباند (super-wideband) طراحی شده است. دقت بالاتری نسبت به PESQ دارد و میتواند طیف وسیعتری از نویزها و شرایط واقعی را تحلیل کند، از جمله تأخیر، اعوجاج، و فشردهسازی صوتی.
- SDR (Signal-to-Distortion Ratio):
SDR یک متریک پایهای و تهاجمی است که میزان انرژی سیگنال تمیز را نسبت به انرژی اعوجاجها و خطاهای باقیمانده پس از پردازش (مثلاً حذف نویز) اندازهگیری میکند. مقدار بالاتر SDR به معنای کیفیت بهتر بازسازی گفتار است و معمولاً در ارزیابی مدلهای پردازش سیگنال کاربرد دارد.
ویژگیها:
- دقت بالا در شرایط کنترلشده (مثلاً آزمایشگاه).
- نمیتوان از آنها در شرایط واقعی استفاده کرد، چون نسخهی تمیز گفتار معمولاً موجود نیست.
۲- معیارهای غیرتهاجمی
این متریکها فقط از خروجی سیستم (مثلاً گفتار نویززداییشده) استفاده میکنند و نیازی به نسخهی تمیز ندارند. از جمله این معیارها:
- ITU-T P.563:
– P.563 توسط اتحادیه بینالمللی مخابرات (ITU-T) توسعه داده شده تا بتواند کیفیت گفتار را بدون نیاز به نسخهی تمیز مرجع ارزیابی کند.
– این معیار مستقیماً روی سیگنال صوتی خروجی (degraded signal) اعمال میشود و با استفاده از تحلیلهای آماری، ویژگیهای ادراکی و مدلسازی سیستم شنوایی انسان، امتیاز کیفیت را تخمین میزند.
– کاربرد اصلی آن در شبکههای مخابراتی سنتی و narrowband (مثل تماسهای تلفنی معمولی) است و بهترین عملکرد را در این محدوده دارد.
- مدلهای یادگیری ماشین:
- مانند DNSMOS که از گفتار نویزدار مستقیماً کیفیت را پیشبینی میکنند.
ویژگیها:
- مناسب برای استفاده در دنیای واقعی (مثل تماسهای تلفنی، دستیارهای صوتی).
- دقت آنها ممکن است کمتر از متریکهای تهاجمی باشد، مگر اینکه بهخوبی آموزش داده شده باشند.
معیارهای ذهنی:
ـ میانگین امتیاز ذهنی (MOS)
در ارزیابی کیفیت صوت، معیار میانگین امتیاز ذهنی (MOS) یکی از معتبرترین شاخصها محسوب میشود که بر اساس نظرات مستقیم شنوندگان انسانی نسبت به کیفیت درکشدهی سیگنال صوتی تعیین میشود. برخلاف بسیاری از معیارهای عینی، MOS برای محاسبه به هیچ سیگنال مرجعی نیاز ندارد و صرفاً با تحلیل ادراک انسانی از سیگنال پردازششده انجام میشود. با این حال، از آنجا که MOS یک معیار ذهنی است و نه محاسبهای، بهطور معمول در دستهبندیهای تهاجمی یا غیرتهاجمی قرار نمیگیرد. بهعبارتی، این معیار مستقل از این تقسیمبندی بوده و در کنار معیارهای عینی، بهعنوان مبنای اصلی سنجش واقعی کیفیت ادراکی صوت به کار میرود. با این وجود، از آنجا که برای انجام تست MOS معمولاً فقط سیگنال خروجی مورد ارزیابی قرار میگیرد، میتوان آن را از نظر دادهی مورد نیاز، به معیارهای غیرتهاجمی نزدیک دانست، گرچه ماهیت آن کاملاً متفاوت است.
MOS یا میانگین امتیاز ذهنی، یک روش یا معیار کیفی برای اندازه گیری کیفیت خروجی یک سیستم به شمار میرود که برای سیستمهای تبدیل متن به گفتار یا TTS (Text to Speech)، به طور خاص، از این معیار برای ارزیابی کیفیت فایل صوتی خروجی استفاده میگردد. روش بدست آوردن آن نیز، به این صورت است که از تعدادی از افراد خواسته میشود که با گوش دادن به یک فایل صوتی، در بازه بین ۱ تا ۵، به آن امتیاز دهند. امتیاز ۱ به منزلهی کیفیت ضعیف و امتیاز ۵ به منزلهی کیفیت عالی میباشد. سپس میانگین امتیاز همهی افراد برای هر فایل محاسبه شده و امتیاز کلی آن محاسبه میگردد. در واقع این امتیاز بیان میکند که یک فایل صوتی چقدر طبیعی، واضح و شفاف به گوش افراد رسیده است. در توسعهی سیستمهای TTS، استفاده از MOS میتواند در بهبود مدل، مقایسهی خروجی مدلهای مختلف و تصمیمگیریهای آتی کمک کننده باشد. با این وجود، اجرای یک ارزیابی دقیق در مقیاس بزرگ، میتواند بسیار زمانبر و هزینهبر باشد. همچنین، امتیاز دهی افراد، بسته به پیشزمینههای ذهنی، فرهنگ و مواردی از این دست میتواند دچار سوگیریهایی باشد؛ که البته برای جلوگیری از این مشکلات، از یک سری پروتکلهای خاص و محیطهای کنترلش شده برای انجام این آزمایشها استفاده میکنند.
در سالهای اخیر، روشهای جدید مبتنی بر شبکههای عصبی برای پیشبینی کیفیت گفتار پیشنهاد شدهاند که برخی از آنها از MOS بهعنوان معیار آموزش استفاده میکنند. یکی از این مدلها DNSMOS نام دارد که یک مدل CNN را با استفاده از دادههای MOS انسانی حاصل از چارچوب تست آنلاین ITU-T P.808 آموزش میدهد. این مدل، که برای شرایط واقعی و نویزی طراحی شده، از یک معماری چندمرحلهای خودآموز (Self Teaching) بهره میبرد تا به دقت بالا و تعمیمپذیری مورد قبول دست یابد. مدل DNSMOS به عنوان معیاری عینی و دقیق برای رتبهبندی روشهای حذف نویز گفتار معرفی میشود که با ارزیابی انسانی همبستگی بالایی دارد. مدل DNSMOS در مقایسه با معیارهای رایج دیگر مثل POLQA، PESQ و SDR، بیشترین میزان همبستگی با MOS انسانی را از خود نشان داده است. در رتبه بعدی PESQ و POLQA هستند که همبستگی نسبتا خوبی دارند اما SDR همبستگی ضعیفی با MOS انسانی دارد. PESQ و POLQA نسبت به برخی از اعوجاجها، نسبت به آنچه گوش انسان میشنود، حساسیت بیشتری دارند.
به طور کلی، آزمایشات انجام شده توسط محققان، نشان میدهد که وزندهی مناسب بین پیشبینی مدل و نمرات انسانی باعث بهبود قابل توجه در دقت مدل میشود. همچنین، مدلهای خودآموز چندمرحلهای توانایی تعمیمدهی به زبانها و سبکهای مختلف صوت را بیشتر از مدل پایه دارند.
تا حدودی مفید بود
عالی