حتماً تجربه کردهاید که از یک مدل زبانی (مثل همانهایی که همهمان روزانه استفاده میکنیم) سؤالی پرسیدهاید و با یک جواب بسیار مطمئن روبهرو شدهاید، اما بعد میفهمید که کاملاً غلط است. به این پدیده میگوییم توهم. حالا سؤال اینجاست: چرا چنین چیزی اتفاق میافتد؟ مقالهای همین چند روز پیش منتشر شده که قصد دارد پاسخ این سوال را بدهد.
دانشجویی در جلسهی امتحان
نویسندگان مقاله (از OpenAI و Georgia Tech) یک تشبیه خیلی زیبا دارند. آنها میگویند مدلهای زبانی درست شبیه دانشجویی هستند که در جلسهی امتحان وقتی مطمئن نیست، بهجای اینکه بگوید «نمیدانم»، جواب را حدس میزند. و چون حدسها اغلب با اعتمادبهنفس و بسیار قانعکننده ارائه میشوند، ما فکر میکنیم درستاند.
این تشبیه به نظرم فوقالعاده است، چون نشان میدهد موضوع اصلاً «جادویی» یا «مرموز» نیست. توهم مدلها صرفاً یک نتیجهی طبیعی از فرایند آماری آموزش آنهاست.
ریشهی اصلی: آمار و آموزش
طبق تحلیل مقاله، حتی اگر دادههای آموزشی بدون خطا باشند، باز هم الگوریتمی که مدلها برای یادگیری زبان به کار میبرند باعث تولید خطا میشود. چرا؟ چون مسئله به «طبقهبندی دودویی» (Binary Classification) برمیگردد: اینکه آیا یک خروجی «معتبر» است یا «نامعتبر».
وقتی مدل باید بین میلیونها گزینهی ممکن انتخاب کند، کافی است الگو در دادهها ناقص یا مبهم باشد. مثلاً تاریخ تولد یک پژوهشگر اگر فقط یک بار در دادهها آمده باشد، مدل بهاحتمال زیاد در مواجهه با آن سؤال دچار توهم خواهد شد.
این یعنی حتی بهترین مدلها هم محکوم به این هستند که درصدی از پاسخهایشان خطا باشد.
چرا توهمها بعد از آموزش همچنان باقی میمانند؟
تا اینجا گفتیم که خودِ فرایند آموزش اولیه (pretraining) باعث میشود مدلها ذاتاً مقداری خطا تولید کنند. اما سؤال مهمتر این است: چرا با همهی پیشرفتها و تکنیکهای پسآموزش (مثل RLHF یا تنظیم با بازخورد انسانی) هنوز هم این خطاها بهطور کامل برطرف نمیشوند؟
پاسخ مقاله خیلی ساده و در عین حال تکاندهنده است: چون شیوهی ارزیابی ما مشکل دارد.
مدلهای زبانی مثل دانشآموزانی هستند که مدام در حال «امتحان دادن»اند. معیارهایی که ما برای نمره دادن به آنها گذاشتهایم (مثل accuracy یا درصد قبولی در یک تست) ذاتاً جوری طراحی شدهاند که «شک و تردید» را جریمه میکنند. یعنی اگر یک مدل بهجای جواب دادن بگوید «نمیدانم»، نمرهای نمیگیرد. اما اگر همانجا یک جواب غلطِ قانعکننده بدهد، ممکن است گاهی شانسی درست باشد و نمره بگیرد.
به زبان ساده: مدلها تشویق میشوند که حتی وقتی مطمئن نیستند، جواب بسازند. درست مثل دانشجویی که میداند اگر برگهی سفید تحویل دهد، صفر میگیرد، پس ترجیح میدهد چیزی بنویسد.
راهکار پیشنهادی: تغییر معیارهای ارزیابی
نویسندگان مقاله میگویند تا وقتی معیارهای اصلی ما همین «درست یا غلط» (۰ و ۱) باشند، مدلها همیشه در حالت «امتحان دادن» خواهند بود و طبیعتاً توهم خواهند زد.
پس راهحل چیست؟
بهجای اینکه تنها درست و غلط را بسنجیم، باید بیان عدم قطعیت را هم ارزشگذاری کنیم. یعنی اگر مدلی گفت «نمیدانم»، یا سطح اطمینانش را مشخص کرد، نباید جریمه شود. برعکس، باید امتیاز بگیرد که صادقانه اعلام کرده مطمئن نیست.
این دقیقاً همان چیزی است که در برخی آزمونهای انسانی هم وجود دارد: اگر پاسخ غلط بدهی، نمره منفی میگیری، اما اگر «پاسخ ندهی» دستکم امتیاز از دست نمیدهی.
چرا این موضوع مهم است؟
شاید فکر کنید این صحبتها صرفا جزئیات فنی هستند، اما به باور من (و به استناد همین مقاله) ماجرا فراتر از یک بحث تکنیکی است. ما داریم دربارهی اعتماد به هوش مصنوعی صحبت میکنیم. اگر مدلها مدام با اعتمادبهنفس اطلاعات نادرست تولید کنند، در بلندمدت اعتماد کاربران، پژوهشگران و حتی صنایع بزرگ به این فناوری از بین میرود.
همین الان هم شاهدیم که پزشکان، وکلا یا روزنامهنگاران از مدلها استفاده میکنند. در چنین حوزههایی، یک توهم ساده میتواند پیامدهای بزرگی داشته باشد. پس اصلاح شیوهی ارزیابی و پاداشدهی، نهتنها یک بهبود فنی بلکه یک ضرورت اجتماعی-فنی (socio-technical) است.
آیا میتوان توهم را کاملاً حذف کرد؟
مقالهی جدید بهخوبی نشان میدهد که دستکم در مدلهای فعلی، توهم یک ویژگی ذاتی است، نه یک اشکال گذرا.
یعنی هر مدلی که بخواهد زبان انسانی را بهصورت عمومی یاد بگیرد، محکوم است در برخی موارد خطا کند؛ بهویژه وقتی پای «حقایق پراکنده و تکنمونهای» مثل تاریخ تولد یک پژوهشگر یا نام پایاننامهی دکتری او در میان باشد.
با این حال، این به معنای تسلیم شدن نیست. درست مثل رانندگی با ماشین، ما میدانیم که احتمال خطا و تصادف صفر نمیشود، اما میتوانیم قوانین، ابزارهای ایمنی و سیستمهای کمکی طراحی کنیم تا ریسک به حداقل برسد.
تبدیل «دانشجوی درمانده» به «دانشجوی صادق»
شخصاً باور دارم مسیر آیندهی هوش مصنوعی باید بهسمت مدلهایی باشد که بتوانند:
۱. صادقانه عدم قطعیت را ابراز کنند (مثلاً بگویند: «با ۳۰٪ اطمینان فکر میکنم پاسخ این باشد…»).
۲. ابزارهای کمکی مثل جستجو یا محاسبه را هوشمندانه بهکار بگیرند تا وقتی مطمئن نیستند، سراغ منابع معتبر بروند.
۳. از خطاهای خودشان درس بگیرند و بتوانند در تعامل با کاربر، اطلاعات مشکوک را اصلاح کنند.
اگر چنین اصلاحاتی در ارزیابی و طراحی اعمال شود، مدلها میتوانند بهجای شاگردانی که برای نمره گرفتن همیشه جواب میسازند، تبدیل شوند به موجودات خردمندی که میدانند چه میدانند و چه نمیدانند!
جمعبندی
این مقاله به لحاظ موضوعی، بسیار دلگرمکننده بود؛ چون نشان میدهد پدیدهی توهم چیزی اسرارآمیز یا حلنشدنی نیست؛ بلکه یک پیامد طبیعی از انتخابهای آماری و شیوههای ارزیابی ماست.
و خبر خوب اینکه، همین که این مسئله شفافتر شده، یعنی میتوانیم با تغییر شیوههای آموزش و نمرهدهی، قدمهای بزرگی برای ساخت مدلهای قابلاعتمادتر برداریم.
احساس میکنم ما هیچوقت توهم را به صفر مطلق نمیرسانیم؛ همانطور که هیچ انسانی هم از خطا مصون نیست؛ اما میتوانیم کاری کنیم که مدلها بهجای «خطاهای قانعکننده»، صادقانه بگویند «نمیدانم.» به نظر من، این خودش یک پیشرفت انقلابی خواهد بود.