هشدار کارشناسان: بیشتر آزمونهای ارزیابی ایمنی و عملکرد هوش مصنوعی دارای نقصهای جدی هستند
کارشناسان حوزه هوش مصنوعی اخیراً با بررسی بیش از ۴۴۰ بنچمارک یا آزمون استاندارد که برای ارزیابی ایمنی و عملکرد مدلهای جدید هوش مصنوعی طراحی شدهاند، به نقصهای جدی و گستردهای در این تستها پی بردهاند. پژوهشگران موسسه امنیت هوش مصنوعی بریتانیا و دانشگاههای استنفورد، برکلی و آکسفورد گزارش دادند که تقریباً همه این آزمونها در حداقل یک جنبه ضعف دارند و در نتیجه نتایج آنها میتواند گمراهکننده یا بیربط باشد.
این بنچمارکها نقش حیاتی در بررسی قابلیتهای مدلهای هوش مصنوعی، از جمله تواناییهای ریاضی، برنامهنویسی، همراستایی با منافع انسانی و ایمنی دارند. اندرو بین، پژوهشگر موسسه اینترنت آکسفورد و نویسنده ارشد مطالعه، تأکید میکند: «بدون تعاریف مشترک و سنجش دقیق، تشخیص واقعی پیشرفت مدلها بسیار دشوار میشود و ممکن است به ظاهر موفقیت دست یابیم اما واقعاً بهبود نداشته باشیم.»
نمونهای از پیامدهای جدی این ضعفها را میتوان در مدل AI گوگل، Gemma، مشاهده کرد. این مدل اتهامات بیپایه و غیرواقعی علیه یک سناتور آمریکایی منتشر کرد که منجر به واکنش شدید مقامات شد و گوگل مجبور به حذف این مدل از پلتفرم AI Studio شد. در بیانیه گوگل آمده است که مدلهای Gemma برای توسعهدهندگان و پژوهشگران طراحی شده و نه برای مصرفکنندگان عمومی، اما این رویداد نشاندهنده خطرات واقعی ناشی از نقص در ارزیابیهاست.
همچنین اخیراً شرکت Character.ai دسترسی نوجوانان به چتباتهای هوش مصنوعی خود را محدود کرده است؛ اقدامی که پس از چندین حادثه ناگوار، از جمله خودکشی یک نوجوان ۱۴ ساله در فلوریدا و پرونده قضایی مرتبط با آسیب به خود و دیگران، انجام شد.
نتایج این پژوهش همچنین نشان داد که تنها ۱۶٪ از بنچمارکها از آزمونهای آماری یا برآورد عدم قطعیت برای سنجش دقت استفاده میکنند و بسیاری از مفاهیم کلیدی مانند «بیخطر بودن» مدلها بهدرستی تعریف نشدهاند. پژوهشگران بر لزوم ایجاد استانداردها و رویههای مشترک در ارزیابیهای هوش مصنوعی تأکید کردهاند.
تبدیل عکس به کمیک با هوش مصنوعی؛ آموزش کامل با اپ ویرا
تبدیل عکس به نقاشی با هوش مصنوعی: راهنمای کامل و معرفی بهترین ابزارها
بهترین هوش مصنوعی جایگزین چتجیپیتی
هوش مصنوعی چیست؟