هوش مصنوعی LMArena و کاربردهاش چیه و چه‌طور ازش استفاده کنیم؟

آخرین تاریخ ویرایش : ۰۲ مهر ۱۴۰۴
9 دقیقه
2 نظر
هوش مصنوعی ال ام آرنا

هوش مصنوعی ال ام آرنا برای مقایسه انواع مدل‌های AI ساخته شده که به‌شکل آنلاین در دسترس همه کاربرها هست. این ابزار متن‌باز، همون Chatbot Arena سال ۲۰۲۳ هست که توسط محقق‌های دانشگاه کالیفرنیا، برکلی ساخته شد. هدف از توسعه و ارائه این ابزار، زمین مقایسه انواع مدل‌های هوش مصنوعی بوده و همچنان داره با قدرت زیاد به کارش ادامه می‌ده.

این رو بگم که می‌تونین هر مدل جدیدی که میاد و اجازه استفاده رایگان نمی‌ده رو با این پلتفرم تست کنین. حالا وقت بررسی چیستی این پلتفرم، کاربردها، معیارها و درک تفسیرهاش رسیده.

پلتفرم هوش مصنوعی LMArena چیه؟

این پلتفرم، فضایی برای مقایسه مدل‌ها براساس ترجیحات انسان‌ها فراهم کرده. یعنی شما واردش می‌شین و با سه حالت، به خروجی‌ها امتیاز می‌دین.

شما برای استفاده از این پلتفرم، پرامپت‌تون رو می‌نویسین و به‌شکل ناشناس، توسط دو مدل رقیب پاسخ داده می‌شن. بنابراین هر لحظه امکان دسترسی به مدل‌های پیش‌رو هوش مصنوعی، بررسی و تعامل با اون‌ها رو دارین.

مدل‌های پیش‌رو شامل چت با هوش مصنوعی و ابزار متن به عکس هستن که گاهی قبل از همگانی شدن، در پلن‌های پولی ارائه می‌شن؛ ولی با LMArena، می‌تونین به‌محض ارائه شدن و کاملا رایگان ازشون استفاده کنین.

وقتی به جواب‌ها رای بدین، پلتفرم مدل‌ها رو بهتون نشون می‌ده. این‌جوری متوجه می‌شین که برای یه کار خاص، چه هوش مصنوعی بهتره.

بیشتر بخوانید
پرامپت چیست و چگونه بنویسیم؟

سیستم رتبه‌بندی LMArena چه‌جوری عمل می‌کنه؟

هوش مصنوعی الم آرنا با استفاده از سیستم رتبه‌بندی Elo به مدل‌ها جایگاه می‌ده. این سیستم یه روش پرکاربرد برای رتبه‌بندی بازیکن‌های شطرنج و بازی‌های رقابتی دیگه هست. 

نمره‌های LMArena تو مقیاسی بین حدود هزار تا بیش از هزار امتیاز متغیر هستن. نمره‌های جدول تقریبا از حدود ۹۰۰ (برای رتبه‌های پایین) تا کمی بالاتر از ۱۴۰۰ (برای مدل‌هایی با بالاترین رتبه) متغیره. درواقع اعداد این سیستم رتبه‌بندی به‌جای حداقل و حداکثر امتیازهای ثابت و مطلق، رتبه‌بندی نسبی و قدرت مدل رو نشون می‌ده.

مثلا مدل برتر “Gemini 2.5 Pro” امتیاز ۱۴۵۶ داره؛ درحالی‌که مدل ChatGLM با ۹۹۴ امتیاز، پایین لیست قرار گرفته.

۵ کارکرد پلتفرم هوش مصنوعی LMArena

الم ارنا هوش مصنوعی های مختلف رو بررسی و ارزیابی می‌کنه. بنابراین بیشترین تمرکز کارکردهای اون روی توسعه مدل‌های جدید و بهینه هست.

۱. توسعه مدل‌های آینده

این پلتفرم برای انتشار پیش‌نمایش مدل‌های آینده، مثل سرویس تبدیل متن به گفتار مورد استفاده قرار می‌گیره؛ یعنی آزمایشگاه‌ AI شرکت‌های معروفی مثل گوگل، OpenAI، متا، آنتروپیک و غیره از خدمات هوش مصنوعی ال ام آرنا استفاده می‌کنن. هدف از این کار، اینه‌که هر مدل متناسب با خواسته‌ها و نیازهای کاربرها توسعه پیدا کنه. 

۲. ایجاد شفافیت در دنیای پرابهام AI

توسعه مدل‌های AI‌ در هاله‌ای از ابهام پیش می‌ره؛ ولی با هوش مصنوعی الم آرنا می‌شه تا حدی این ابهام رو کم کرد؛ چون LMArena تمام کدها و مجموعه داده‌های امتیازدهی رو به‌صورت علنی منتشر می‌کنه تا تحقیقات و شفافیت در توسعه مدل‌ها بیشتر بشه.

۳. توسعه نرم‌افزار

توسعه‌دهنده‌های AI از بازخورد الم ارنا هوش مصنوعی کارآمد می‌سازن. مثلا گاهی دستیارهای برنامه‌نویسی، ادغام‌ چت‌بات‌ها با خرده‌فروشی‌ها و سایر ابزارهای اتوماسیون‌سازی، فرزند این پلتفرم هستن.

۴. ساخت ربات‌های خدماتی

شرکت‌هایی که مدل‌های موجود رو Fine Tune می‌کنن یا برپایه اون‌ها ابزارهای جدید می‌سازن، می‌تونن توی LMArena نتایج عملکرد هر مدل رو ببینن. بنابراین درباره هر ابزار بینش‌های واقعی به‌دست میارن و می‌تونن با داده‌های موجود، تجربه کاربری و قابلیت اطمینان اتوماسیون رو افزایش بدن.

۵. ارائه‌دهنده‌ها و آزمایشگاه‌های مدل هوش مصنوعی

استفاده از هوش مصنوعی ال ام آرنا برای معیارسنجی بی‌طرفانه و ارزیابی ورودی‌های اکوسیستمش، به شرکت‌های سازنده AI کمک می‌کنه تا سیستم‌های قابل اعتماد و شفاف تولید کنن. 

حالت‌های مختلف برای مقایسه مدل‌ها در LMArena

برای مقایسه مدل‌ها توی هوش مصنوعی الم آرنا، سه گزینه پیش‌رو داریم. برای استفاده از این گزینه‌ها، روی Battle که بالای صفحه و سمت چپ هست کلیک کنین تا سه تا گزینه ببینین.

سه حالت مقایسه مدل‌های هوش مصنوعی در LMArena از طریق منوی Battle

۱. Battle

به‌اسم حالت نبرد هم می‌شناسیمش که برای روبه‌رویی دو مدل به‌کار می‌ره. در این حالت، شما پرامپت‌تون رو می‌نویسین و Enter می‌زنین تا پاسخ تولید بشه. هوش مصنوعی الم آرنا دو جواب بهتون نشون می‌ده که مشخص نیس از کدوم مدله. 

وقتی جواب سوال رو انتخاب کنین، پلتفرم بهتون نشون می‌ده کدوم مدل‌ها رو روبه‌روی هم گذاشته. چون این حالت به‌شکل ناشناس کار می‌کنه، پاسخ شما مستقیما روی جدول رتبه‌بندی تاثیر می‌ذاره. 

۲. Side by Side

تو این حالت شما دو مدل‌ رو انتخاب می‌کنین و پرامپت رو می‌نویسین. بنابراین مقایسه غیرقابل‌شناسایی تلقی می‌شه و تاثیری روی جدول رتبه‌بندی نداره. رای این حالت برای کارهای پژوهشی و تحقیقاتی استفاده می‌شه. 

۳. Direct Chat

اگه بخواین مدل‌های جدید که هنوز به‌صورت عمومی عرضه نشدن یا پولی هستن رو تست کنین، باید از این حالت استفاده کنین. کار با این حالت هیچ رتبه‌بندی نداره و نظرسنجی از شما انجام نمی‌شه. فقط برای کارهای پژوهشی و جمع‌آوری داده‌های واقعی ازشون بهره می‌برن.

ستون‌ها و اعداد هوش مصنوعی ال ام آرنا

اگه از سمت چپ روی آیکون جام کلیک کنین، چند گزینه می‌بینین.

ستون‌ها و اعداد رتبه‌بندی مدل‌های هوش مصنوعی در LMArena
مشاهده رتبه و امتیاز مدل‌های هوش مصنوعی در ستون‌های LMArena

این گزینه‌ها دسته‌بندی‌های رتبه‌دهی به مدل‌ها هست که اعداد هر ستون معیار خاصی رو نشون می‌ده.

دسته‌بندی‌ها و معیارهای رتبه‌دهی مدل‌های هوش مصنوعی در ستون‌های LMArena
نمایش معیارها و امتیازهای رتبه‌بندی مدل‌های هوش مصنوعی در LMArena

Rank (UB)

رتبه مدل و جایگاه اون رو بین بقیه هوش مصنوعی‌های مشابه‌ش نشون می‌ده. 

Model

اسم مدل یا نسخه‌ خاصی از مدل که توسط LMArena برای مقایسه استفاده شده، زیر این ستون نوشته می‌شه.

Score

این امتیاز به هر مدل‌ با اعداد متغیر داده می‌شه که بین ۹۰۰ تا کمی بیشتر از ۱۴۰۰ هست. مثلا اگر عملکرد مدلی خیلی خوب باشه، کمی بیشتر از ۱۴۰۰ امتیاز می‌گیره. اگر عملکرد مدلی چندان جالب نباشه،‌ می‌ره انتهای لیست و رتبه‌ش نزدیک به ۹۰۰ می‌شه.

Votes

تعداد کاربرهایی که تو حالت Battle، به پاسخ‌های این مدل رای دادن. اگر مدلی بیش از ۳۰۰۰ رای بیاره تو این جدول قرار می‌گیره. 

Organization

شرکت سازنده هوش مصنوعی رو نشون می‌ده.

License

مجوزهایی که هر مدل باهاش ساخته شده. عبارت “Proprietary” برای مدل‌هایی استفاده می‌شه که یه شرکت به‌صورت اختصاصی توسعه‌ش داده؛ مثل Gemini که گوگل توسعه داده و ChatGPT که متعلق به OpenAI هست.

مدل‌های متن باز مثل DeepSeek‌ مجوز متفاوتی دارن که زیر این ستون نوشته می‌شه.

بیشتر بخوانید
هوش مصنوعی stitch گوگل چیست؟

آموزش عملی استفاده از هوش مصنوعی ال ام آرنا

بعد از این‌که وارد سایت شدین، روی هر حالت از اون سه حالتی که بهتون نشون دادم کلیک کنین. من از حالت Direct Chat و مدل Claude Opus 4 استفاده کردم و پرامپت زیر رو بهش دادم:

استفاده از حالت Direct Chat در LMArena با مدل Claude Opus 4 و پرامپت نمونه
اجرای پرامپت در حالت Direct Chat مدل Claude Opus 4 در LMArena
پرامپت
what is LMArena platform?

استفاده از این پلتفرم توی حالت Side by Side هم به‌همین‌شکله؛ فقط بالای صفحه و کنار حالت، دوتا کادر می‌بینین که باید دو مدل‌ مدنظرتون رو انتخاب کنین.

حالت Battle کمی متفاوته. همون‌طور که توی تصویر زیر می‌بینین، یه پرامپت می‌دین و منتظر می‌مونین تا جواب تولید بشه.

چند گزینه پایین صفحه ظاهر می‌شه که به‌شکل زیر هستن:

نمایش حالت‌های Side by Side و Battle در LMArena برای مقایسه مدل‌های هوش مصنوعی
مشاهده گزینه‌های پاسخ و نتایج تولید شده مدل‌ها در LMArena
  • Left is Better: پاسخ سمت چپ بهتره
  • It’s a tie: پاسخ هر دو خوبه
  • Both are bad: هردو جواب‌های بی‌ربط دادن و خوب نبودن
  • Right is Better: جواب سمت راستی بهتره

جدول مقایسه رتبه‌ مدل‌ها در هوش مصنوعی ال ام آرنا

اگر روی آیکون جام (سمت چپ و پنل کناری) کلیک کنین چند گزینه می‌بینین. این گزینه‌ها برای تفکیک عملکرد هر مدل براساس کاربرد خاصی هست.

من روی Text کلیک کردم که ببینم توی تولید متن، کدوم مدل بهتر عمل کرده. تصویر زیر نشون می‌ده که کدوم مدل‌ها توی تولید متن تا الان بهتر عمل کردن.

بهترین مدل‌ها در تولید متن در LMArena بر اساس عملکرد کاربران
بهترین مدل‌ها در تولید متن در LMArena بر اساس عملکرد کاربران

ولی اگر روی WebDev کلیک کنم نتیجه عوض می‌شه و مدل هوش مصنوعی GPT-5 رو به‌عنوان رتبه اول می‌بینیم.

رتبه‌بندی مدل‌های هوش مصنوعی در بخش WebDev در LMArena با GPT-5 در رتبه اول
نمایش بهترین مدل در WebDev در LMArena: GPT-5 رتبه اول

دلیلش هم اینه‌که هر هوش مصنوعی برای یه‌کاری خوب عمل می‌کنه.

این بخش براساس دسته‌بندی‌های زیر تفکیک شده:

دسته‌بندی عملکرد مدل‌های هوش مصنوعی در LMArena بر اساس معیارهای مختلف
تفکیک مدل‌ها در LMArena براساس دسته‌بندی‌های عملکرد
  • Overall: رتبه کلی مدل‌ها
  • Hard Prompts: پرامپت‌های دشوار و پیچیده
  • Coding: کدنویسی
  • Math: مسائل ریاضی و منطقی
  • Creative Writing: نوشتن متن‌های خلاقانه
  • Instruction Following: پیروی از دستورالعمل‌ها به‌شکل دقیق و موبه‌مو
  • Longer Query: پرسش‌های طولانی
  • Multi-Turn: گفت‌وگوهای چندمرحله‌ای

مرور قابلیت‌ها و امکانات هوش مصنوعی ال ام آرنا

پلتفرم الم ارنا هوش مصنوعی ارزیابی مدل‌های مختلف در دنیا هست. نمره امتیازدهی این سیستم از ۹۰۰ تا کمی بیشتر از ۱۴۰۰ هست و می‌تونه توی آزمایشگاه‌های هوش مصنوعی، توسعه مدل‌های جدید و ساخت ربات‌های خدماتی استفاده بشه.

سوال‌های متداولی که شما می‌پرسین

۱. هوش مصنوعی ال ام آرنا چیه؟

پلتفرمی برای تست عملکرد مدل‌های مختلف که امکان دسترسی آزاد و رایگان به همه مدل‌ها رو می‌ده.

۲. چجوری می‌شه از LMArena استفاده کرد؟

همین اسم رو توی گوگل سرچ کنین و بعد از باز شدن سایت، با استفاده از گزینه‌های Battle و Side by Side، پرامپت بنویسین و خروجی بگیرین.

۳. آیا امکان استفاده از ابزارهای پولی در LMArena هست؟

بله. پلتفرم رو روی حالت Direct Chat بذارین و مدل مدنظرتون رو انتخاب کنین.

نگین فاتحی
نگین فاتحی کارشناس محتوای متنی حوزه هوش مصنوعی
از نوجوونی به صنعت تکنولوژی علاقه‌مند شدم و سال ۲۰۲۲ که ChatGPT حسابی غوغا کرد، شورواشتیاقم رو در حوزه AI متمرکز کردم.
اشتراک گذاری
ثبت نظر
نظرات کاربران
محسن قشلاقی
2 روز قبل

سلام .خیلی خوب بود

لاله
2 روز قبل

تغییر استایل

اپلیکیشن ویرا