هوش مصنوعی ال ام آرنا برای مقایسه انواع مدلهای AI ساخته شده که بهشکل آنلاین در دسترس همه کاربرها هست. این ابزار متنباز، همون Chatbot Arena سال ۲۰۲۳ هست که توسط محققهای دانشگاه کالیفرنیا، برکلی ساخته شد. هدف از توسعه و ارائه این ابزار، زمین مقایسه انواع مدلهای هوش مصنوعی بوده و همچنان داره با قدرت زیاد به کارش ادامه میده.
این رو بگم که میتونین هر مدل جدیدی که میاد و اجازه استفاده رایگان نمیده رو با این پلتفرم تست کنین. حالا وقت بررسی چیستی این پلتفرم، کاربردها، معیارها و درک تفسیرهاش رسیده.
پلتفرم هوش مصنوعی LMArena چیه؟
این پلتفرم، فضایی برای مقایسه مدلها براساس ترجیحات انسانها فراهم کرده. یعنی شما واردش میشین و با سه حالت، به خروجیها امتیاز میدین.
شما برای استفاده از این پلتفرم، پرامپتتون رو مینویسین و بهشکل ناشناس، توسط دو مدل رقیب پاسخ داده میشن. بنابراین هر لحظه امکان دسترسی به مدلهای پیشرو هوش مصنوعی، بررسی و تعامل با اونها رو دارین.
مدلهای پیشرو شامل چت با هوش مصنوعی و ابزار متن به عکس هستن که گاهی قبل از همگانی شدن، در پلنهای پولی ارائه میشن؛ ولی با LMArena، میتونین بهمحض ارائه شدن و کاملا رایگان ازشون استفاده کنین.
وقتی به جوابها رای بدین، پلتفرم مدلها رو بهتون نشون میده. اینجوری متوجه میشین که برای یه کار خاص، چه هوش مصنوعی بهتره.
سیستم رتبهبندی LMArena چهجوری عمل میکنه؟
هوش مصنوعی الم آرنا با استفاده از سیستم رتبهبندی Elo به مدلها جایگاه میده. این سیستم یه روش پرکاربرد برای رتبهبندی بازیکنهای شطرنج و بازیهای رقابتی دیگه هست.
نمرههای LMArena تو مقیاسی بین حدود هزار تا بیش از هزار امتیاز متغیر هستن. نمرههای جدول تقریبا از حدود ۹۰۰ (برای رتبههای پایین) تا کمی بالاتر از ۱۴۰۰ (برای مدلهایی با بالاترین رتبه) متغیره. درواقع اعداد این سیستم رتبهبندی بهجای حداقل و حداکثر امتیازهای ثابت و مطلق، رتبهبندی نسبی و قدرت مدل رو نشون میده.
مثلا مدل برتر “Gemini 2.5 Pro” امتیاز ۱۴۵۶ داره؛ درحالیکه مدل ChatGLM با ۹۹۴ امتیاز، پایین لیست قرار گرفته.
۵ کارکرد پلتفرم هوش مصنوعی LMArena
الم ارنا هوش مصنوعی های مختلف رو بررسی و ارزیابی میکنه. بنابراین بیشترین تمرکز کارکردهای اون روی توسعه مدلهای جدید و بهینه هست.
۱. توسعه مدلهای آینده
این پلتفرم برای انتشار پیشنمایش مدلهای آینده، مثل سرویس تبدیل متن به گفتار مورد استفاده قرار میگیره؛ یعنی آزمایشگاه AI شرکتهای معروفی مثل گوگل، OpenAI، متا، آنتروپیک و غیره از خدمات هوش مصنوعی ال ام آرنا استفاده میکنن. هدف از این کار، اینهکه هر مدل متناسب با خواستهها و نیازهای کاربرها توسعه پیدا کنه.
۲. ایجاد شفافیت در دنیای پرابهام AI
توسعه مدلهای AI در هالهای از ابهام پیش میره؛ ولی با هوش مصنوعی الم آرنا میشه تا حدی این ابهام رو کم کرد؛ چون LMArena تمام کدها و مجموعه دادههای امتیازدهی رو بهصورت علنی منتشر میکنه تا تحقیقات و شفافیت در توسعه مدلها بیشتر بشه.
۳. توسعه نرمافزار
توسعهدهندههای AI از بازخورد الم ارنا هوش مصنوعی کارآمد میسازن. مثلا گاهی دستیارهای برنامهنویسی، ادغام چتباتها با خردهفروشیها و سایر ابزارهای اتوماسیونسازی، فرزند این پلتفرم هستن.
۴. ساخت رباتهای خدماتی
شرکتهایی که مدلهای موجود رو Fine Tune میکنن یا برپایه اونها ابزارهای جدید میسازن، میتونن توی LMArena نتایج عملکرد هر مدل رو ببینن. بنابراین درباره هر ابزار بینشهای واقعی بهدست میارن و میتونن با دادههای موجود، تجربه کاربری و قابلیت اطمینان اتوماسیون رو افزایش بدن.
۵. ارائهدهندهها و آزمایشگاههای مدل هوش مصنوعی
استفاده از هوش مصنوعی ال ام آرنا برای معیارسنجی بیطرفانه و ارزیابی ورودیهای اکوسیستمش، به شرکتهای سازنده AI کمک میکنه تا سیستمهای قابل اعتماد و شفاف تولید کنن.
حالتهای مختلف برای مقایسه مدلها در LMArena
برای مقایسه مدلها توی هوش مصنوعی الم آرنا، سه گزینه پیشرو داریم. برای استفاده از این گزینهها، روی Battle که بالای صفحه و سمت چپ هست کلیک کنین تا سه تا گزینه ببینین.

۱. Battle
بهاسم حالت نبرد هم میشناسیمش که برای روبهرویی دو مدل بهکار میره. در این حالت، شما پرامپتتون رو مینویسین و Enter میزنین تا پاسخ تولید بشه. هوش مصنوعی الم آرنا دو جواب بهتون نشون میده که مشخص نیس از کدوم مدله.
وقتی جواب سوال رو انتخاب کنین، پلتفرم بهتون نشون میده کدوم مدلها رو روبهروی هم گذاشته. چون این حالت بهشکل ناشناس کار میکنه، پاسخ شما مستقیما روی جدول رتبهبندی تاثیر میذاره.
۲. Side by Side
تو این حالت شما دو مدل رو انتخاب میکنین و پرامپت رو مینویسین. بنابراین مقایسه غیرقابلشناسایی تلقی میشه و تاثیری روی جدول رتبهبندی نداره. رای این حالت برای کارهای پژوهشی و تحقیقاتی استفاده میشه.
۳. Direct Chat
اگه بخواین مدلهای جدید که هنوز بهصورت عمومی عرضه نشدن یا پولی هستن رو تست کنین، باید از این حالت استفاده کنین. کار با این حالت هیچ رتبهبندی نداره و نظرسنجی از شما انجام نمیشه. فقط برای کارهای پژوهشی و جمعآوری دادههای واقعی ازشون بهره میبرن.
ستونها و اعداد هوش مصنوعی ال ام آرنا
اگه از سمت چپ روی آیکون جام کلیک کنین، چند گزینه میبینین.

این گزینهها دستهبندیهای رتبهدهی به مدلها هست که اعداد هر ستون معیار خاصی رو نشون میده.

Rank (UB)
رتبه مدل و جایگاه اون رو بین بقیه هوش مصنوعیهای مشابهش نشون میده.
Model
اسم مدل یا نسخه خاصی از مدل که توسط LMArena برای مقایسه استفاده شده، زیر این ستون نوشته میشه.
Score
این امتیاز به هر مدل با اعداد متغیر داده میشه که بین ۹۰۰ تا کمی بیشتر از ۱۴۰۰ هست. مثلا اگر عملکرد مدلی خیلی خوب باشه، کمی بیشتر از ۱۴۰۰ امتیاز میگیره. اگر عملکرد مدلی چندان جالب نباشه، میره انتهای لیست و رتبهش نزدیک به ۹۰۰ میشه.
Votes
تعداد کاربرهایی که تو حالت Battle، به پاسخهای این مدل رای دادن. اگر مدلی بیش از ۳۰۰۰ رای بیاره تو این جدول قرار میگیره.
Organization
شرکت سازنده هوش مصنوعی رو نشون میده.
License
مجوزهایی که هر مدل باهاش ساخته شده. عبارت “Proprietary” برای مدلهایی استفاده میشه که یه شرکت بهصورت اختصاصی توسعهش داده؛ مثل Gemini که گوگل توسعه داده و ChatGPT که متعلق به OpenAI هست.
مدلهای متن باز مثل DeepSeek مجوز متفاوتی دارن که زیر این ستون نوشته میشه.
آموزش عملی استفاده از هوش مصنوعی ال ام آرنا
بعد از اینکه وارد سایت شدین، روی هر حالت از اون سه حالتی که بهتون نشون دادم کلیک کنین. من از حالت Direct Chat و مدل Claude Opus 4 استفاده کردم و پرامپت زیر رو بهش دادم:

پرامپت |
what is LMArena platform? |
استفاده از این پلتفرم توی حالت Side by Side هم بههمینشکله؛ فقط بالای صفحه و کنار حالت، دوتا کادر میبینین که باید دو مدل مدنظرتون رو انتخاب کنین.
حالت Battle کمی متفاوته. همونطور که توی تصویر زیر میبینین، یه پرامپت میدین و منتظر میمونین تا جواب تولید بشه.
چند گزینه پایین صفحه ظاهر میشه که بهشکل زیر هستن:

- Left is Better: پاسخ سمت چپ بهتره
- It’s a tie: پاسخ هر دو خوبه
- Both are bad: هردو جوابهای بیربط دادن و خوب نبودن
- Right is Better: جواب سمت راستی بهتره
جدول مقایسه رتبه مدلها در هوش مصنوعی ال ام آرنا
اگر روی آیکون جام (سمت چپ و پنل کناری) کلیک کنین چند گزینه میبینین. این گزینهها برای تفکیک عملکرد هر مدل براساس کاربرد خاصی هست.
من روی Text کلیک کردم که ببینم توی تولید متن، کدوم مدل بهتر عمل کرده. تصویر زیر نشون میده که کدوم مدلها توی تولید متن تا الان بهتر عمل کردن.

ولی اگر روی WebDev کلیک کنم نتیجه عوض میشه و مدل هوش مصنوعی GPT-5 رو بهعنوان رتبه اول میبینیم.

دلیلش هم اینهکه هر هوش مصنوعی برای یهکاری خوب عمل میکنه.
این بخش براساس دستهبندیهای زیر تفکیک شده:

- Overall: رتبه کلی مدلها
- Hard Prompts: پرامپتهای دشوار و پیچیده
- Coding: کدنویسی
- Math: مسائل ریاضی و منطقی
- Creative Writing: نوشتن متنهای خلاقانه
- Instruction Following: پیروی از دستورالعملها بهشکل دقیق و موبهمو
- Longer Query: پرسشهای طولانی
- Multi-Turn: گفتوگوهای چندمرحلهای
مرور قابلیتها و امکانات هوش مصنوعی ال ام آرنا
پلتفرم الم ارنا هوش مصنوعی ارزیابی مدلهای مختلف در دنیا هست. نمره امتیازدهی این سیستم از ۹۰۰ تا کمی بیشتر از ۱۴۰۰ هست و میتونه توی آزمایشگاههای هوش مصنوعی، توسعه مدلهای جدید و ساخت رباتهای خدماتی استفاده بشه.
سوالهای متداولی که شما میپرسین
پلتفرمی برای تست عملکرد مدلهای مختلف که امکان دسترسی آزاد و رایگان به همه مدلها رو میده.
همین اسم رو توی گوگل سرچ کنین و بعد از باز شدن سایت، با استفاده از گزینههای Battle و Side by Side، پرامپت بنویسین و خروجی بگیرین.
بله. پلتفرم رو روی حالت Direct Chat بذارین و مدل مدنظرتون رو انتخاب کنین.
سلام .خیلی خوب بود
تغییر استایل