معماری MoE به زبون خیلی ساده؛ Mixture of Experts در هوش مصنوعی‌های معروف چیه و چطور کار می‌کنه؟

نگین فاتحی (کارشناس محتوای متنی حوزه هوش مصنوعی)

آخرین تاریخ ویرایش : ۲۳ مهر ۱۴۰۴

17 دقیقه

0 نظر

کپی کردن آدرس بلاگ

معماری MoE با بهینه و هوشمند کردن ساختار آموزش مدل‌های هوش مصنوعی، تونسته چنان کارایی خوبی از خودش نشون بده که الان توی مدل‌های بزرگ و معروفی مثل GPT-4، Gemini و DeepSeek می‌بینیمش. این معماری باعث بالا رفتن عملکرد هوش مصنوعی می‌شه؛ بدون این‌که مجبور به اضافه کردن منابع پردازشی یا صرف هزینه بیشتر باشیم.

معماری MoE اومده تا دغدغه مالی و پردازشی شرکت‌های توسعه‌دهنده AI رو کمتر کنه؛ مثل هزینه دیتاسنترها و سخت‌افزارها که اساس‌ و پایه این مدل‌ها هستن و البته خیلی گرون. این ساختار در کنار تمام خوبی‌هایی که داره، یه‌سری چالش‌ هم داره که توی این مقاله درباره همه‌شون صحبت خواهم کرد.

Mixture of Experts چیست؟

معماری MoE یه معماری یادگیری ماشین هست که از چند بخش کوچک‌تر برای انجام یه کار استفاده می‌کنه.

تصور کنین توی یه اتاق نشستین و ۱۰ نفر دیگه هم اونجا هستن. وقتی یه سوال درباره معادله ریاضی می‌پرسین همه جواب می‌دن. در این حالت کلی زمان هدر می‌ره، توجه‌تون رو باید به تمام افراد بدین و در نهایت ممکنه به جواب‌تون نرسین.

حالا تصور کنین توی همون اتاق با ۱۰ نفر دیگه هستین. می‌دونین که کدوم فرد تو ریاضی قوی‌تره. پس سوال‌تون رو مستقیم از اون می‌پرسین؛ نه کل افراد حاضر توی اتاق. به احتمال زیاد جواب درست رو هم می‌گیرین.

این دقیقا روش کار MoE هست. وقتی یه پرامپت می‌نویسیم و دکمه Enter رو می‌زنیم، هوش مصنوعی با معماری MoE به اجزای کوچک تقسیمش می‌کنه و هر بخش رو به متخصص اون‌ کار می‌سپاره.

با معماری MoE مدل هوش مصنوعی مجبور نیست برای هر کار، کل پارامترهاش رو بیاره وسط و ازشون بخواد کار رو انجام بدن؛ بلکه پارامترهای خاصی رو فعال می‌کنه که هرکدوم‌شون متخصصی تو یه زمینه هستن.

مثال واقعی و خیلی ساده از معماری MoE

سناریو زیر رو تصور کنین:

می‌خواین یه معلم با هوش مصنوعی بسازیم که به دانش‌آموزها توی درس‌های مختلف کمک می‌کنه.

یه ابزار رو در نظر می‌گیریم که هرکدوم توی درس‌های زیر خوب هستن:

۱. متخصص A: ریاضی

۲. متخصص B: تاریخ ایران

۳. متخصص C: دستور زبان فارسی

وقتی دانش‌آموز می‌پرسه:

«۷ × ۸ چند می‌شه؟»

هوش مصنوعی متخصص A (ریاضی) رو فعال می‌کنه.

حالا دانش‌آموز دیگه‌ای می‌پرسه:

«اولین رئیس جمهور ایران کی بود؟»

AI متخصص B (تاریخ ایران) رو فرا می‌خونه.

دانش‌آموز سوم می‌پرسه:

«کدوم درسته؟ هضم یا هزم؟»

هوش مصنوعی متخصص C (دستور زبان فارسی) رو صدا می‌زنه تا جواب این دانش‌آموز رو بده.

اجزای معماری Mixture of Experts چیست؟

اول تصویر زیر رو ببینین تا مفهوم و روش کارکرد این معماری رو بهتر متوجه بشین:

مدل‌های MoE تعدادی متخصص رو انتخاب می‌کنن که هرکدوم‌شون زیرشبکه خودشون رو توی یه شبکه عصبی بزرگ‌تر دارن. این متخصص‌ها داده‌ها رو پردازش می‌کنن و یه شبکه دروازه‌ای (یا روتر) رو آموزش می‌دن. هدف از این آموزش اینه‌که فقط متخصص یا متخصص‌های مشخصی که برای یه ورودی معین مناسب‌تر هستن، فعال بشن؛ نه تمام متخصص‌ها.

حالا بریم تا این لایه‌ها رو باز کنیم و دقیق متوجه بشیم که معماری MoE در هوش مصنوعی چجوری کار می‌کنه.

متخصص‌ها

واحد دیجیتال مارکتینگ یه شرکت رو در نظر بگیرین که از واحدهای کوچک‌تر مثل بازاریابی محتوا، سئو و سوشال مدیا تشکیل شده. متخصص‌های معماری MoE مثل این واحدهای کوچک‌تر هستن که به کارشون تسلط کافی دارن.

Experts زیرشبکه‌های مستقل هستن که هرکدمشون توی پردازش و مدیریت یه‌سری از وظایف تخصص دارن. درحال‌حاضر این متخصص‌ها، MLP (مخفف “Multilayer Perceptron”) هستن. MLP نوعی یادگیری عمیق از نوع پیش‌خور هست که برای کارهایی مثل طبقه‌بندی و رگرسیون استفاده می‌شه.

پیش‌خورها توی شبکه عصبی مصنوعی، اطلاعات رو توی یه جهت واحد و روبه‌جلو هدایت می‌کنن. یعنی اطلاعات رو از لایه ورودی می‌گیرن، از طریق لایه‌های پنهان می‌فرستن به لایه خروجی؛ بدون این‌که حلقه یا بازخوردی بین این لایه‌ها باشه. به عبارت دیگه، خروجی یه لایه بدون هیچ چرخه‌ای به لایه بعدی منتقل می‌شه.

تو شبکه‌های پیش‌خور، مدل با تنظیم وزن اتصال‌ها از طریق فرآیندی به اسم پس‌انتشار، پردازش و کار روی وروردی‌های مختلف رو یاد می‌گیره.

دروازه‌ یا روتر

Routing Network در MoE مثل مدیری هست که تصمیم می‌گیره کدوم متخصص برای هر بخش از ورودی مناسب‌تر هست. این واحد MoE به ورودی نگاه می‌کنه و تشخیص می‌ده که کدوم Expert باید روی چه چیزی کار کنه.

این بخش – که با اسم Gating Network در MoE توی علوم کامپیوتر معروف هست – یه شبکه عصبی کوچک هست که یاد می‌گیره داده‌های ورودی رو تجزیه‌وتحلیل کنه و مشخص کنه که کدوم متخصص‌ها برای مدیریت اون مناسب‌تر هستن.

روتر این کار رو با اختصاص دادن یه وزن (Weight) یا امتیاز اهمیت (Importance Score) به هر متخصص و بر اساس ویژگی‌های ورودی انجام می‌ده. بعد از این فرآیند، متخصص‌هایی که بالاترین وزن رو به‌دست آوردن برای پردازش داده‌ها انتخاب می‌شن.

مسیریابی

برای این‌که مناسب‌ترین متخصص انتخاب بشه، روتر از روش‌هایی برای مسیریابی و رسیدن به متخصص برتر استفاده می‌کنه. به این روش‌ها می‌گیم الگوریتم‌های مسیریابی یا “Routing Algorithms” که سه مورد از متداول‌ترین اون‌ها، روش‌های زیر هستن:

۱. مسیریابی Top-k: این روش ساده‌ترین روش هست. شبکه دروازه‌ای، “k” متخصص برتر رو با بالاترین امتیاز انتخاب می‌کنه و داده‌های ورودی رو برای اون‌ها می‌فرسته.

۲. مسیریابی انتخاب متخصص: توی این روش Routing، به‌جای این‌که داده‌ها متخصص‌ها رو انتخاب کنن، خودِ متخصص‌ها تصمیم می‌گیرن که کدوم داده‌ها رو می‌تونن به بهترین شکل مدیریت کنن. هدف این استراتژی دستیابی به بهترین تعادل بار هست تا نگاشت داده‌ها به متخصص‌ها به‌شکل متنوعی پیش بره.

۳. مسیریابی پراکنده: این رویکرد رو معماری Sparse Models هم می‌گیم که فقط چند متخصص رو برای هر قطعه داده فعال می‌کنه و یه شبکه پراکنده می‌سازه. مسیریابی پراکنده در مقایسه با مسیریابی متراکم – که همه متخصص‌ها برای هر قطعه داده فعال می‌شن – از قدرت محاسباتی کمتری استفاده می‌کنه.

معماری MoE چجوری کار می‌کنه؟

ساختار Mixture of Experts برپایه دو مرحله جلو می‌ره:

۱. مرحله آموزش

۲. مرحله استنتاج

هرکدوم از این مراحل بخش‌های کوچک‌تری دارن که در ادامه باهاشون آشنا می‌شین.

مرحله آموزش

مشابه مدل‌های دیگه یادگیری ماشین، شروع کار معماری MoE با آموزش روی یه مجموعه داده استارت می‌خوره. تنها تفاوت با معماری‌هایی مثل مدل ترنسفورمر اینه‌که فرآیند آموزش روی کل مدل اعمال نمی‌شه؛ بلکه روی اجزای اون و به‌صورت جداگانه انجام می‌شه.

آموزش متخصص‌ها

هر جز از MoE تحت آموزش، روی یه زیرمجموعه خاص از داده‌ها یا وظایف قرار می‌گیره. هدف اینه‌که این اجزا بتونن روی جنبه خاصی از یه مسئله گسترده‌تر تمرکز کنن.

این تمرکز با ارائه داده‌های مربوط به وظیفه محول‌شده به هر جز ممکن می‌شه. مثلا برای کاری مثل پردازش زبان طبیعی و ترجمه متن‌ها، یه جز ممکنه روی قواعد زبانی و جز دیگه روی معناشناسی تمرکز کنه.

آموزش شبکه دروازه‌ای

وظیفه شبکه دروازه‌ای اینه‌که یاد بگیره مناسب‌ترین متخصص رو برای یه ورودی مشخص انتخاب کنه.

توی فرآیند آموزش شبکه دروازه‌ای، متخصص‌های آموزش‌دیده هم حضور دارن. درواقع Gating Network در MoE همون ورودی‌ای رو می‌گیره که متخصص‌ها گرفته بودن و از این ورودی یاد می‌گیره که توزیع احتمال رو روی متخصص‌ها پیش‌بینی کنه. این توزیع نشون می‌ده که کدوم متخصص برای مدیریت ورودی فعلی مناسب‌تر هست.

آموزش مشترک

توی مرحله آموزش مشترک، کل سیستم MoE که از مدل‌های خبره و شبکه دروازه‌ای تشکیل شده، باهم آموزش داده می‌شن.

این استراتژی تضمین می‌کنه که هم شبکه دروازه‌ای و هم متخصص‌ها، برای یه کار واحد هماهنگ و بهینه شدن.

مرحله استنتاج

استنتاج (Inference) مرحله‌ای هست که خروجی‌ها تولید می‌شن. این خروجی ترکیبی از عملکرد کلی شبکه دروازه‌ای، درک اون از زمینه ورودی و جواب‌های متخصص‌ها هست.

مسیریابی ورودی

بعد از دریافت ورودی، شبکه دروازه‌ای اون رو ارزیابی می‌کنه و یه توزیع احتمال رو توی تمام متخصص‌ها می‌سازه. در نهایت ورودی رو به سمت مناسب‌ترین متخصص‌ها هدایت می‌کنه و از الگوهای آموخته‌شده در طول مرحله آموزش کمک می‌گیره.

انتخاب متخصص

فقط چند متخصص برای پردازش هر ورودی انتخاب می‌شن. این انتخاب هم توسط شبکه دروازه‌ای، براساس احتمالات اختصاص داده‌شده به هر Expert انجام می‌شه.

انتخاب تعداد محدودی از متخصص‌ها برای هر ورودی، اجازه می‌ده که هوش مصنوعی با معماری MoE از منابع محاسباتی به‌صورت بهینه‌ای استفاده کنه و درعین‌حال، از دانش عمیق هر Expert سود می‌بره.

ترکیب خروجی

آخرین مرحله توی فرآیند استنتاج، ادغام خروجی‌ متخصص‌های منتخب هست. معمولا برای ترکیب خروجی‌ها، Gating Network در MoE از یه روش میانگین‌گیری استفاده می‌کنه. میانگین‌گیری نشون می‌ده که شبکه دروازه‌ای به هر Expert چه‌قدر اهمیت داده و خروجی اون رو معتبر می‌دونه.

البته توی سناریوهای خاص، روش‌های جایگزین مثل رای‌گیری یا تکنیک‌های ترکیبی آموخته‌شده برای ادغام خروجی‌های Experts به‌کار می‌ره.

مزایای معماری Mixture of Experts چیست؟

مزیت اصلی رویکرد MoE اینه‌که با اعمال پراکندگی ورودی روی شبکه متخصص‌ها به‌جای فعال کردن کل شبکه عصبی، ظرفیت مدل رو بالا می‌بره و هزینه‌های محاسباتی رو ثابت نگه می‌داره.

افزایش عملکرد

ساختار Mixture of Experts جوریه‌ که به‌شکل گزینشی پیش می‌ره. یعنی فقط متخصص‌های مرتبط رو برای یه کار مشخص فعال می‌کنه. بنابراین محاسبات غیرضروری انجام نمی‌شه و سرعت مدل AI بالا می‌ره. در کنار این مزایا، مصرف منابع پردازشی هم کمتر می‌شه.

انعطاف‌پذیری در برابر کارهای مختلف

همون‌طور که توضیح دادم، متخصص‌ها به‌صورت جداگونه آموزش داده می‌شن. پس می‌شه گفت که هر متخصص کارش رو به‌خوبی یاد می‌گیره و باعث می‌شه که انعطاف مدل‌ MoE خیلی بالا بره.

در واقع اتفاقی که می‌افته اینه‌که با هر ورودی، شبکه دروازه‌ای Expertهایی با قابلیت‌های خاص رو صدا می‌زنن. نتیجه می‌شه موفقیت مدل MoE توی طیف وسیعی از وظایف.

تحمل بالای خطا

رویکرد تقسیم و حل (Divide and Conquer) معماری MoE در مدل‌های زبانی بزرگ، روشی هست که توی اون وظایف به‌شکل جداگونه اجرا می‌شن. بنابراین انعطاف‌پذیری مدل در برابر شکست‌ها افزایش پیدا می‌کنه و اگر یه متخصص با مشکلی مواجه بشه، روی عملکرد کل مدل تاثیر نمی‌ذاره.

مقیاس‌پذیری گسترده

تجزیه مشکلات پیچیده به وظایف کوچک‌تر و قابل مدیریت‌تر، به مدل‌های MoE کمک می‌کنه تا ورودی‌های پیچیده‌تر رو به‌راحتی مدیریت کنن. در آینده هم اگر شرکت‌های توسعه‌دهنده AI بخوان این معماری رو بهینه‌تر و پیشرفته‌تر کنن، کافیه برای آموزش دقیق‌تر این متخصص‌ها وقت بذارن؛ نه روی کل معماری.

معایب معماری MoE چیست؟

معماری MoE در هوش مصنوعی برای سناریوهایی که به توان عملیاتی بالا و متشکل از چندین ماشین‌ نیاز دارن، عملکرد خوبی ارائه می‌دن. بااین‌حال، مدل‌های پراکنده برای این‌که کارشون رو خوب انجام بدن به حافظه زیادی نیاز دارن؛ چون همه متخصص‌های این معماری باید توی حافظه ذخیره بشن. این چالش یه محدودیت جدی توی سیستم‌هایی با VRAM کم هست.

معایب MoE موارد دیگه‌ای هم هستن که در ادامه اون‌ها رو توضیح می‌دم.

پیچیدگی آموزش

آموزش مدل‌های MoE پیچیده‌تر از آموزش یه مدل واحد هست. دلیل این پیچیدگی موارد زیر هستن.

سختی در هماهنگی شبکه‌ها

توی معماری MoE به یه شبکه دروازه‌ای واحد نیاز هست تا یاد بگیره چجوری ورودی‌ها رو به‌شکل درستی به سمت متخصص‌های مناسب هدایت کنه؛ درحالی‌که هر متخصص به زمینه‌ها و داده‌های مختلف تسلط کافی داره. متعادل کردن این موضوع گاهی سخت و پرهزینه می‌شه.

بهینه‌سازی کند

تابع زیانی که تو مرحله آموزش مشترک به‌کار می‌ره، باید عملکرد متخصص‌ها و شبکه دروازه‌ای رو متعادل کنه. این موضوع فرآیند بهینه‌سازی مدل رو پیچیده می‌کنه و باعث می‌شه که در طولانی مدت، امکان عیب‌یابی بخش‌های مدل زمان زیادی ببره.

چالش در تنظیم ابرپارامتر

مدل‌های MoE ابرپارامترهای (Hyperparameter) بیشتری دارن. مثلا دوتا از این ابرپارامترها تعداد متخصص‌ها و معماری شبکه دروازه‌ای هستن. تنظیم درست و اصولی این ابرپارامترها زمان‌بر و پیچیده هست.

کارایی استنتاج

استنتاج توی معماری MoE به عوامل زیر بستگی داره که در مجموع باعث افت کارایی مدل می‌شن.

محاسبات اضافی توسط شبکه دروازه‌ای

ازاونجایی‌که شبکه دروازه‌ای باید برای هر ورودی اجرا بشه تا متخصص‌های مناسب رو مشخص کنه، محاسبات اضافی و بعضا غیرضروری روی دوش منابع پردازشی می‌افته.

فرآیند زمان‌بر انتخاب و فعال‌سازی متخصص

درسته که برای هر ورودی فقط زیرمجموعه‌ای از متخصص‌ها فعال می‌شه، اما انتخاب و فعال‌سازی اون‌ها معادل سربار اضافی روی منابع هستن که زمان استنتاج رو بی‌جهت بالا می‌برن.

موازی‌سازی پرچالش‌

اجرای چندین متخصص به‌صورت موازی چالش‌برانگیزه؛ به‌خصوص توی محیط‌هایی که منابع محاسباتی محدودی دارن. موازی‌سازی موثر نیاز به برنامه‌ریزی کاملا اصولی و مدیریت درست منابع داره.

افزایش اندازه مدل

مدل‌های MoE از چندین Expert تشکیل شدن و معمولا بزرگ‌تر از مدل‌های تکی هستن. چالش‌های این ویژگی که مزیتش بود رو در ادامه می‌خونین.

نیاز به فضای ذخیره‌سازی بیشتر

ذخیره چندین شبکه متخصص و شبکه دروازه‌ای، نیاز کلی به منابع ذخیره‌سازی رو افزایش می‌ده. اگر محیطی محدودیت ذخیره‌سازی داشته باشه، نمی‌تونه از این معماری استفاده کنه.

استفاده بیش‌ازحد از حافظه

آموزش و استنتاج مدل Mixture of Experts به حافظه بیشتری نیاز داره؛ چون چندین Expert باید همزمان توی حافظه بارگذاری و نگهداری بشن.

هزینه بسیار زیاد برای استقرار معماری

استقرار مدل‌هایی که از معماری MoE استفاده می‌کنن، دشوارتر از مدل‌های تکی هست؛ چراکه MoE به فضای ذخیره‌سازی، سخت‌افزارهای قوی و بیشتری نیاز داره.

راه‌کارهای گوگل برای حل چالش‌های MoE

توی سیستم‌های MoE یه چالشی هست که باعث می‌شه عملکرد مدل به مرور زمان افت کنه؛ چون تعادل مناسبی برای استفاده از شبکه Expert وجود نداره و این‌جوری یه‌سری از متخصص‌ها به زمینه خودشون مسلط می‌شن و یه‌سری‌های دیگه بلااستفاده می‌مونن. این چالش توی زمان طولانی کارایی و تعمیم کلی مدل رو کاهش می‌ده.

مقاله GShard گوگل

برای حل این چالش، سال ۲۰۲۰ گوگل مقاله‌ای با عنوان “GShard” ارائه کرد که نشون می‌داد این رویکرد، مسیریابی کارآمد و متعادل رو بین متخصص‌ها تضمین می‌کنه.

مسیریابی به‌شکل تصادفی انجام بشه؛ طوری‌که متخصص دوم به‌صورت نیمه‌تصادفی انتخاب بشه تا بیش‌برازش قطعی به‌وجود نیاد.
روی ظرفیت هر متخصص محدودیت مشخصی اعمال بشه؛ یعنی تعداد توکن‌هایی که هر متخصص برای حفظ تعادل شبکه پردازش می‌کنه، محدود بشه.

مقاله Switch Transformers گوگل برای حل چالش Routing در MoE

رویکرد کلاسیک مسیریابی MoE (که آقای Noam Shazeer و همکاران ارائه داده بودن)، از یه سیستم Top-k که برپایه تابع Softmax بود استفاده می‌کرد.

روش Top-K این‌طوریه که برای هر ورودی، شبکه گیت پیش‌بینی می‌کنه که کدوم Experts مناسب‌ترین انتخاب هستن و فقط k متخصص برتر از بین او‌ن‌ها رو فعال می‌کنه.

مثلا Mixtral از مسیریابی top-2 (k=2) استفاده می‌کنه؛ یعنی فقط ۲ متخصص از ۸ متخصص موجود برای هر ورودی انتخاب می‌‌شه.

مقاله Switch Transformers (Fedus و همکاران، سال ۲۰۲۱) گفت که مسیریابی سخت (k=1) می‌تونه عملکرد بهتری ارائه بده. به این صورت که فقط بهترین متخصص برای هر توکن فعال می‌شه.

گوگل توی این مقاله گفت: «برای حل چالش انتخاب Expertهای یکسان برای هر ورودی، می‌شه از تعدادی مکانیسم دروازه‌ای استفاده کرد؛ چون عملکرد Routing Network برای کارایی بهینه مدل خیلی مهمه. اگه استراتژی مسیریابی ضعیف باشه، آموزش ناکافی یا حضور بیش‌ازحد یه متخصص برای هر ورودی باعث می‌شن که اثربخشی کل شبکه افت کنه.»

این راه‌کار خیلی ساده هست؛ اما مقیاس‌پذیری گسترده‌ و عملکرد خیره‌کننده‌ای رو به مدل‌ها می‌ده.

جالبه بدونین که گوگل این روش رو روی مدل T5 خودش پیاده کرد. به این شکل که اومد لایه‌های استاندارد پیش‌خور رو با ۱۲۸ متخصص جایگزین کرد و از مسیریابی پراکنده استفاده کرد.

نتیجه؟

تونستن مقیاس این مدل رو به یک تریلیون پارامتر افزایش بدن و سرعت آموزش اون رو تا ۴۰۰ درصد سریع‌تر کنن.

کدوم هوش مصنوعی‌ها از MoE استفاده می‌کنن؟

مدل‌های معروفی مثل Gemini 1.5 و GPT-4 از ساختار Mixture of Experts استفاده می‌کنن؛ اما گوگل و OpenAI اطلاعاتی درباره تعداد کل پارامترها فاش نکردن؛ ولی یه‌سری منابع براساس حدسیات گفتن که GPT-4 از ۱.۷ تا ۱.۸ تریلیون پارامتر استفاده می‌کنه.

ولی شرکت‌های سازنده مدل‌های زیر، با شفافیت اعلام کردن که این معماری‌شون از چه تعداد پارامتر بهره می‌بره.

LLaMA 4

مدل‌های LLaMA 4 متا که هوش مصنوعی متن به عکس و متن به متن هستن، به‌طور گسترده‌ای از MoE استفاده می‌کنن:

LLaMA 4 Scout که از ۱۶ متخصص استفاده می‌کنه که توی هر ورودی، حداکثر دوتای اون‌ها توی یه زمان فعال می‌شن؛
LLaMA 4 Maverick که از ۱۲۸ متخصص استفاده می‌کنه و همچنان دوتای اون‌ها به‌طور همزمان می‌تونن کار کنن.

DeepSeek R1

DeepSeek یه هوش مصنوعی چینی هست که ۱۲۸ Expert داره. تعداد کل پارامترهای دیپ سیک ۶۷۱ میلیارد هست؛ اما در طول استنتاج فقط ۳۷ میلیارد اون‌ها فعال می‌شن.

مقایسه پارامترهای کلی و پارامترهای فعال در مدل‌های MoE

به جدول زیر دقت کنین. توی این جدول به‌ وضوح می‌بینیم که مدل‌های مبتنی بر MoE چند پارامتر دارن و چندتا رو در طول استنتاج فعال می‌کنن:

مدل	تعداد کل پارامترها	تعداد پارامترهای فعال در طول استنتاج
DeepSeek MoE 145B	۱۴۴.۶ میلیارد	۲۲.۲ میلیارد
Mixtral	۴۷ میلیارد	۱۳ میلیارد

معماری MoE خوبه؛ اما

MoE در مدل‌های زبانی بزرگ یه معماری قوی هست که می‌تونه هوش مصنوعی‌های آینده رو کارآمد و تخصصی‌تر از نسخه‌های فعلی‌شون کنه؛ اما این معماری فعلا فقط محدود به مدل‌های بزرگ مثل LLaMA، Gemini 2.5 و GPT-4 شده و دلیلش هم واضحه: منابع پردازشی زیادی می‌خواد و به حافظه‌های عظیم متکیه. یه‌سری منابع گفتن که با چه شرایطی می‌شه این چالش‌ها رو برطرف کرد. اگر این راه‌کارها پیاده بشن، معایب MoE برطرف می‌شه و به مرور شاهد سیستم‌های قوی‌تر و دقیق‌تری خواهیم بود.

سوالات متداولی که شما می‌پرسین

۱. معماری MoE در هوش مصنوعی چیه؟

یه معماری که بعد از مدل ترنسفورمر اومد و با استفاده از شبکه‌ای از متخصص‌ها، سعی می‌کنه هر ورودی رو به بخش‌های کوچک‌تر تقسیم کنه و بسپاره به متخصص‌ها.

۲. اجزا یه سیستم MoE چی هستن؟

متخصص‌ها، دروازه یا روتر و شیوه مسیریابی.

۳. معایب ساختار Mixture of Experts چیست؟

سختی در هماهنگی شبکه‌ها، محاسبات اضافی توسط شبکه دروازه‌ای، نیاز به فضای ذخیره‌سازی بیشتر و استفاده بیش‌ازحد از حافظه چالش‌های فعلی MoE هستن.

نگین فاتحی کارشناس محتوای متنی حوزه هوش مصنوعی

از نوجوونی به صنعت تکنولوژی علاقه‌مند شدم و سال ۲۰۲۲ که ChatGPT حسابی غوغا کرد، شورواشتیاقم رو در حوزه AI متمرکز کردم.

اشتراک گذاری

ثبت نظر

مطالب منتخب سردبیر