هوش مصنوعی HunyuanImage 3.0 که ساخته تیم Tencent از کشور چین هست، چند روز گذشته تونست تو جدیدترین رتبهبندی پلتفرم LMArena بهعنوان بهترین مدل متن به تصویر شناخته بشه و حسابی سروصدا بهپا کنه.
جالبه بدونین که عملکرد مدل تولید تصویر Tencent انقدر خوب بوده که این خبر رو خود LMArena توی توییترش منتشر کرده و خیلی از فعالهای حوزه هوش مصنوعی بهش واکنش نشون دادن.
هوش مصنوعی Hunyuan Image Generation چیست؟
طبق گزارش منتشرشده، Hunyuan Image 3.0 نهفقط بهترین مدل تبدیل متن به عکس هست، بلکه تو بخش مدلهای متنباز هم رتبه اول رو گرفت؛ چون تونسته رقبای سرسختی مثل Seedream 4 و Nano Banana رو پشت سر بذاره و صدر جدول بشینه.
هوش مصنوعی HunyuanImage 3.0 اولین مدل تولید تصویر چندوجهی بومی هست که متنبازه. علاوه بر این، بزرگترین مدل تولید تصویر متنباز هم محسوب میشه؛ چون ۸۰ میلیارد پارامتر داره.
این مدل سبکهای هنری متنوع رو پوشش میده که لیست اون رو در ادامه میبینین:
- فتورئالیستی
- طراحی دستی
- نقاشی رنگ روغن
- آبرنگ
- رندر سهبعدی
پیشنهاد برای ایرانیهای فارسی زبان: استفاده از سرویس کاملا فارسی ویرایش تصویر پالت
مزایا و نوآوریهای هوش مصنوعی Hunyuan
این هوش مصنوعی توی چند مورد نوآور هست که فعلا میدجرنی، Stable Diffusion و DALL-E نتونستن بهش برسن.
استدلال جهانی
هوش مصنوعی تولید عکس Hunyuan میتونه از دانش جهانی برای استدلال استفاده کنه، معنی لفظهای پیچیده رو متوجه بشه و تا هزار کاراکتر رو هم تجزیه کنه.
دو تصویر زیر رو وبسایت رسمی این هوش مصنوعی گذاشته تا نشون بده منظورش از مدل استدلال جهانی دقیقا چیه:
پرامپت |
Generate a nine-square grid tutorial showing how to sketch a parrot |

پرامپت |
Generates a humorous illustration showing the evolution of humans from monkeys to humans, with the final human sitting in front of a computer |

درک عمیق پرامپتهای طولانی
نوآوری دیگه این مدل تولید تصویر Tencent، اینهکه میتونه پرامپتهای طولانی رو متوجه بشه و درعینحال از کیفیت عکسها کم نکنه.
دو تصویر زیر رو ببینین تا متوجه بشین منظور از درک پرامپتهای طولانی چیه. فقط کافیه همین پرامپتها رو به ابزارهای تولید تصویر بدین تا متوجه تفاوت زیادشون با Hunyuan Image Generation بشین.
پرامپت |
Film photography, motion blur, a handsome young Chinese man running fast by the lake, smiling, fluffy hair, white shirt, blurred scene, flying white birds, warm sunlight shining on his face, colorful halo, warm yellow and deep blue |

پرامپت |
Create a highly detailed and vibrantly colored LEGO replica of the Bund in Shanghai. In the foreground, the iconic Bund’s historic buildings are meticulously recreated with LEGO bricks, showcasing Western and Neoclassical facades, including clock towers, domes, and colonnades. LEGO minifigures stroll along the river, taking photos, and sightseeing, while classic LEGO cars line the streets. In the background, the majestic Huangpu River, constructed with blue translucent LEGO bricks, is dotted with LEGO ferries and tour boats. Across the river, Pudong’s Lujiazui skyline is dotted with vibrant, realistic-looking ultra-modern LEGO skyscrapers, including the Oriental Pearl Tower, Shanghai Tower, Jin Mao Tower, and the Shanghai World Financial Center. The sky is a vibrant LEGO blue, punctuated by a few white LEGO clouds, creating a vibrant and modern visual experience. |

رندر دقیق تصویر با پرامپت طولانی
این پرامپت رو ببینین که چقدر بلندبالاست. همین متن طولانی رو Hunyuan Image Generation تونست خیلی خوب و دقیق رندر کنه و حقیقتا نتیجه باکیفیت و چشمگیره. بنابراین میشه گفت یهجورایی داریم از تمرکز صرف روی پرامپت نویسی، بهسمت خلاقیت و شکوفایی اون پیش میریم.
پرامپت |
Masterful typography combined with maximalism, the design incorporates halftone textures, variegated particles, and warm, homochromatic gradients, layered with dots, lines, and surfaces. A light beige background with a baking paper texture reveals a croissant suspended in the center from a slightly bird’s-eye view, with chocolate sauce seeping through the pastry. The text reads “CROISSANT” at the top, “Butter dreams. Flaky truth.” under the croissant, and a tiny “Crisp outside, soft Create a high-resolution 3D text rendering. The first line should read “HUNYUAN” and the second line should read “IMAGE 3.0.” Each letter should be rendered using a different material, including sisal, linen rope, bamboo, grass, cotton, denim, sand, wood, leather, clay, marble, wool, ceramic, metal, volcanic lava, ice, flame, cement, diamond, and more. A short Tencent QQ penguin character supports the text, as if it were the creator of the text. Place it on a clean, minimalist light gray background. |

تولید تصاویر سهبعدی
یکی از یوتیوبرها با هوش مصنوعی HunyuanImage 3.0 تصاویر سهبعدی ساخته که عکسهاش رو در ادامه بهتون نشون میدم. این کاربر عکسها رو توی سایت مدل تولید تصویر Tencent آپلود کرد و با دو کلیک تونست مدل سهبعدی و رندرشده رو بگیره.


بیشتر بخونین: آموزش پرامپت نویسی میدجرنی
هوش مصنوعی Hunyuan چگونه کار میکند؟
یه معماری نوینی که شاید ۲ سال هم از قدمت اون نگذشته، برای هوش مصنوعی مولد بهکار میره که بهاختصار بهش MoE میگیم و مخفف “Mixture of Experts” هست. برای درک نحوه کارکرد هوش مصنوعی تولید عکس Hunyuan، باید تا حدی با این معماری آشنا بشیم.
معماری MoE
معماری ترکیبی از متخصصها (MoE) یه طراحی برای شبکه عصبی مصنوعی هست که با تقسیم مدل به چندین زیرشبکه تخصصی بهنام “Expert”، کارایی و مقیاسپذیری رو بهتر میکنه.
مدل تولید تصویر Tencent از ۶۴ متخصص استفاده میکنه که هرکدومشون توی انجام و مدیریت یهسری داده خاص مهارت زیادی دارن.
بنابراین وقتی کاربر پرامپت رو مینویسه، هرکدوم از این متخصصها یه گوشه کار رو میگیرن، پردازش رو انجام میدن و نهایتا نتایج خودشون رو به شبکه عصبی اصلی برمیگردونن.
با طی کردن این فرآیند، دیگه کل شبکه برای هر ورودی فعال نمیشه و فقط این زیرمجموعههای کوچک بهصورت پویا انتخاب میشن.
ادغام MoE با VAE
هوش مصنوعی HunyuanImage 3.0 با یه مدل زبانی بزرگ از پیش آموزشدیده ادغام شده که در کنار این دو، یه رمزگذار بینایی و یه رمزگذار خودکار متغیر (VAE) هم برای درک و تصویرسازی ویژگیهای تصویر کار میکنن.
تمام این تکنولوژیها به هوش مصنوعی تولید عکس Hunyuan کمک میکنن تا حالتهای متن و تصویر رو عمیقا درک و ترکیب کنن.

نکته مهم اینه که HunyuanImage 3.0 توی درک معنایی متنهای طولانی یا پیچیده عالی عمل کرده. اینطوری که منابع میگن، ظاهرا میتونه بیش از ۱۰۰۰ کاراکتر رو توی ورودی درک و تصویرسازی کنه.
علاوه بر اینها، هوش مصنوعی HunyuanImage 3.0 میتونه متن رو با دقت و ظرافت بالا توی تصویر رندر کنه. حاشیهنویسی، لوگوتایپهای برند و متنهای چندزبانه هم که دیگه کارهای پیشپاافتاده برای این مدل هستن.
البته که همچنان مهمه بدونیم چطور از هوش مصنوعی سؤال بپرسیم؟، ولی میشه گفت بهمرور میتونیم از این مرحله هم عبور کنیم و خیالمون راحت باشه که مدل منظورمون رو درست و کامل متوجه میشه.
کاربردهای آیندهنگرانه Hunyuan
با توجه به تمام مواردی که گفتیم، هوش مصنوعی تولید عکس Hunyuan رو برای کارهای زیر میتونیم بهکار بگیریم و شاهد تحول جدیدی توی صنایع مرتبط باشیم:
- تولید تصاویر آموزشی برای کلاسهای درسی
- ساخت نمودارهای علمی با دقت و کیفیت بالا
- مدلسازی اشیا و کاراکترها با آپلود یه تصویر از اونها
- ایجاد طرحهای خلاقانه برای بروز استعداد نهفته عموم افراد
اونچه حالا درباره هوش مصنوعی HunyuanImage 3.0 میدونیم
بهنظر میاد که HunyuanImage 3.0 با معماری MoE آینده درخشانی پیشروی خودش داره؛ چون میتونه بهراحتی مقیاس بزرگی بگیره و با تکنیکهای تولید جدید ادغام بشه. این مدل چون میتونه معنی و عمق پرامپتها رو متوجه بشه، استدلال قوی و مبتنی بر جهان واقعی رو ارائه میده تا کاربرها کمتر نگران نوشتن پرامپت باشن و تمرکزشون رو روی شکوفایی و خلاقانه کار کردن معطوف کنن.
سوالات متداول درباره HunyuanImage 3.0
HunyuanImage 3.0 یه هوش مصنوعی متن به عکس هست که دقت خیلی بالایی توی گنجوندن متن توی تصویر داره و میتونه معنی پرامپت، زمینه اون و نقشش در جهان رو انجام بده، بعد تصویر رو بسازه.
این هوش مصنوعی هم متن باز هست، هم از معماری MoE استفاده میکنه؛ دو پارامتری که برای مقیاسپذیری و توسعه سریع یه AI نیاز هستن. از طرف دیگه، رندر دقیق تصویر با پرامپت طولانی، درک پرامپتهای طولانی و استدلال جهانی به این هوش مصنوعی برتری دادن.
ازاونجاییکه کاربرها میتونن عکس رو آپلود کنن و مدل سهبعدی اون رو بگیرن، این AI میتونه خیلی خوب توی مدلسازی بهمون کمک کنه. از طرف دیگه، دقت این ابزار توی رندر متن عالیه که باعث میشه ساخت لوگوهای تایپوگرافی راحتتر بشه.