هوش مصنوعی متن به تصویر Hunyuan Image 3.0

نگین فاتحی (کارشناس محتوای متنی حوزه هوش مصنوعی)

آخرین تاریخ ویرایش : ۲۸ مهر ۱۴۰۴

8 دقیقه

0 نظر

کپی کردن آدرس بلاگ

هوش مصنوعی HunyuanImage 3.0 که ساخته‌ تیم Tencent از کشور چین هست، چند روز گذشته تونست تو جدیدترین رتبه‌بندی پلتفرم LMArena به‌عنوان بهترین مدل متن به تصویر شناخته بشه و حسابی سروصدا به‌پا کنه.

جالبه بدونین که عملکرد مدل تولید تصویر Tencent انقدر خوب بوده که این خبر رو خود LMArena توی توییترش منتشر کرده و خیلی از فعال‌های حوزه هوش مصنوعی بهش واکنش نشون دادن.

هوش مصنوعی Hunyuan Image Generation چیست؟

طبق گزارش منتشرشده، Hunyuan Image 3.0 نه‌فقط بهترین مدل تبدیل متن به عکس هست، بلکه تو بخش مدل‌های متن‌باز هم رتبه‌ اول رو گرفت؛ چون تونسته رقبای سرسختی مثل Seedream 4 و Nano Banana رو پشت سر بذاره و صدر جدول بشینه.

هوش مصنوعی HunyuanImage 3.0 اولین مدل تولید تصویر چندوجهی بومی هست که متن‌بازه. علاوه بر این، بزرگ‌ترین مدل تولید تصویر متن‌باز هم محسوب می‌شه؛ چون ۸۰ میلیارد پارامتر داره.

این مدل سبک‌های هنری متنوع رو پوشش می‌ده که لیست اون رو در ادامه می‌بینین:

فتورئالیستی
طراحی دستی
نقاشی رنگ روغن
آب‌رنگ
رندر سه‌بعدی

پیشنهاد برای ایرانی‌های فارسی زبان: استفاده از سرویس کاملا فارسی ویرایش تصویر پالت

مزایا و نوآوری‌های هوش مصنوعی Hunyuan

این هوش مصنوعی توی چند مورد نوآور هست که فعلا میدجرنی، Stable Diffusion و DALL-E نتونستن بهش برسن.

استدلال جهانی

هوش مصنوعی تولید عکس Hunyuan می‌تونه از دانش جهانی برای استدلال استفاده کنه، معنی لفظ‌های پیچیده رو متوجه بشه و تا هزار کاراکتر رو هم تجزیه کنه.

دو تصویر زیر رو وب‌سایت رسمی این هوش مصنوعی گذاشته تا نشون بده منظورش از مدل استدلال جهانی دقیقا چیه:

پرامپت

Generate a nine-square grid tutorial showing how to sketch a parrot

هوش مصنوعی تولید تصویر HunyuanImage 3.0 با کیفیت بالا و سبک‌های مختلف هنری

پرامپت

Generates a humorous illustration showing the evolution of humans from monkeys to humans, with the final human sitting in front of a computer

درک عمیق پرامپت‌های طولانی

نوآوری دیگه این مدل تولید تصویر Tencent، اینه‌که می‌تونه پرامپت‌های طولانی رو متوجه بشه و درعین‌حال از کیفیت عکس‌ها کم نکنه.

دو تصویر زیر رو ببینین تا متوجه بشین منظور از درک پرامپت‌های طولانی چیه. فقط کافیه همین پرامپت‌ها رو به ابزارهای تولید تصویر بدین تا متوجه تفاوت‌ زیادشون با Hunyuan Image Generation بشین.

پرامپت

Film photography, motion blur, a handsome young Chinese man running fast by the lake, smiling, fluffy hair, white shirt, blurred scene, flying white birds, warm sunlight shining on his face, colorful halo, warm yellow and deep blue

پرامپت

Create a highly detailed and vibrantly colored LEGO replica of the Bund in Shanghai. In the foreground, the iconic Bund’s historic buildings are meticulously recreated with LEGO bricks, showcasing Western and Neoclassical facades, including clock towers, domes, and colonnades. LEGO minifigures stroll along the river, taking photos, and sightseeing, while classic LEGO cars line the streets. In the background, the majestic Huangpu River, constructed with blue translucent LEGO bricks, is dotted with LEGO ferries and tour boats. Across the river, Pudong’s Lujiazui skyline is dotted with vibrant, realistic-looking ultra-modern LEGO skyscrapers, including the Oriental Pearl Tower, Shanghai Tower, Jin Mao Tower, and the Shanghai World Financial Center. The sky is a vibrant LEGO blue, punctuated by a few white LEGO clouds, creating a vibrant and modern visual experience.

رندر دقیق تصویر با پرامپت طولانی

این پرامپت رو ببینین که چقدر بلندبالاست. همین متن طولانی رو Hunyuan Image Generation تونست خیلی خوب و دقیق رندر کنه و حقیقتا نتیجه باکیفیت و چشم‌گیره. بنابراین می‌شه گفت یه‌جورایی داریم از تمرکز صرف روی پرامپت نویسی، به‌سمت خلاقیت و شکوفایی اون پیش می‌ریم.

پرامپت

Masterful typography combined with maximalism, the design incorporates halftone textures, variegated particles, and warm, homochromatic gradients, layered with dots, lines, and surfaces. A light beige background with a baking paper texture reveals a croissant suspended in the center from a slightly bird’s-eye view, with chocolate sauce seeping through the pastry. The text reads “CROISSANT” at the top, “Butter dreams. Flaky truth.” under the croissant, and a tiny “Crisp outside, soft Create a high-resolution 3D text rendering. The first line should read “HUNYUAN” and the second line should read “IMAGE 3.0.” Each letter should be rendered using a different material, including sisal, linen rope, bamboo, grass, cotton, denim, sand, wood, leather, clay, marble, wool, ceramic, metal, volcanic lava, ice, flame, cement, diamond, and more. A short Tencent QQ penguin character supports the text, as if it were the creator of the text. Place it on a clean, minimalist light gray background.

تولید تصاویر سه‌بعدی

یکی از یوتیوبرها با هوش مصنوعی HunyuanImage 3.0 تصاویر سه‌بعدی ساخته که عکس‌هاش رو در ادامه بهتون نشون می‌دم. این کاربر عکس‌ها رو توی سایت مدل تولید تصویر Tencent آپلود کرد و با دو کلیک تونست مدل سه‌بعدی و رندرشده رو بگیره.

بیشتر بخونین: آموزش پرامپت نویسی میدجرنی

هوش مصنوعی Hunyuan چگونه کار می‌کند؟

یه معماری نوینی که شاید ۲ سال هم از قدمت اون نگذشته، برای هوش مصنوعی‌ مولد به‌کار می‌ره که به‌اختصار بهش MoE می‌گیم و مخفف “Mixture of Experts” هست. برای درک نحوه کارکرد هوش مصنوعی تولید عکس Hunyuan، باید تا حدی با این معماری آشنا بشیم.

معماری MoE

معماری ترکیبی از متخصص‌ها (MoE) یه طراحی برای شبکه عصبی مصنوعی هست که با تقسیم مدل به چندین زیرشبکه تخصصی به‌نام “Expert”، کارایی و مقیاس‌پذیری رو بهتر می‌کنه.

مدل تولید تصویر Tencent از ۶۴ متخصص استفاده می‌کنه که هرکدوم‌شون توی انجام و مدیریت یه‌سری داده‌ خاص مهارت زیادی دارن.

بنابراین وقتی کاربر پرامپت رو می‌نویسه، هرکدوم از این متخصص‌ها یه گوشه کار رو می‌گیرن، پردازش رو انجام می‌دن و نهایتا نتایج خودشون رو به شبکه عصبی اصلی برمی‌گردونن.

با طی کردن این فرآیند، دیگه کل شبکه برای هر ورودی فعال نمی‌شه و فقط این زیرمجموعه‌های کوچک به‌صورت پویا انتخاب می‌شن.

ادغام MoE با VAE

هوش مصنوعی HunyuanImage 3.0 با یه مدل زبانی بزرگ از پیش آموزش‌دیده ادغام شده که در کنار این دو، یه رمزگذار بینایی و یه رمزگذار خودکار متغیر (VAE) هم برای درک و تصویرسازی ویژگی‌های تصویر کار می‌کنن.

تمام این تکنولوژی‌ها به هوش مصنوعی تولید عکس Hunyuan کمک می‌کنن تا حالت‌های متن و تصویر رو عمیقا درک و ترکیب کنن.

نکته مهم اینه که HunyuanImage 3.0 توی درک معنایی متن‌های طولانی یا پیچیده عالی عمل کرده. این‌طوری که منابع می‌گن، ظاهرا می‌تونه بیش از ۱۰۰۰ کاراکتر رو توی ورودی درک و تصویرسازی کنه.

علاوه بر این‌ها، هوش مصنوعی HunyuanImage 3.0 می‌تونه متن رو با دقت و ظرافت بالا توی تصویر رندر کنه. حاشیه‌نویسی، لوگوتایپ‌های برند و متن‌های چندزبانه هم که دیگه کارهای پیش‌پاافتاده برای این مدل هستن.

البته که همچنان مهمه بدونیم چطور از هوش مصنوعی سؤال بپرسیم؟، ولی می‌شه گفت به‌مرور می‌تونیم از این مرحله هم عبور کنیم و خیال‌مون راحت باشه که مدل منظورمون رو درست و کامل متوجه می‌شه.

کاربردهای آینده‌نگرانه Hunyuan

با توجه به تمام مواردی که گفتیم، هوش مصنوعی تولید عکس Hunyuan رو برای کارهای زیر می‌تونیم به‌کار بگیریم و شاهد تحول جدیدی توی صنایع مرتبط باشیم:

تولید تصاویر آموزشی برای کلاس‌های درسی
ساخت نمودارهای علمی با دقت و کیفیت بالا
مدل‌سازی اشیا و کاراکترها با آپلود یه تصویر از اون‌ها
ایجاد طرح‌های خلاقانه برای بروز استعداد نهفته عموم افراد

اونچه حالا درباره هوش مصنوعی HunyuanImage 3.0 می‌دونیم

به‌نظر میاد که HunyuanImage 3.0 با معماری MoE آینده درخشانی پیش‌روی خودش داره؛ چون می‌تونه به‌راحتی مقیاس بزرگی بگیره و با تکنیک‌های تولید جدید ادغام بشه. این مدل چون می‌تونه معنی و عمق پرامپت‌ها رو متوجه بشه، استدلال قوی و مبتنی بر جهان واقعی رو ارائه می‌ده تا کاربرها کمتر نگران نوشتن پرامپت باشن و تمرکزشون رو روی شکوفایی و خلاقانه کار کردن معطوف کنن.

سوالات متداول درباره HunyuanImage 3.0

۱. هوش مصنوعی HunyuanImage 3.0 چیه؟

HunyuanImage 3.0 یه هوش مصنوعی متن به عکس هست که دقت خیلی بالایی توی گنجوندن متن توی تصویر داره و می‌تونه معنی پرامپت، زمینه اون و نقشش در جهان‌ رو انجام بده، بعد تصویر رو بسازه.

۲. هوش مصنوعی HunyuanImage 3.0 چه نوآوری‌هایی داره؟

این هوش مصنوعی هم متن باز هست، هم از معماری MoE استفاده می‌کنه؛ دو پارامتری که برای مقیاس‌پذیری و توسعه سریع یه AI نیاز هستن. از طرف دیگه، رندر دقیق تصویر با پرامپت طولانی، درک پرامپت‌های طولانی و استدلال جهانی به این هوش مصنوعی برتری دادن.

۳. هوش مصنوعی تولید عکس Hunyuan چه‌جوری می‌تونه آینده رو تغییر بده؟

ازاونجایی‌که کاربرها می‌تونن عکس رو آپلود کنن و مدل سه‌بعدی اون رو بگیرن، این AI‌ می‌تونه خیلی خوب توی مدل‌سازی بهمون کمک کنه. از طرف دیگه، دقت این ابزار توی رندر متن عالیه که باعث می‌شه ساخت لوگوهای تایپوگرافی راحت‌تر بشه.

نگین فاتحی کارشناس محتوای متنی حوزه هوش مصنوعی

از نوجوونی به صنعت تکنولوژی علاقه‌مند شدم و سال ۲۰۲۲ که ChatGPT حسابی غوغا کرد، شورواشتیاقم رو در حوزه AI متمرکز کردم.

اشتراک گذاری