هوش مصنوعی گوگل تبدیل متن به عکس

رضا حاتمی رضا حاتمی
آخرین تاریخ ویرایش : ۳۰ شهریور ۱۴۰۳
7 دقیقه
2 نظر
تبدیل متن به عکس گوگل

ایمَجِن (Imagen) چیست؟ در میان این همه گردوخاکی که هوش مصنوعی به پا کرده است، جا دارد شما را با ایمَجِن (Imagen) آشنا کنم: مدل تصویر ساز گوگل! این مطلب معرفی و بررسی این محصول جذاب آزمایشگاه دیپ‌مایند گوگل (Google Deepmind) است.
ایمجن یک مدل هوش مصنوعی برای تبدیل متن به عکس است که توسط گوگل ارائه شده. یعنی محصولی که از فناوری هوش مصنوعی برای تبدیل یک متن (مثلاً توصیف یک تصویر خیالی) برای خلق آن استفاده می‌کند. در این زمینه ۳ محصول معروف وجود دارند:

  • دال‌ای (Dall-E)
  • میدجرنی (Midjourney)
  • ایمجن (Imagen)

علاوه بر ۳ مورد فوق، استیبل دیفیوژن (Stable Diffusion) نیز به‌عنوان یک مدل متن‌باز از شهرت خوبی برخوردار است و تا این لحظه سروصداهای زیادی هم داشته. حالا بیایید نگاه دقیق‌تری به ایمجن داشته باشیم…

ایمجن چیست؟

ایمجن یک سیستم پیشرفته تبدیل متن به تصویر است که از ترکیب تکنیک‌های پردازش زبان طبیعی (NLP) و شبکه‌های عصبی مولد برای تولید تصاویر با کیفیت بالا از توصیفات متنی استفاده می‌کند. در وبگاه رسمی دیپ‌مایند چنین نوشته است:

Imagen 3 is our highest quality text-to-image model, capable of generating images with even better detail, richer lighting and fewer distracting artifacts than our previous models.
ترجمه:
ایمجن ۳ باکیفیت‌ترین مدل تبدیل متن به عکس گوگل است و نسبت به مدل قبلی‌مان توانایی خلق تصاویر با جزئیات بهتر، نورپردازی غنی‌تر و باگ‌های کمتر را دارد.

تصویر وبگاه رسمی سرویس ایمجن
صفحه رسمی سرویس ایمجن در وبگاه گوگل دیپ‌مایند

همان‌طور که می‌بینید، ایمجن در مرحله عرضه نسخه سوم و احتمالاً توسعه نسخه چهارم قرار دارد. در ادامه به برخی از ویژگی‌های کلیدی این مدل اشاره می‌کنم:

۱. ترکیب مدل‌های زبان و تصویر

ایمجن از یک مدل زبان قوی، مانند T5 یا BERT، برای درک و تفسیر متن استفاده می‌کند. سپس این مدل زبانی با یک مدل مولد تصویر مانند GAN (Generative Adversarial Network) یا VQ-VAE (Vector Quantized Variational AutoEncoder) ترکیب می‌شود. به‌عبارت‌دیگر، مدل زبانی، مفهوم و معنای دقیق متن را استخراج کرده و آن را به‌صورت یک نمایش فشرده به مدل مولد تصویر ارسال می‌کند تا خروجی نهایی آماده شود.

نمونه تصویر ایمجن + پرامپت مربوطه
نمونه تصویر ۱ ایمجن + پرامپت مربوطه

۲. کیفیت بالای تصاویر

مدل‌های مختلف، توانایی‌ها و نقاط قوت مختلفی نیز دارند. برای مثال، تصاویر تولید شده توسط مدل تبدیل متن به عکس گوگل بسیار واقع‌گرایانه و با وضوح بالا هستند. این مدل می‌تواند جزئیات دقیق را به‌خوبی به تصویر بکشد و رنگ‌ها، سایه‌ها، و بافت‌ها را به‌صورت دقیق بازتولید کند. ایمجن قادر است سبک‌های مختلف هنری، از جمله رئالیسم و سوررئالیسم را بر اساس توصیفات متنی پیاده‌سازی کند.

نمونه تبدیل متن به عکس گوگل + پرامپت مربوطه
نمونه تصویر ۱ ایمجن + پرامپت مربوطه

۳. کنترل بر خروجی تصویر

یکی از ویژگی‌های برجسته ایمجن، امکان کنترل دقیق بر خروجی تصویر بر اساس ورودی متنی است. این مدل می‌تواند به طور دقیق توصیفات پیچیده را تفسیر کرده و به تصویر تبدیل کند. کاربران می‌توانند به‌سادگی تغییرات کوچکی در متن ایجاد کرده و خروجی تصویر را مطابق با نیازهای خود تنظیم کنند.

هوش مصنوعی گوگل تبدیل متن به عکس + پرامپت مربوطه
نمونه تصویر ۲ ایمجن + پرامپت مربوطه

۴. موارد استفاده

مدل تبدیل متن به عکس گوگل می‌تواند در زمینه‌های مختلفی از جمله هنرهای دیجیتال، تبلیغات، طراحی محصول، تولید محتوا و حتی بازی‌سازی مورداستفاده قرار گیرد. این مدل همچنین در پژوهش‌های علمی برای تولید داده‌های تصویری مصنوعی یا شبیه‌سازی‌های بصری کاربرد دارد.

نمونه تصویر گوگل متن به عکس + پرامپت مربوطه
نمونه تصویر ۴ ایمجن + پرامپت مربوطه

5. رقابت با مدل‌های مشابه

ایمجن یکی از چندین مدل مطرح در زمینه تبدیل متن به تصویر است که [همان‌طور که در ابتدای مطلب هم ذکر کردم] با مدل‌های دیگری مانند دال‌ای (محصول شرکت اُوپن‌اِی‌آی (OpenAI) و استیبل دیفیوژن رقابت می‌کند. تفاوت‌های کلیدی این مدل‌ها در تکنیک‌های مورداستفاده، کیفیت تصاویر، و سرعت تولید تصاویر نهفته است.

نمونه تصویر متن به عکس با گوگل ایمجن + پرامپت مربوطه
نمونه تصویر ۵ ایمجن + پرامپت مربوطه

۶. چالش‌ها و محدودیت‌ها

با وجود کیفیت بالای تصاویر، مانند هر مدل دیگری، مدل تبدیل متن به عکس گوگل نیز با چالش‌هایی مانند تعصبات موجود در داده‌های آموزشی و عدم درک کامل از برخی مفاهیم پیچیده مواجه است. همچنین، بحث‌هایی پیرامون اخلاقیات و استفاده‌های نادرست از چنین فناوری‌هایی وجود دارد که باید مدنظر قرار گیرد.

متأسفانه داده‌هایی که مدل‌های هوش مصنوعی از آن‌ها به‌عنوان مواد اولیه آموزش بهره می‌برند، همان قدر که شامل تمام دانش خوب بشری است، انحرافات و نقاط تاریک ما را نیز شامل می‌شود؛ به این صورت، یک مدل هوش مصنوعی هم مانند ما انسان‌ها درگیر و دچار سوگیری‌های فکری خواهد شد.

نمونه تبدیل متن به عکس گوگل + پرامپت مربوطه
نمونه تصویر ۶ ایمجن + پرامپت مربوطه

یک چالش ویژه!

علاوه بر تمام ویژگی‌های مختلفی که در بالا ذکر شد، ایمجن یک مسئله ویژه هم دارد که باید در نظر گرفته شود. این مدل در حال حاضر به‌صورت عمومی در دسترس نیست. در واقع ایمجن برای مقاصد تحقیقاتی توسعه یافته و هنوز به شکل یک محصول عمومی یا سرویس API ارائه نشده است. به همین دلیل، کاربران عادی یا حتی توسعه‌دهندگان معمولی امکان دسترسی مستقیم به این مدل را ندارند. حتی اگر زمانی در دسترس عموم قرار بگیرد، احتمالاً کاربران ایرانی با مشکلات همیشگی مثل فیلتر و تحریم دست‌وپنجه نرم خواهند کرد. به همین دلیل راه جایگزینی باید!

وبگاه رسمی ویرا

ویرا، یک پروژه هوش مصنوعی ایرانی است که توسط مهندسان شرکت دانش‌بنیان پارت ارائه شده و هدف از ارائه آن این است که فارسی‌زبانان هم بتوانند به‌راحتی از فناوری هوش مصنوعی استفاده کنند. این یعنی مهم‌ترین ویژگی ویرا، تسلطش به زبان فارسی است. ویرا به شکل اپلیکیشن تلفن همراه عرضه شده و تا امروز توانسته بازخوردهای نسبتاً خوبی هم دریافت کند. تمام ویژگی‌هایش را اینجا فهرست کرده‌ام:

  • ماژول‌های مختلف: ویرا در اصل یک مرکز ارائه‌دهنده خدمات هوش مصنوعی است. به این معنی که داخل اپلیکیشن، سرویس‌های مختلفی قرار دارد که بنا به نیاز، می‌توانید از آنها استفاده کنید. در حال حاضر خدمات ویرا شامل موارد زیر هستند:
  • تسلط به زبان فارسی: ویرا با زبان فارسی ارتباط کامل دارد؛ حتی لهجه‌های مختلف را می‌داند و به گفتار رسمی یا محاوره‌ای مسلط است. البته برای عملکرد بدون مرز و رعایت استاندارد بین‌المللی، زبان انگلیسی را نیز در اختیار دارد.
  • دسترسی آسان و رایگان: دسترسی به ویرا آن‌قدر آسان است که نه نیاز به حساب کاربری دارد، نه نیاز به هزینه خرید، نه نیاز به ابزارهای رفع فیلتر؛ فقط کافی است آن را از فروشگاه‌های رسمی اپلیکیشن مثل کافه‌بازار یا مایکت دانلود کنید.
  • رابط کاربری ساده: ویرا طوری طراحی شده تا کاربران با سطوح مختلف دانش فناوری بتوانند به‌راحتی از آن استفاده کنند. برای مثال تولید یک تصویر در ویرا کمتر از یک دقیقه زمان می‌برد و مسیر تولیدش به ساده‌ترین شکل ممکن طراحی شده است.
  • همگام با جهان: شاید عبارت «هوش مصنوعی فارسی‌زبانان» باعث شود تا برخی مخاطبان احساس کنند ویرا مشتی بر دهان این‌وآن است؛ اما خیر:) ویرا همگام، همراه و دوست جهانیان است؛ فارغ از هر گونه تفاوت در نژاد، جنسیت، فرهنگ و ملیت.
  • روبه‌رشد: ویرا تازه متولد شده و لحظه‌به‌لحظه درحال‌رشد است. به او فرصت اشتباه بدهید و در جریان باشید که فناوری هوش مصنوعی هنوز در ابتدای راه است.
  • رعایت مسائل اخلاقی و قانونی: ویرا به حریم شخصی کاربرانش احترام می‌گذارد، از تبعیض‌های نژادی، جنسیتی، فرهنگی و ملیتی به‌دور است. رعایت اخلاقیات عرف جامعه را در هر کاری جزو شرایط در نظر می‌گیرد. توجه داشته باشید که استفاده از ویرا تحت قوانین کشورمان صورت می‌پذیرد و کاربران در این زمینه نیز مسئولیت‌هایی دارند؛ چرا که ویرا صرفاً یک ابزار است.

کلام آخر

امیدوارم از این مطلب لذت برده باشید. لطفاً نظرات خود را بنویسید. باتوجه‌به این که این مطلب دررابطه‌با مدل تبدیل متن به عکس گوگل بود، پیشنهاد می‌کنم حتماً در اپلیکیشن ویرا، به سرویس ایماژ (خلق تصویر از روی متن فارسی) سری بزنید و این ابزار جایگزین را آزمایش کنید. ایماژ در حال حاضر برای افرادی که در رسانه‌های اجتماعی فعالیت می‌کنند، بسیار ابزار جالب و کاربردی ای است.

اشتراک گذاری
ثبت نظر
نظرات کاربران
ایمان مردانی
2 ماه قبل
بسیار عالی
1پاسخ برای این کامنت
رضا حاتمی
1 ماه قبل
خیلی سپاسگزاریم که نظرات مثبت خود را با ما در میان گذاشتید! خوشحالیم که تیم ویرا توانسته رضایت شما را جلب کند. اگر سوالی دارید، در هر زمانی در تماس باشید.
مطالب منتخب سردبیر