OpenAI، خالق ChatGPT همین دو روز پیش نسخه جدید مدل هوش مصنوعی ویدیوساز خودش رو معرفی کرد که حالا میتونه صداگذاری رو روی ویدیوها بهشکل خودکار انجام بده؛ یعنی شما پرامپت مینویسین و مدل ویدیو و صدا رو همزمان تولید میکنه. جالبه بدونین که این AI، جزو بهترین ابزارهای هوش مصنوعی متن به ویدیو هست که چند سال پیش خیلی سروصدا کرد.
اقدام عجیب OpenAI و ولع همیشگی اون برای اولین بودن
OpenAI یهکار عجیب برای معرفی و دسترسی به این مدل جدید کرده؛ اونم اینکه Sora 2 رو بهشکل مستقیم در دسترس قرار نداده؛ بلکه یه اپلیکیشن iOS عرضه کرده که خودش میگه شبکه اجتماعی تولید ویدیو هست.
یادتونه قبل از اینکه Veo 3 و مدلهای ویدیوساز خبرساز بشن، کل دنیا از یهسری ویدیو و اسم پر شده بود؟ میگفتن یه هوش مصنوعی اومده که فقط افراد خاصی در جهان بهش دسترسی دارن و میتونن باهاش ویدیو بسازن. اون زمان فقط تعدادی از کارگردانهای هالیوود، بازیگرهای مطرح و آژانسهای تبلیغاتی میتونستن ازش استفاده کنن.
این هوش مصنوعی پرسروصدا، همون Sora هست که حدودا یک سال در دسترس عموم قرار گرفته و حالا نسخه جدید اون، یعنی Sora 2 معرفی شده. البته همچنان دسترسی بهش محدود شده به تعدادی از آمریکاییها و کاناداییها و برای استفاده ازش باید منتظر بمونیم.
ویدیوها ساختهشده با Sora 2 ۱۰ ثانیه هستن که یهعده میگن احتمالا بهخاطر کنترل منابع محاسباتی گذاشته شده تا سرورها بتونن به تمام درخواستها جواب بدن.
OpenAI درباره این مدل چی میگه؟
خود OpenAI ادعا کرده که از ۲۰۲۴ که نسخه اول Sora شروع بهکار کرد تا الان، روی مدلهای آموزشی با قابلیتهای شبیهسازی پیشرفتهتر جهان متمرکز شدن.
همچنین OpenAI گفته که: «ما معتقدیم که چنین سیستمهایی برای آموزش مدلهای هوش مصنوعی که دنیای فیزیکی رو عمیقا درک میکنن، بسیار مهم هستن. یک نقطه عطف مهم برای این موضوع، تسلط روی پیش آموزش و پس آموزش دادههای ویدیویی توی مقیاس بزرگ هست که فعلا توی مراحل ابتدایی خودشون هستن.»
Sora 2 چهجوری در دسترس قرار گرفته؟
OpenAI گفته که: «ما یه شبکه اجتماعی جدید و رایگان iOS بهنام “Sora” ارائه کردیم که توسط Sora 2 پشتیبانی میشه. داخل این اپلیکیشن میتونین ویدیوهای مختلف بسازین، ویدیوهای دیگران رو ریمیکس کنین و حتی ویدیوهای جدیدی که دیگران ساختن رو در فید Sora ببینین.
البته میتونین دوستانتون رو از طریق حضور افتخاری به اسم (cameo) – «کامئو» – به این اپلیکیشن بیارین.»
Sora 2 چه قابلیتهایی داره؟
OpenAI و تعدادی از کاربرها که تونستن از Sora 2 استفاده کنن، گفتن که ویژگیهای زیر رو توی این مدل جدید دیدن:
- نسبت به نسخه قبلی فیزیک طبیعیتر و کنترل بیشتری توی پرامپتهای چند-قطعهای (multi-shot prompts) داره؛ یعنی از قوانین فیزیک تبعیت میکنه و دستور چندبخشی رو بهخوبی متوجه میشه؛
- Sora 2 میتونه دیالوگ هماهنگ با ویدیو و صحنهها، جلوهها و صداهای محیطی رو خیلی طبیعی بسازه؛
- کاربرا میتونن چهره و صدای خودشون رو با یه ویدیوی کوتاه توی اپ ضبط کنن و بهعنوان شباهت (likeness) وارد کنن؛
- اپلیکیشن یه فید مخصوص برای تولیدکنندههای ویدیو داره که با الگوریتمهای پردازش زبان طبیعی، صفحه اصلی رو براساس ترجیحات و رفتار قبلی کاربر شخصیسازی میکنه؛
- برای استفاده نوجوونها یهسری محدودیت گذاشتن که توسط والدینشون تنظیم میشه. این محدودیت یهجورایی بهخاطر مباحث فلسفی و اخلاقی در مورد AI لحاظ شده؛
- کاربرا با قابلیت کامئو میتونن چهره و صداشون رو معرفی کنن و اجازه بدن که بقیه از شباهتشون توی ویدیوهاشون استفاده کنن. بعدهها هم اگر نظرشون تغییر کرد، میتونن این دسترسی رو قطع کنن یا ویدیوهایی که از هویتشون استفاده کردن رو بهشکل یکطرفه حذف کنن.
- در مقایسه با Sora 1، مدل جدید پایداری قویتری در حالت جهان (World-state persistence) و مدلسازی واقعیتر علت و معلول (Cause-and-effect modeling) داره؛
- Sora 2 مثل مدل قبلی تلاش نمیکنه حتما یه صحنه عالی و بدون نقص بسازه؛ بلکه همه تلاشش اینکه جزئیات دقیق و مطابق با جهان واقعی باشن. مثلا اگر یه صحنه خراب بشه، این مدل همون خراب شدن رو نشون میده؛ درحالیکه مدل قبلی اشیا رو تغییر میداد تا پرامپت رو درست کنه؛
- این مدل بهروزشده میتونه ویدیوها رو با سبکهای مختلف بسازه؛ ازجمله سبک سینمایی، انیمه و یهسری ژانرهای پرطرفدار؛
- OpenAI گفته که این مدل یه جهش بزرگ توی کنترلپذیریه؛ چون میتونه پرامپتهای پیچیده رو در چندین صحنه متغیر (مثل ویدیو زیر) پیاده کنه؛ طوریکه انگار واقعا چنین صحنهای داره رخ میده.
ویژگیهای اپ Sora چیه؟
- الگوریتم فید این اپلیکیشن طوری طراحی شده که بیشتر محتوای مورد علاقه کاربر یا چیزهایی که قبلا باهاش تعامل داشته نشون داده بشه؛ نه اینکه یهعالمه محتوا بیاره تا کاربر تو چرخه اسکرول بیپایان گیر کنه؛
- هدف این اپ تشویق کاربرا به تولید محتوا هست؛ نه صرفا نگه داشتن اون توی فید؛
- قابلیتهای امنیتی و کنترلی زیادی هم توی این اپ لحاظ شده. مثلا برای نوجوونها (زیر ۱۸ سال) اسکرول بیپایان بسته میشه و بعد از چند ویدیو، فید خالی میشه تا کاربر استراحت کنه و یهجورایی قید ادامه دادن اسکرول رو بزنه (و بره به درسومشق خودش برسه 🤭)
- والدین میتونن از طریق ChatGPT روی اکانت بچهشون کنترل داشته باشن. با این کنترل میتونن شخصیسازی فید بچهشون رو محدود کنن و مشخص کنن چهکسی میتونه بهشون پیام بده. علاوه بر این، میتونن هر ویدیویی که هویت یا چهره فرزندشون رو داره پاک کنن؛
- اپ هم اجازه نداره بدون رضایت از شباهت و هویت افراد مشهور یا هرکسی که کامئو نداده استفاده کنه.