هوش مصنوعی خالق ChatGPT: Sora 2 با شبکه اجتماعی اختصاصی خود

آخرین تاریخ ویرایش : ۱۰ مهر ۱۴۰۴
5 دقیقه
0 نظر
هوش مصنوعی sora2

OpenAI، خالق ChatGPT همین دو روز پیش نسخه جدید مدل هوش مصنوعی ویدیوساز خودش رو معرفی کرد که حالا می‌تونه صداگذاری رو روی ویدیوها به‌شکل خودکار انجام بده؛ یعنی شما پرامپت می‌نویسین و مدل ویدیو و صدا رو هم‌زمان تولید می‌کنه. جالبه بدونین که این AI، جزو بهترین ابزارهای هوش مصنوعی متن به ویدیو هست که چند سال پیش خیلی سروصدا کرد. 

اقدام عجیب OpenAI و ولع همیشگی اون برای اولین بودن

OpenAI یه‌کار عجیب برای معرفی و دسترسی به این مدل جدید کرده؛ اونم این‌که Sora 2 رو به‌شکل مستقیم در دسترس قرار نداده؛ بلکه یه اپلیکیشن iOS عرضه کرده که خودش می‌گه شبکه اجتماعی تولید ویدیو هست.

یادتونه قبل از این‌که Veo 3 و مدل‌های ویدیوساز خبرساز بشن، کل دنیا از یه‌سری ویدیو و اسم پر شده بود؟ می‌گفتن یه هوش مصنوعی اومده که فقط افراد خاصی در جهان بهش دسترسی دارن و می‌تونن باهاش ویدیو بسازن. اون زمان فقط تعدادی از کارگردان‌های هالیوود، بازیگرهای مطرح و آژانس‌های تبلیغاتی می‌تونستن ازش استفاده کنن. 

این هوش مصنوعی پرسروصدا، همون Sora هست که حدودا یک سال در دسترس عموم قرار گرفته و حالا نسخه جدید اون، یعنی Sora 2 معرفی شده. البته همچنان دسترسی بهش محدود شده به تعدادی از آمریکایی‌ها و کانادایی‌ها و برای استفاده ازش باید منتظر بمونیم.

ویدیوها ساخته‌شده با Sora 2 ۱۰ ثانیه هستن که یه‌عده می‌گن احتمالا به‌خاطر کنترل منابع محاسباتی گذاشته شده تا سرورها بتونن به تمام درخواست‌ها جواب بدن. 

OpenAI درباره این مدل چی‌ می‌گه؟

خود OpenAI ادعا کرده که از ۲۰۲۴ که نسخه اول Sora شروع به‌کار کرد تا الان، روی مدل‌های آموزشی با قابلیت‌های شبیه‌سازی پیشرفته‌تر جهان متمرکز شدن. 

همچنین OpenAI گفته که: «ما معتقدیم که چنین سیستم‌هایی برای آموزش مدل‌های هوش مصنوعی که دنیای فیزیکی رو عمیقا درک می‌کنن، بسیار مهم هستن. یک نقطه عطف مهم برای این موضوع، تسلط روی پیش آموزش و پس آموزش داده‌های ویدیویی توی مقیاس بزرگ هست که فعلا توی مراحل ابتدایی خودشون هستن.»

Sora 2 چه‌جوری در دسترس قرار گرفته؟

OpenAI گفته که: «ما یه شبکه اجتماعی جدید و رایگان iOS به‌نام “Sora” ارائه کردیم که توسط Sora 2 پشتیبانی می‌شه. داخل این اپلیکیشن می‌تونین ویدیوهای مختلف بسازین، ویدیوهای دیگران رو ریمیکس کنین و حتی ویدیوهای جدیدی که دیگران ساختن رو در فید Sora ببینین.

البته می‌تونین دوستانتون رو از طریق حضور افتخاری به اسم (cameo) – «کامئو» – به این اپلیکیشن بیارین.»

Sora 2 چه قابلیت‌هایی داره؟

OpenAI و تعدادی از کاربرها که تونستن از Sora 2 استفاده کنن، گفتن که ویژگی‌های زیر رو توی این مدل جدید دیدن:

  •  نسبت به نسخه قبلی فیزیک طبیعی‌تر و کنترل بیشتری توی پرامپت‌های چند-قطعه‌ای (multi-shot prompts) داره؛ یعنی از قوانین فیزیک تبعیت می‌کنه و دستور چندبخشی رو به‌خوبی متوجه می‌شه؛
  •  Sora 2 می‌تونه دیالوگ هماهنگ با ویدیو و صحنه‌ها، جلوه‌ها و صداهای محیطی رو خیلی طبیعی بسازه؛
  • کاربرا می‌تونن چهره و صدای خودشون رو با یه ویدیوی کوتاه توی اپ ضبط کنن و به‌عنوان شباهت (likeness) وارد کنن؛ 
  • اپلیکیشن یه فید مخصوص برای تولیدکننده‌های ویدیو داره که با الگوریتم‌های پردازش زبان طبیعی، صفحه اصلی رو براساس ترجیحات و رفتار قبلی کاربر شخصی‌سازی می‌کنه؛
  • برای استفاده نوجوون‌ها یه‌سری محدودیت گذاشتن که توسط والدین‌شون تنظیم می‌شه. این محدودیت یه‌جورایی به‌خاطر مباحث فلسفی و اخلاقی در مورد AI لحاظ شده؛
  • کاربرا با قابلیت کامئو می‌تونن چهره و صداشون رو معرفی کنن و اجازه بدن که بقیه از شباهتشون توی ویدیوهاشون استفاده کنن. بعده‌ها هم اگر نظرشون تغییر کرد، می‌تونن این دسترسی رو قطع کنن یا ویدیوهایی که از هویت‌شون استفاده کردن رو به‌شکل یک‌طرفه حذف کنن.
  • در مقایسه با Sora 1، مدل جدید پایداری قوی‌تری در حالت جهان (World-state persistence) و مدل‌سازی واقعی‌تر علت و معلول (Cause-and-effect modeling) داره؛ 
  • Sora 2 مثل مدل قبلی تلاش نمی‌کنه حتما یه صحنه عالی و بدون نقص بسازه؛ بلکه همه تلاشش این‌که جزئیات دقیق و مطابق با جهان واقعی باشن. مثلا اگر یه صحنه خراب بشه، این مدل همون خراب شدن رو نشون می‌ده؛ درحالی‌که مدل قبلی اشیا رو تغییر می‌داد تا پرامپت رو درست کنه؛
  • این مدل به‌روزشده می‌تونه ویدیوها رو با سبک‌های مختلف بسازه؛ ازجمله سبک سینمایی، انیمه و یه‌سری ژانرهای پرطرف‌دار؛
  • OpenAI‌ گفته که این مدل یه جهش بزرگ توی کنترل‌پذیریه؛ چون می‌تونه پرامپت‌های پیچیده رو در چندین صحنه متغیر (مثل ویدیو زیر) پیاده کنه؛ طوری‌که انگار واقعا چنین صحنه‌ای داره رخ می‌ده.

ویژگی‌های اپ Sora چیه؟

  •  الگوریتم فید این اپلیکیشن طوری طراحی شده که بیشتر محتوای مورد علاقه کاربر یا چیزهایی که قبلا باهاش تعامل داشته نشون داده بشه؛ نه این‌که یه‌عالمه محتوا بیاره تا کاربر تو چرخه اسکرول بی‌پایان گیر کنه؛
  • هدف این اپ تشویق کاربرا به تولید محتوا هست؛ نه صرفا نگه داشتن اون توی فید؛
  • قابلیت‌های امنیتی و کنترلی زیادی هم توی این اپ لحاظ شده. مثلا برای نوجوون‌ها (زیر ۱۸ سال) اسکرول بی‌پایان بسته می‌شه و بعد از چند ویدیو، فید خالی می‌شه تا کاربر استراحت کنه و یه‌جورایی قید ادامه دادن اسکرول رو بزنه (و بره به درس‌ومشق خودش برسه 🤭) 
  • والدین می‌تونن از طریق ChatGPT روی اکانت بچه‌شون کنترل داشته باشن. با این کنترل می‌تونن شخصی‌سازی فید بچه‌شون رو محدود کنن و مشخص کنن چه‌کسی می‌تونه بهشون پیام بده. علاوه‌ بر این، می‌تونن هر ویدیویی که هویت یا چهره فرزندشون رو داره پاک کنن؛
  • اپ هم اجازه نداره بدون رضایت از شباهت و هویت افراد مشهور یا هرکسی که کامئو نداده استفاده کنه.
نگین فاتحی
نگین فاتحی کارشناس محتوای متنی حوزه هوش مصنوعی
از نوجوونی به صنعت تکنولوژی علاقه‌مند شدم و سال ۲۰۲۲ که ChatGPT حسابی غوغا کرد، شورواشتیاقم رو در حوزه AI متمرکز کردم.
اشتراک گذاری
ثبت نظر
اپلیکیشن ویرا