جيميني أومني: تحرير الفيديو بالكلام كأنك تطلب قهوة دون حليب

أعلنت جوجل عن نموذج Gemini Omni، وهو نموذج يتيح تحويل فيديو إلى آخر باستخدام اللغة الطبيعية في شكل حوار. على عكس نموذج Veo السابق، يقوم هذا النظام بتحرير الإطارات الأصلية مع الحفاظ على تماسك المشهد وأفعال الشخصيات. حاليًا، يُنتج مقاطع يصل طولها إلى 10 ثوانٍ مع الصوت، على الرغم من أن الشركة تخطط بالفعل لتوسيع هذا الحد.

مشهد واقعي فوتوغرافي لواجهة تحرير فيديو تُظهر إطارين جنبًا إلى جنب، الإطار الأيسر يظهر شخصًا يطلب قهوة عند منضدة، والإطار الأيمن يظهر نفس الشخص وهو يحمل كوبًا فارغًا ويتحدث، خط أنابيب رقمي متوهج يربط بين الإطارين، خطوط موجية خفيفة وأشرطة معادلة صوتية عائمة في الجوار، إضاءة سينمائية بألوان زرقاء وبرتقالية، مساحة عمل حديثة أنيقة مع جهاز لوحي وقلم على مكتب، نمط رسم توضيحي تقني، خطوط نظيفة، تباين عالٍ، يُظهر تحويل الفيديو في الوقت الفعلي من خلال أوامر اللغة الطبيعية، عملية التحرير دون نصوص أو أرقام مرئية

الفيزياء والسياق التاريخي في كل إطار 🧠

يعتمد النموذج على نظام Gemini البيئي لتوليد المشاهد مع مراعاة السياقات التاريخية والعلمية. فهو يعيد إنتاج ظواهر مثل الجاذبية أو ديناميكيات السوائل بدقة، مما يسمح، على سبيل المثال، بتغيير خلفية معركة من العصور الوسطى إلى عاصفة فضائية دون أن تطفو الشخصيات كالبالونات. كما يتضمن إنشاء صور رمزية رقمية مخصصة، مستخدمًا المعرفة الواسعة للنظام للحفاظ على المنطق البصري.

حلم كل يوتيوبر: التحرير دون فتح After Effects 🎬

الآن، سيتمكن أي شخص عادي من قول غيّر تلك القطة إلى ديناصور يرقص وسينفذ الفيديو الأمر. الشيء السيئ هو أنه إذا طلبت مقطعًا مدته 11 ثانية، سينظر إليك Gemini بازدراء رقمي ويذكرك أنه لا يزال في مرحلة تجريبية. لكن مهلاً، بينما تنتظر، يمكنك إنشاء صورة رمزية تفعل أشياء لن تفعلها أبدًا، مثل ترتيب المنزل. الكسل البشري، أخيرًا، وجد أداته.