جيميني أومني فلاش: الذكاء الاصطناعي الذي يفهم العالم ليصنع الفيديو

قدمت Google DeepMind نموذج Gemini Omni، وهي عائلة من نماذج الذكاء الاصطناعي التوليدي التي تعالج النصوص والصور والصوت والفيديو لإنشاء المحتوى. نموذجها الأول، Gemini Omni Flash، يُنتج مقاطع فيديو من خلال دمج البيانات متعددة الوسائط مع معرفة متقدمة بالقوانين الفيزيائية. يؤكد المسؤولون التنفيذيون أن هذه التقنية تمتلك فهمًا للعالم يتفوق على التطورات السابقة، مما يمثل خطوة نحو ذكاء اصطناعي أكثر تكاملاً.

مشهد تقني واقعي لكرة أرضية هولوغرافية متوهجة محاطة بشظايا بيانات وسائط متعددة عائمة، يد بشرية تصل نحو واجهة إنشاء فيديو شفافة، بينما تندمج تيارات من النصوص وموجات صوتية وصور مصغرة فوتوغرافية في مقطع فيديو سينمائي، الكرة الأرضية تعرض مسارات فيزيائية محاكاة مثل سقوط أوراق الشجر وتدفق المياه، بيئة استوديو مظلمة مع إضاءة نيون زرقاء وسماوية، أسطح عاكسة على محطة عمل أنيقة، أشعة ضوء حجمية تمر عبر الهولوغرام، ألواح أجهزة مستقبلية فائقة التفاصيل في الخلفية، نمط تصور هندسي

كيف يعمل دمج البيانات والفيزياء في النموذج 🧠

يستخدم Gemini Omni Flash بنية موحدة تعالج أنواعًا متعددة من المدخلات في وقت واحد. لا يقتصر النموذج على التعرف على الأشياء في الفيديو فحسب، بل يتنبأ بسلوكها بناءً على مبادئ الجاذبية والتصادم والاستمرارية المكانية. وهذا يسمح بتوليد تسلسلات متماسكة حيث ينكسر كأس عند سقوطه أو ترتد كرة وفقًا لكتلتها. دربت DeepMind النظام باستخدام بيانات مصنفة من تفاعلات العالم الحقيقي، متجنبةً الهلوسات الشائعة في مولدات الفيديو الأخرى.

الآن يعرف الذكاء الاصطناعي أن البيضة لا تلتصق بالسقف 🥚

أخيرًا، ذكاء اصطناعي لا يعتقد أن الأشياء تطفو بلا سبب. يعرف Gemini Omni Flash أنك إذا رميت بيضة، فإنها تنكسر، وأن القطة لا يمكنها اختراق الجدار. لا بد أن مطوري Google DeepMind فخورون: لقد نجحوا في جعل آلة تفهم أن الحليب ينسكب ولا يتحول إلى قصاصات ورق. وفي الوقت نفسه، لا تزال النماذج الأخرى تُنتج مقاطع فيديو حيث تطير السيارات ويمشي الناس على الماء.