قدمت Google DeepMind نموذج Gemini Omni، وهي عائلة من نماذج الذكاء الاصطناعي التوليدي التي تعالج النصوص والصور والصوت والفيديو لإنشاء المحتوى. نموذجها الأول، Gemini Omni Flash، يُنتج مقاطع فيديو من خلال دمج البيانات متعددة الوسائط مع معرفة متقدمة بالقوانين الفيزيائية. يؤكد المسؤولون التنفيذيون أن هذه التقنية تمتلك فهمًا للعالم يتفوق على التطورات السابقة، مما يمثل خطوة نحو ذكاء اصطناعي أكثر تكاملاً.
كيف يعمل دمج البيانات والفيزياء في النموذج 🧠
يستخدم Gemini Omni Flash بنية موحدة تعالج أنواعًا متعددة من المدخلات في وقت واحد. لا يقتصر النموذج على التعرف على الأشياء في الفيديو فحسب، بل يتنبأ بسلوكها بناءً على مبادئ الجاذبية والتصادم والاستمرارية المكانية. وهذا يسمح بتوليد تسلسلات متماسكة حيث ينكسر كأس عند سقوطه أو ترتد كرة وفقًا لكتلتها. دربت DeepMind النظام باستخدام بيانات مصنفة من تفاعلات العالم الحقيقي، متجنبةً الهلوسات الشائعة في مولدات الفيديو الأخرى.
الآن يعرف الذكاء الاصطناعي أن البيضة لا تلتصق بالسقف 🥚
أخيرًا، ذكاء اصطناعي لا يعتقد أن الأشياء تطفو بلا سبب. يعرف Gemini Omni Flash أنك إذا رميت بيضة، فإنها تنكسر، وأن القطة لا يمكنها اختراق الجدار. لا بد أن مطوري Google DeepMind فخورون: لقد نجحوا في جعل آلة تفهم أن الحليب ينسكب ولا يتحول إلى قصاصات ورق. وفي الوقت نفسه، لا تزال النماذج الأخرى تُنتج مقاطع فيديو حيث تطير السيارات ويمشي الناس على الماء.