La conférence annuelle Google I/O, destinée aux développeurs, a fait la part belle à l’intelligence artificielle. Google a notamment dévoilé des nouveautés pour son IA Gemini, ainsi que pour la recherche en ligne. Mais la firme a également mis l’accent sur la création visuelle : de nouveaux modèles de génération d’image et de vidéo ont été présentés, de même qu’une interface de création vidéo intitulée Flow. Retour sur les différentes annonces.
Veo 3 génère des vidéos avec des bandes sonores
Fait rare dans le domaine de l’IA, Google vient de présenter une nouveauté inédite qui ne s’inspire pas du travail d’OpenAI. Son nouveau modèle de génération de vidéo, Veo 3, prend désormais en charge le son, en permettant de créer des bandes sonores adaptées à vos créations, mais également des bruitages et même des dialogues. Si le degré de précision de la fonctionnalité reste à démontrer, les premiers exemples publiés par la firme se révèlent particulièrement prometteurs. Cette nouveauté pourrait représenter une étape importante dans le domaine de la génération vidéo, qui était jusqu’ici limité aux productions muettes.
Veo 3 excelle dans tous les domaines, qu’il s’agisse de texte ou d’image, de physique réelle ou de synchronisation labiale précise. Il est excellent pour la compréhension ; vous pouvez raconter une courte histoire dans votre message, et le modèle vous renvoie un clip qui lui donne vie, explique Google.
Disponible aujourd’hui dans l’application Gemini et dans Flow pour les abonnés à Ultra, ainsi que pour les entreprises dans Vertex AI, Veo 3 bénéficie également d’une meilleure qualité vidéo que Veo 2. Mais celui-ci n’est pas pour autant abandonné : Veo 2 intègre des fonctionnalités inédites, notamment un meilleur contrôle créatif grâce à l’ajout ou la suppression d’objets, des mouvements de caméra précis et la possibilité d’élargir automatiquement le cadre de la scène.
Imagen 4 : le nouveau modèle de génération d’images de Google
La génération d’images de Google fait également peau neuve avec l’arrivée du modèle Imagen 4. Parmi les améliorations, Google met en avant :
- Une amélioration de la netteté, notamment sur les détails fins comme les textures,
- La capacité du modèle à produire des images dans une plus grande variété de styles,
- La possibilité de générer des images jusqu’à une résolution de 2K,
- De meilleurs résultats en matière de typographie et d’orthographe,
Imagen 4 est disponible aujourd’hui dans l’ application Gemini, Whisk, Vertex AI et dans l’écosystème Workspace. Une variante « 10 fois plus rapide » qu’Imagen 3 est également en préparation.

Google lance Flow, qui combine les modèles de Veo, Imagen et Gemini
Pour regrouper les capacités de ses différents modèles, Google a mis au point une nouvelle plateforme intitulée Flow et présentée comme l’évolution de VideoFX. Consacrée à la réalisation de films, la solution est alimentée par Veo 3, Imagen 4 ainsi que Gemini. Concrètement, Flow offre la possibilité de présenter des directives caméra précises (mouvements, angles, perspectives), de modifier ou d’étendre une scène sur l’aspect narratif et d’organiser ses prompts dans l’interface. Une section Flow TV sera consacrée à la découverte de contenu créé grâce à Veo sur les autres utilisateurs, avec le détail des invites, dont l’utilisateur pourra ainsi s’inspirer.
De par la combinaison des différents modèles, Flow permet de concevoir des extraits précis. Il est par exemple possible d’importer des images et de saisir un prompt pour les mettre en mouvement (voir image de une).
Mais Google prévient, son outil en est encore « aux balbutiements ». Pour exploiter le plein potentiel de Flow, la société a fait appel à des vidéastes spécialisés dans l’usage de l’IA. Les différents courts métrages présentés offrent un aperçu du potentiel de la plateforme, tout en présentant de nombreuses déformations inhérentes aux productions par IA.
Flow est disponible pour les abonnés aux offres Google AI Pro et Google AI Ultra aux États-Unis et sera bientôt étendu à d’autres pays.
Google Beam mise sur la visio en 3D
Et si les capacités vidéo développées par Google pouvaient transformer nos échanges à distance ? C’est le pari de Google Beam, nouvelle version du Project Starline, qui vise à rendre les visioconférences plus naturelles, comme si les interlocuteurs se trouvaient réellement face à face.
La technologie repose sur un écran à champ lumineux conçu avec HP, des capteurs de mouvement et un modèle d’intelligence artificielle capable de créer des images en trois dimensions à partir de flux vidéo classiques. L’illusion de profondeur permet le contact visuel, la perception des gestes et des expressions, ce qui renforce la qualité des échanges. Dans Meet, Beam se dote également d’une option de traduction en temps réel, qui rend possibles des conversations entre personnes de langues différentes, sans perte d’intonation ni de nuance.
Les premiers équipements seront présentés en juin au salon InfoComm et mis à disposition de certaines entreprises avant la fin de l’année.
Views: 1