Avec Veo 3, Google DeepMind pose une nouvelle brique dans l’édifice de l’intelligence artificielle multimodale. La firme démocratise un outil jusqu’ici réservé à l’industrie du cinéma. Reste à savoir si cette démocratisation se fera au service de la création… ou de la manipulation
Google DeepMind vient de frapper un grand coup dans le domaine de l’IA générative. Avec le lancement de Veo 3, un modèle de génération vidéo ultra-puissant, le géant de Mountain View s’impose dans un secteur en plein essor, encore dominé par des acteurs comme OpenAI ou Runway. Derrière les images spectaculaires produites par ce système se cache une révolution technologique qui soulève autant d’opportunités que de questions.
Présenté pour la première fois en mai 2025 lors de la conférence Google I/O, Veo 3 est capable de générer des vidéos courtes (jusqu’à 8 secondes) à partir de simples descriptions textuelles, avec un niveau de détail, de fluidité et de réalisme jamais atteint jusqu’ici. À la différence de ses prédécesseurs, Veo 3 n’est pas seulement un générateur d’image animée : il produit également une piste audio synchronisée, comprenant dialogues, musiques d’ambiance et effets sonores.
Techniquement, Veo 3 repose sur une combinaison d’architectures de diffusion (diffusion models) et de modèles de langage avancés, ce qui lui permet d’interpréter des descriptions complexes, d’en comprendre le contexte et de restituer une mise en scène crédible, respectant les contraintes physiques (ombres, profondeur, perspective).
Veo 3 n’est pas un outil autonome. Il est intégré à l’écosystème Gemini, le système d’IA de Google, ainsi qu’à des plateformes comme YouTube Shorts, Workspace et Google Cloud. Les utilisateurs peuvent y accéder via l’abonnement Google AI Ultra, qui offre aussi des fonctions avancées de génération d’images (ImageFX), de musique (MusicFX) et de texte (Gemini Advanced).
La version actuelle de Veo est encore limitée en durée (moins de 10 secondes), mais Google a laissé entendre que des versions plus longues pourraient être proposées à terme, notamment dans le domaine du cinéma, de l’éducation et du marketing.
Si les capacités de Veo 3 fascinent, elles inquiètent aussi. Le modèle rend la production de deepfakes extrêmement simple et crédible, au point que des experts s’alarment déjà de son usage potentiel à des fins de désinformation. Le Time Magazine a récemment publié une enquête soulignant les risques que représente ce type d’outil dans les contextes politiques ou électoraux.
Pour se prémunir contre ces dérives, Google affirme avoir intégré une série de garde-fous : filigranes invisibles, contrôles d’accès stricts, modération humaine et enregistrement systématique des requêtes sensibles. Reste que la dissémination de copies pirates ou l’exploitation détournée de contenus générés est difficile à endiguer une fois ceux-ci publiés.
Le lancement de Veo 3 intervient dans un contexte de compétition acharnée entre les GAFAM sur le front de l’IA. Il fait écho à Sora, le modèle vidéo lancé par OpenAI en février 2024, qui avait marqué les esprits par sa capacité à générer des vidéos réalistes de 60 secondes. Mais si Sora conserve l’avantage sur la durée, Veo semble offrir une meilleure intégration audio et une cohérence visuelle accrue.
Au-delà de la simple prouesse technologique, l’apparition de modèles comme Veo 3 annonce une mutation profonde du secteur audiovisuel. Publicité, clips musicaux, e-learning, jeux vidéo ou contenus sur les réseaux sociaux : les cas d’usage se multiplient. Certains studios envisagent même de remplacer progressivement certaines étapes de production par des outils génératifs, notamment pour les storyboards, les scènes secondaires ou les versions test.
L’enjeu est double : réduire les coûts et accélérer les délais tout en conservant une créativité différenciante. Mais cette promesse ne va pas sans résistance. De nombreux artistes, réalisateurs et illustrateurs dénoncent un nivellement par le bas de la création et appellent à une réglementation plus stricte sur l’usage commercial des contenus générés.