L’intelligence artificielle sait aujourd’hui générer du texte, créer des images, produire des vidéos et même écrire du code. Pourtant, une limite demeure : la compréhension du monde physique. Un modèle peut décrire une voiture, reconnaître un piéton ou identifier un obstacle, mais comprendre comment les objets interagissent dans l’espace et anticiper leurs mouvements reste un défi majeur. C’est précisément ce problème que NVIDIA cherche à résoudre avec Cosmos 3.
Présenté lors du GTC Taipei 2026, en parallèle du robot humanoïde Isaac GROOT, Cosmos 3 marque une nouvelle étape dans le développement de ce que NVIDIA appelle l’« IA physique ». Contrairement aux modèles génératifs traditionnels, cette technologie ne vise pas seulement à comprendre des contenus numériques. Son objectif est d’aider les robots, véhicules autonomes et systèmes intelligents à mieux interpréter, anticiper et interagir avec le monde réel.
Pour NVIDIA, cette capacité pourrait accélérer considérablement le développement de la robotique, des véhicules autonomes et des futurs agents physiques alimentés par l’intelligence artificielle.
L’IA doit désormais comprendre le monde physique
Depuis plusieurs années, les progrès de l’IA reposent essentiellement sur la compréhension du langage, des images et des données numériques. Pourtant, les machines continuent de rencontrer des difficultés lorsqu’il s’agit d’interagir avec des environnements réels.
Un robot qui doit saisir un objet, éviter un obstacle ou se déplacer dans un espace complexe doit comprendre bien davantage que l’apparence d’une scène. Il doit être capable d’anticiper les conséquences de ses actions, d’évaluer les mouvements possibles et de raisonner sur les interactions physiques.
Cette problématique devient particulièrement importante alors que les investissements mondiaux dans la robotique devraient dépasser 260 milliards de dollars d’ici 20301. Les industriels recherchent désormais des modèles capables de faire le lien entre perception numérique et compréhension physique.
C’est dans ce contexte que Cosmos 3 a été conçu.
Un modèle pensé pour les robots et les véhicules autonomes
NVIDIA présente Cosmos 3 comme le premier « omnimodèle » entièrement ouvert dédié à l’IA physique. Le système a été développé pour servir de fondation à une nouvelle génération de machines intelligentes capables d’interagir avec leur environnement.
L’entreprise propose déjà deux versions du modèle. La version Super vise les applications nécessitant une précision physique élevée, notamment dans la robotique industrielle et la conduite autonome. Une version Nano est également disponible pour des usages nécessitant des temps de réponse plus rapides et des coûts de calcul réduits.
NVIDIA a également annoncé l’arrivée prochaine d’une version Edge destinée à fonctionner directement sur des appareils locaux. Cette approche répond à un enjeu majeur du secteur : permettre aux systèmes autonomes de prendre des décisions sans dépendre systématiquement d’une connexion cloud.
Cette stratégie montre que NVIDIA ne cherche pas seulement à développer un modèle performant, mais à construire un véritable écosystème d’IA physique capable de s’adapter à différents niveaux d’infrastructure.
Une base de données gigantesque pour apprendre la réalité
L’un des aspects les plus impressionnants de Cosmos 3 concerne les données utilisées pour son entraînement.
Selon NVIDIA, le modèle a été entraîné sur près de 20 000 milliards de tokens2. Cette base comprend :
- près d’un milliard d’images ;
- environ 400 millions de vidéos réelles et synthétiques ;
- des données audio ambiantes ;
- des contenus textuels ;
- des traces d’actions réalisées par des humains et des robots.
Cette diversité permet au modèle d’apprendre non seulement à reconnaître des objets ou des situations, mais aussi à comprendre les actions associées à ces environnements.
Contrairement à un générateur vidéo classique qui observe essentiellement l’apparence visuelle d’une scène, Cosmos 3 cherche à modéliser ce qui se produit réellement dans le monde physique.
Selon Ming-Yu Liu, vice-président du Cosmos Lab chez NVIDIA, l’objectif consiste à apprendre les mouvements, les interactions et les comportements qui caractérisent les environnements réels2.
De la perception à l’action
La véritable innovation de Cosmos 3 réside dans sa capacité à intégrer la notion d’action.
Pour un humain, observer une personne qui ouvre une porte, déplace un objet ou monte un escalier paraît naturel. Pour une machine, ces opérations représentent une combinaison complexe de mouvements, de contraintes physiques et de décisions séquentielles.
Cosmos 3 tente précisément de capturer cette dimension.
Le modèle peut générer des données d’action extrêmement détaillées, notamment :
- les trajectoires de déplacement ;
- les positions d’effecteurs robotiques ;
- les angles d’articulations ;
- les mouvements de bras mécaniques ;
- les séquences nécessaires à l’exécution d’une tâche.
Ces informations sont essentielles pour entraîner des robots capables d’interagir efficacement avec leur environnement.
Cette approche rapproche progressivement les systèmes d’intelligence artificielle du raisonnement physique humain, une capacité considérée comme essentielle pour l’émergence de véritables agents autonomes.
Simuler l’impossible pour mieux entraîner les machines
L’un des cas d’usage les plus prometteurs concerne la génération de scénarios rares ou dangereux.
Dans le monde réel, il est souvent difficile, coûteux ou risqué de reproduire certaines situations nécessaires à l’entraînement des systèmes autonomes. Les collisions de véhicules, les accidents industriels ou les défaillances mécaniques constituent des événements peu fréquents mais essentiels pour développer des systèmes robustes.
Cosmos 3 permet de générer virtuellement ce type de scénarios afin d’enrichir les données d’entraînement.
Cette approche offre plusieurs avantages :
- réduction des coûts de tests physiques ;
- amélioration de la sécurité des expérimentations ;
- accélération des cycles de développement ;
- augmentation de la diversité des situations simulées.
NVIDIA affirme même que certaines phases d’entraînement pouvant nécessiter plusieurs mois pourraient désormais être réalisées en quelques jours seulement2.
Formation pour dirigeants
IA & Data Science
pour les Managers
Intégrez l’IA dans votre stratégie d’entreprise. Une approche 360° — Technologie, Business & Éthique — conçue pour les décideurs. Prérequis : 5 ans d’expérience managériale.
Un modèle ouvert pour accélérer l’écosystème
À l’image de la famille Nemotron, Cosmos 3 adopte une stratégie ouverte. NVIDIA souhaite permettre aux développeurs, chercheurs et industriels d’adapter le modèle à leurs propres besoins.
Cette ouverture contraste avec la tendance observée chez plusieurs acteurs majeurs du secteur qui privilégient des modèles plus fermés.
L’objectif est de favoriser l’émergence d’un écosystème capable d’accélérer l’innovation dans la robotique, la mobilité autonome et les systèmes intelligents.
Parmi les premiers partenaires annoncés figurent notamment Agile Robots, Black Forest Labs et Runway, preuve que NVIDIA cherche à fédérer un large réseau autour de cette nouvelle plateforme2.
Vers une IA capable de comprendre le réel
Cosmos 3 illustre une évolution profonde de l’intelligence artificielle. Après avoir appris à comprendre le langage, les images et les données numériques, les modèles cherchent désormais à développer une compréhension plus fine des lois physiques qui gouvernent le monde réel.
Cette évolution pourrait avoir des conséquences majeures pour la robotique, la mobilité autonome, l’industrie ou encore les futurs systèmes d’IA agentique.
L’enjeu n’est plus seulement de créer des modèles capables de répondre à des questions ou de produire du contenu. Il s’agit désormais de construire des systèmes capables d’interagir avec leur environnement de manière fiable, prévisible et autonome.
Avec Cosmos 3, NVIDIA ne cherche donc pas uniquement à améliorer l’intelligence artificielle. L’entreprise tente de rapprocher les machines d’une compréhension du monde physique qui constitue encore aujourd’hui l’une des plus grandes frontières de l’IA.
Comment fonctionne Cosmos 3 ?
Cosmos 3 repose sur une architecture d’intelligence artificielle multimodale conçue pour comprendre les environnements physiques et modéliser les interactions entre les objets, les humains et les machines. Développé par NVIDIA, ce modèle appartient à une nouvelle catégorie d’IA appelée « IA physique », dont l’objectif n’est plus uniquement de traiter du texte, des images ou des vidéos, mais également de comprendre les actions qui se déroulent dans le monde réel.
Contrairement aux modèles génératifs classiques qui se concentrent principalement sur le contenu numérique, Cosmos 3 cherche à représenter les lois physiques, les mouvements et les comportements observés dans des environnements réels. Le système analyse différents types de données multimodales, notamment des images, des vidéos, du texte, des sons et des traces d’actions humaines ou robotiques.
À partir de ces informations, le modèle apprend à identifier non seulement ce qui est présent dans une scène, mais aussi ce qui s’y produit, quels mouvements sont réalisés, quelles interactions ont lieu et quelles conséquences peuvent résulter de certaines actions. Cette capacité lui permet de générer des simulations physiques réalistes et de produire des données exploitables pour l’entraînement de robots, de véhicules autonomes ou d’autres systèmes intelligents.
- Compréhension physique avancée : analyse des interactions entre objets, humains et machines
- Modèle multimodal : traitement simultané du texte, des images, des vidéos, des sons et des actions
- Génération de simulations : création d’environnements physiques réalistes pour l’entraînement des IA
- Modélisation des mouvements : compréhension des trajectoires, déplacements et comportements dynamiques
- Génération de données d’action : production d’informations exploitables pour la robotique et l’automatisation
- Architecture ouverte : possibilité d’adaptation et de personnalisation pour des usages industriels spécifiques
- Optimisation pour l’IA physique : développement accéléré de robots autonomes et de véhicules intelligents
- Besoins importants en puissance de calcul pour l’entraînement et l’inférence
- Dépendance à la qualité et à la diversité des données physiques utilisées
- Difficulté à reproduire parfaitement certaines situations réelles complexes
- Nécessité d’une validation dans des environnements physiques réels après simulation
- Risques liés aux biais présents dans les données d’entraînement
- Limites actuelles dans la compréhension de situations très imprévisibles ou inédites
Pour aller plus loin
Le développement de modèles capables de comprendre le monde physique constitue une étape clé dans l’évolution de l’intelligence artificielle, notamment pour la robotique, les véhicules autonomes et les environnements simulés. Sur un sujet connexe, découvrez notre article « DINOv3 par Meta : l’auto-supervision au service d’une analyse visuelle de précision », qui analyse comment les avancées en vision par ordinateur permettent aux systèmes d’IA de mieux interpréter leur environnement et d’interagir avec des situations complexes du monde réel.
Références
1. MarketsandMarkets. (2025). Global Robotics Market Forecast.
https://www.marketsandmarkets.com
2. NVIDIA. (2026). Cosmos 3 Technical Presentation, GTC Taipei 2026.
https://www.nvidia.com

