NVIDIA dévoile Cosmos 3, une IA conçue pour comprendre le monde réel

aivancity

il y a 3 jours

L’intelligence artificielle sait aujourd’hui générer du texte, créer des images, produire des vidéos et même écrire du code. Pourtant, une limite demeure : la compréhension du monde physique. Un modèle peut décrire une voiture, reconnaître un piéton ou identifier un obstacle, mais comprendre comment les objets interagissent dans l’espace et anticiper leurs mouvements reste un défi majeur. C’est précisément ce problème que NVIDIA cherche à résoudre avec Cosmos 3.

Présenté lors du GTC Taipei 2026, en parallèle du robot humanoïde Isaac GROOT, Cosmos 3 marque une nouvelle étape dans le développement de ce que NVIDIA appelle l’« IA physique ». Contrairement aux modèles génératifs traditionnels, cette technologie ne vise pas seulement à comprendre des contenus numériques. Son objectif est d’aider les robots, véhicules autonomes et systèmes intelligents à mieux interpréter, anticiper et interagir avec le monde réel.

Pour NVIDIA, cette capacité pourrait accélérer considérablement le développement de la robotique, des véhicules autonomes et des futurs agents physiques alimentés par l’intelligence artificielle.

L’IA doit désormais comprendre le monde physique

Depuis plusieurs années, les progrès de l’IA reposent essentiellement sur la compréhension du langage, des images et des données numériques. Pourtant, les machines continuent de rencontrer des difficultés lorsqu’il s’agit d’interagir avec des environnements réels.

Un robot qui doit saisir un objet, éviter un obstacle ou se déplacer dans un espace complexe doit comprendre bien davantage que l’apparence d’une scène. Il doit être capable d’anticiper les conséquences de ses actions, d’évaluer les mouvements possibles et de raisonner sur les interactions physiques.

Cette problématique devient particulièrement importante alors que les investissements mondiaux dans la robotique devraient dépasser 260 milliards de dollars d’ici 2030¹. Les industriels recherchent désormais des modèles capables de faire le lien entre perception numérique et compréhension physique.

C’est dans ce contexte que Cosmos 3 a été conçu.

Un modèle pensé pour les robots et les véhicules autonomes

NVIDIA présente Cosmos 3 comme le premier « omnimodèle » entièrement ouvert dédié à l’IA physique. Le système a été développé pour servir de fondation à une nouvelle génération de machines intelligentes capables d’interagir avec leur environnement.

L’entreprise propose déjà deux versions du modèle. La version Super vise les applications nécessitant une précision physique élevée, notamment dans la robotique industrielle et la conduite autonome. Une version Nano est également disponible pour des usages nécessitant des temps de réponse plus rapides et des coûts de calcul réduits.

NVIDIA a également annoncé l’arrivée prochaine d’une version Edge destinée à fonctionner directement sur des appareils locaux. Cette approche répond à un enjeu majeur du secteur : permettre aux systèmes autonomes de prendre des décisions sans dépendre systématiquement d’une connexion cloud.

Cette stratégie montre que NVIDIA ne cherche pas seulement à développer un modèle performant, mais à construire un véritable écosystème d’IA physique capable de s’adapter à différents niveaux d’infrastructure.

Une base de données gigantesque pour apprendre la réalité

L’un des aspects les plus impressionnants de Cosmos 3 concerne les données utilisées pour son entraînement.

Selon NVIDIA, le modèle a été entraîné sur près de 20 000 milliards de tokens². Cette base comprend :

près d’un milliard d’images ;
environ 400 millions de vidéos réelles et synthétiques ;
des données audio ambiantes ;
des contenus textuels ;
des traces d’actions réalisées par des humains et des robots.

Cette diversité permet au modèle d’apprendre non seulement à reconnaître des objets ou des situations, mais aussi à comprendre les actions associées à ces environnements.

Contrairement à un générateur vidéo classique qui observe essentiellement l’apparence visuelle d’une scène, Cosmos 3 cherche à modéliser ce qui se produit réellement dans le monde physique.

Selon Ming-Yu Liu, vice-président du Cosmos Lab chez NVIDIA, l’objectif consiste à apprendre les mouvements, les interactions et les comportements qui caractérisent les environnements réels².

De la perception à l’action

La véritable innovation de Cosmos 3 réside dans sa capacité à intégrer la notion d’action.

Pour un humain, observer une personne qui ouvre une porte, déplace un objet ou monte un escalier paraît naturel. Pour une machine, ces opérations représentent une combinaison complexe de mouvements, de contraintes physiques et de décisions séquentielles.

Cosmos 3 tente précisément de capturer cette dimension.

Le modèle peut générer des données d’action extrêmement détaillées, notamment :

les trajectoires de déplacement ;
les positions d’effecteurs robotiques ;
les angles d’articulations ;
les mouvements de bras mécaniques ;
les séquences nécessaires à l’exécution d’une tâche.

Ces informations sont essentielles pour entraîner des robots capables d’interagir efficacement avec leur environnement.

Cette approche rapproche progressivement les systèmes d’intelligence artificielle du raisonnement physique humain, une capacité considérée comme essentielle pour l’émergence de véritables agents autonomes.

Simuler l’impossible pour mieux entraîner les machines

L’un des cas d’usage les plus prometteurs concerne la génération de scénarios rares ou dangereux.

Dans le monde réel, il est souvent difficile, coûteux ou risqué de reproduire certaines situations nécessaires à l’entraînement des systèmes autonomes. Les collisions de véhicules, les accidents industriels ou les défaillances mécaniques constituent des événements peu fréquents mais essentiels pour développer des systèmes robustes.

Cosmos 3 permet de générer virtuellement ce type de scénarios afin d’enrichir les données d’entraînement.

Cette approche offre plusieurs avantages :

réduction des coûts de tests physiques ;
amélioration de la sécurité des expérimentations ;
accélération des cycles de développement ;
augmentation de la diversité des situations simulées.

NVIDIA affirme même que certaines phases d’entraînement pouvant nécessiter plusieurs mois pourraient désormais être réalisées en quelques jours seulement².

● Certification RS6787

Formation pour dirigeants

IA & Data Science
pour les Managers

Intégrez l’IA dans votre stratégie d’entreprise. Une approche 360° — Technologie, Business & Éthique — conçue pour les décideurs. Prérequis : 5 ans d’expérience managériale.

3 jours Éligible CPF — 1 800 € HT Paris-Villejuif & Nice

Découvrir la formation →

Un modèle ouvert pour accélérer l’écosystème

À l’image de la famille Nemotron, Cosmos 3 adopte une stratégie ouverte. NVIDIA souhaite permettre aux développeurs, chercheurs et industriels d’adapter le modèle à leurs propres besoins.

Cette ouverture contraste avec la tendance observée chez plusieurs acteurs majeurs du secteur qui privilégient des modèles plus fermés.

L’objectif est de favoriser l’émergence d’un écosystème capable d’accélérer l’innovation dans la robotique, la mobilité autonome et les systèmes intelligents.

Parmi les premiers partenaires annoncés figurent notamment Agile Robots, Black Forest Labs et Runway, preuve que NVIDIA cherche à fédérer un large réseau autour de cette nouvelle plateforme².

Vers une IA capable de comprendre le réel

Cosmos 3 illustre une évolution profonde de l’intelligence artificielle. Après avoir appris à comprendre le langage, les images et les données numériques, les modèles cherchent désormais à développer une compréhension plus fine des lois physiques qui gouvernent le monde réel.

Cette évolution pourrait avoir des conséquences majeures pour la robotique, la mobilité autonome, l’industrie ou encore les futurs systèmes d’IA agentique.

L’enjeu n’est plus seulement de créer des modèles capables de répondre à des questions ou de produire du contenu. Il s’agit désormais de construire des systèmes capables d’interagir avec leur environnement de manière fiable, prévisible et autonome.

Avec Cosmos 3, NVIDIA ne cherche donc pas uniquement à améliorer l’intelligence artificielle. L’entreprise tente de rapprocher les machines d’une compréhension du monde physique qui constitue encore aujourd’hui l’une des plus grandes frontières de l’IA.

Cosmos 3 repose sur une architecture d’intelligence artificielle multimodale conçue pour comprendre les environnements physiques et modéliser les interactions entre les objets, les humains et les machines. Développé par NVIDIA, ce modèle appartient à une nouvelle catégorie d’IA appelée « IA physique », dont l’objectif n’est plus uniquement de traiter du texte, des images ou des vidéos, mais également de comprendre les actions qui se déroulent dans le monde réel.

Contrairement aux modèles génératifs classiques qui se concentrent principalement sur le contenu numérique, Cosmos 3 cherche à représenter les lois physiques, les mouvements et les comportements observés dans des environnements réels. Le système analyse différents types de données multimodales, notamment des images, des vidéos, du texte, des sons et des traces d’actions humaines ou robotiques.

À partir de ces informations, le modèle apprend à identifier non seulement ce qui est présent dans une scène, mais aussi ce qui s’y produit, quels mouvements sont réalisés, quelles interactions ont lieu et quelles conséquences peuvent résulter de certaines actions. Cette capacité lui permet de générer des simulations physiques réalistes et de produire des données exploitables pour l’entraînement de robots, de véhicules autonomes ou d’autres systèmes intelligents.

Fonctionnalités clés de Cosmos 3

Compréhension physique avancée : analyse des interactions entre objets, humains et machines
Modèle multimodal : traitement simultané du texte, des images, des vidéos, des sons et des actions
Génération de simulations : création d’environnements physiques réalistes pour l’entraînement des IA
Modélisation des mouvements : compréhension des trajectoires, déplacements et comportements dynamiques
Génération de données d’action : production d’informations exploitables pour la robotique et l’automatisation
Architecture ouverte : possibilité d’adaptation et de personnalisation pour des usages industriels spécifiques
Optimisation pour l’IA physique : développement accéléré de robots autonomes et de véhicules intelligents

Contraintes techniques et limites

Besoins importants en puissance de calcul pour l’entraînement et l’inférence
Dépendance à la qualité et à la diversité des données physiques utilisées
Difficulté à reproduire parfaitement certaines situations réelles complexes
Nécessité d’une validation dans des environnements physiques réels après simulation
Risques liés aux biais présents dans les données d’entraînement
Limites actuelles dans la compréhension de situations très imprévisibles ou inédites

D’un point de vue technologique, Cosmos 3 illustre l’évolution de l’intelligence artificielle vers une compréhension plus profonde du monde physique. Les modèles ne cherchent plus uniquement à produire du contenu ou à répondre à des questions, ils apprennent progressivement à interpréter les mécanismes qui régissent les interactions réelles entre les objets et les individus.

Cette approche s’inscrit dans la montée en puissance de l’IA agentique et de la robotique intelligente. L’objectif est de permettre aux systèmes autonomes de prendre des décisions plus fiables en s’appuyant sur une meilleure compréhension des environnements dans lesquels ils évoluent. Ces avancées concernent directement des domaines comme la robotique, la mobilité autonome, le Data management industriel, le data engineering et la simulation avancée.

À retenir : Cosmos 3 transforme l’intelligence artificielle en un système capable de comprendre et simuler le monde physique, ouvrant la voie à une nouvelle génération de robots, de véhicules autonomes et d’agents intelligents capables d’interagir plus efficacement avec leur environnement.

Pour aller plus loin

Le développement de modèles capables de comprendre le monde physique constitue une étape clé dans l’évolution de l’intelligence artificielle, notamment pour la robotique, les véhicules autonomes et les environnements simulés. Sur un sujet connexe, découvrez notre article « DINOv3 par Meta : l’auto-supervision au service d’une analyse visuelle de précision », qui analyse comment les avancées en vision par ordinateur permettent aux systèmes d’IA de mieux interpréter leur environnement et d’interagir avec des situations complexes du monde réel.

Références

1. MarketsandMarkets. (2025). Global Robotics Market Forecast.
https://www.marketsandmarkets.com

2. NVIDIA. (2026). Cosmos 3 Technical Presentation, GTC Taipei 2026.
https://www.nvidia.com