Dans une étude révolutionnaire menée en Chine continentale, des chercheurs de l'Académie chinoise des sciences révèlent que les grands modèles de langage multimodal — ces systèmes IA avancés entraînés sur du texte et des images — peuvent construire des concepts d'objets comme le font les humains. Publié dans Nature Machine Intelligence le 9 juin, cette recherche ouvre une fenêtre sur la manière dont les machines pourraient bientôt partager notre façon de comprendre le monde.
Les humains ne voient pas seulement un fruit — ils savent comment il goûte, comment il est utilisé dans des recettes de Nairobi à Rio, et les souvenirs qu'il évoque. Du Changde, le premier auteur de l'étude, explique que nos cerveaux tissent ensemble des caractéristiques physiques, des usages, des émotions et des histoires culturelles dans des cartes riches et multidimensionnelles. La grande question ? L'IA peut-elle réaliser quelque chose de similaire sans jamais goûter les mangues, en se contentant de lire à leur sujet ?
Pour le savoir, l'équipe a recueilli un ensemble de données massif — 4,7 millions de jugements — provenant de modèles LLM unimodaux et multimodaux. Ils ont cartographié 1 854 objets du quotidien (des ballons de football aux tasses de café) dans un espace à 66 dimensions qui capture leur similarité conceptuelle. Le résultat : des incorporations d'IA qui regroupent les objets de manière étonnamment proche de nos modèles mentaux, même si l'IA s'appuie davantage sur des balises sémantiques que sur des indices visuels purs.
Le co-auteur correspondant He Huiguang souligne ce passage de la « reconnaissance machine » à la « compréhension machine ». Plutôt que d'évoquer des entrées de manière aléatoire comme des « perroquets stochastiques », ces LLM semblent développer des modèles internes sur la manière dont les objets se rapportent et ce qu'ils signifient — ouvrant la voie à des assistants IA plus intuitifs, des robots plus intelligents dans les usines, et des outils éducatifs enrichis dans les pays du Sud.
Cette étude marque un chapitre passionnant dans la recherche en IA — où les algorithmes ne se contentent pas de nommer des pixels mais commencent à penser en nuances de sens, tout comme nous le faisons lorsque nous relions une mangue aux marchés d'été à Dakar ou à l'arôme du café à Bogota.
Reference(s):
Chinese Scientists Reveal AI’s Capacity for Human-Like Object Cognition
globaltimes.cn