Langage et IA : l’Effet Sapir-Whorf
Introduction
Et si notre façon de penser était influencée par la langue que nous parlons ? C’est le cœur de l’hypothèse de Sapir-Whorf, formulée au XXe siècle par les linguistes Edward Sapir et Benjamin Lee Whorf. Selon eux, chaque langue structure différemment notre perception du monde. « Le monde réel est en grande partie inconscient, et il repose sur la langue de la communauté », écrivait Whorf en 1940 (Language, Thought, and Reality).
Une idée fascinante qui, à l’ère de l’IA générative, résonne avec une actualité toute particulière : que se passe-t-il lorsque les machines pensent à partir du langage ? Pensent-elles comme nous ? Pensent-elles autrement selon la langue ?
L’IA générative pense-t-elle en langage ?
Les modèles de langage comme GPT, LLaMA ou Claude ne sont pas de simples machines à répétition. Ils ne traduisent pas. Ils n’appliquent pas des règles figées. Ils prédisent, extrapolent, génèrent.
Ces modèles sont entraînés sur d’immenses corpus textuels multilingues et produisent du contenu en anticipant statistiquement la suite la plus probable d’un texte. Leur “compréhension” du monde est entièrement dérivée du langage, sans accès direct à la réalité sensorielle.
Comme l’explique Emily M. Bender (University of Washington), co-auteure du célèbre papier « On the Dangers of Stochastic Parrots » (2021), les LLM ne comprennent pas le langage : ils le simulent. Pourtant, leur fonctionnement les rapproche étrangement de l’hypothèse de Sapir-Whorf : leur représentation du monde – fictive, probabiliste, linguistique – est conditionnée par les structures du langage qui les ont nourries.
Une pensée qui change avec la langue
Les recherches récentes sur les IA multilingues montrent que leurs réponses varient selon la langue utilisée. Une étude présentée à ACL 2022 (“Multilingual Language Models Exhibit Language-Specific Biases”) a mis en évidence que des modèles multilingues produisent des réponses différentes à une même question selon la langue, notamment sur des sujets sensibles (genre, morale, hiérarchie sociale).
Dans une autre expérience menée par des chercheurs d’Anthropic en 2023 (“Do Language Models Have Beliefs?”), les auteurs ont constaté que GPT-3 exprimait des jugements moraux divergents selon la langue utilisée pour poser la question. Par exemple, la réponse à un dilemme éthique comme le “trolley problem” changeait sensiblement entre les versions anglaise, allemande et japonaise.
Ces variations linguistiques induisent donc des différences cognitives dans la manière dont l’IA traite l’information. Comme le disait Whorf : « Nous disséquons la nature selon les lignes tracées par nos langues maternelles. » Il en va de même pour les IA.
Le “Trolley Problem”, ou dilemme du tramway
Imaginons un tramway hors de contrôle, fonçant sur cinq personnes attachées à la voie. Vous vous trouvez à côté d’un levier qui pourrait le dévier vers une autre voie, où se trouve une seule personne. Faut-il actionner le levier pour sauver cinq vies, au prix d’en sacrifier une ?
Ce dilemme moral, popularisé par la philosophe Philippa Foot dans les années 1960, interroge notre rapport à l’éthique : faut-il privilégier le plus grand bien (utilitarisme), ou refuser de commettre un acte létal, même pour sauver plus de vies (déontologie) ?
Dans les études sur l’IA, ce scénario est souvent utilisé pour analyser les biais moraux et culturels des modèles de langage. Et leurs réponses varient en fonction de la langue, comme l’a montré l’étude d’Anthropic (2023) – révélant ainsi une forme de relativité éthique induite par la langue elle-même.
Une relativité linguistique artificielle
Faut-il alors parler de “relativité linguistique computationnelle” ? Comme les humains, les IA seraient influencées dans leur manière de traiter une information par la langue qui les structure. Le prisme linguistique devient ici un prisme cognitif pour la machine.
Cela ouvre des questions fondamentales pour les professionnels du langage, du marketing, et de la communication : Peut-on faire confiance à un modèle pour produire un contenu globalement cohérent dans toutes les langues ? Faut-il entraîner ou calibrer différemment les IA selon les contextes culturels ? Comment garantir l’intégrité d’un message lorsqu’il est généré par une IA multilingue ?
Quel impact pour les marques ?
Loin d’être une simple curiosité linguistique, l’hypothèse Sapir-Whorf devient un cadre de lecture essentiel pour comprendre les limites et les potentiels de l’IA générative, spécialement concernant une fonctionnalité déjà largement utilisée : la traduction.
Le problème, vous l’avez compris, est que ce n’est pas juste une question de traduction. C’est une question de vision du monde.
Ca sera l’objet de notre prochain article.
PS. Merci à ceux et celles (dont François Guillot & Antoine Le Troadec) qui m’ont poussé à revoir une enième fois ce magnifique film qu’est Premier Contact de Denis Villeneuve, et dans lequel l’hypothèse Sapir-Whorf est centrale ! cc