
Les récentes allocutions de Donald Trump ont servi de terrain d’expérimentation aux intelligences artificielles. Une étude a analysé les métaphores de ses discours pour sonder la capacité des modèles de langage à saisir le sens figuré en politique. Les résultats mettent en lumière des faiblesses notables chez des systèmes comme ChatGPT.
💡 Points clés
- 🗣️ Les discours politiques riches en métaphores sont un défi pour les IA.
- 🧠 Les modèles de langage comme ChatGPT peinent à saisir le sens figuré et le contexte humain.
- ❌ Malgré un taux de détection correct, l’IA commet des erreurs récurrentes de compréhension.
- 🤝 L’expertise humaine reste indispensable pour l’analyse des subtilités rhétoriques.
Comprendre les modèles de langage et leurs limites
Les modèles de langage étendus, ou LLM, sont des programmes informatiques conçus pour comprendre et générer du langage humain. Ils fonctionnent en analysant de vastes quantités de texte, apprenant ainsi les schémas statistiques d’utilisation des mots. Des outils comme ChatGPT peuvent rédiger des essais, résumer des documents et même soutenir des conversations qui semblent naturelles.
Toutefois, ces systèmes ne possèdent pas une compréhension du langage comparable à celle des humains. Ils se basent sur la reconnaissance de motifs pour prédire les mots suivants. Cela mène à des résultats souvent convaincants, mais peut aussi entraîner des erreurs d’interprétation, surtout quand le langage est abstrait ou chargé d’émotion.
L’expérimentation sur les discours de Donald Trump
Pour évaluer la capacité des LLM à détecter les métaphores en politique, des chercheurs ont sélectionné quatre discours de Donald Trump. Il s’agissait de son discours d’acceptation de la nomination républicaine, de ses déclarations après sa victoire électorale, de son discours inaugural et de son allocution devant le Congrès. Ces textes, totalisant plus de 28 000 mots, ont été choisis pour leur langage idéologiquement et émotionnellement intense, utilisant souvent la métaphore pour cadrer les problèmes politiques.
Les scientifiques ont employé une méthode appelée analyse critique des métaphores. Celle-ci examine comment les métaphores influencent la pensée politique et façonnent les attitudes publiques. Ils ont ensuite adapté cette méthode pour l’utiliser avec ChatGPT-4. Le modèle a été invité à suivre un processus précis : comprendre le contexte, identifier les métaphores potentielles, les catégoriser par thème et expliquer leur impact émotionnel ou idéologique probable.
ChatGPT face aux subtilités métaphoriques
Le modèle de langage a réussi à détecter les métaphores avec un succès modéré. Sur 138 phrases échantillonnées, il a correctement identifié 119 expressions métaphoriques. Cela représente un taux de précision d’environ 86 %. Cependant, un examen plus approfondi a révélé des problèmes récurrents dans le raisonnement du modèle. Ces lacunes offrent un aperçu des limites de l’intelligence artificielle face à la communication humaine complexe.
Une erreur fréquente était la confusion entre métaphores et d’autres formes d’expression, comme les comparaisons directes. Par exemple, la phrase « Washington D.C., qui est un horrible champ de bataille » a été interprétée comme métaphorique, alors qu’il s’agit d’une comparaison littérale émotionnellement chargée. Le modèle a également eu tendance à sur-analyser des expressions simples. Il a ainsi identifié « une série de promesses audacieuses » comme une métaphore spatiale, bien qu’aucune intention figurative n’ait été présente. De plus, il a eu du mal à classer correctement les noms propres et les termes techniques, traitant « Dôme de Fer » comme une métaphore au lieu d’un nom propre.
Ces glissements prouvent que les LLM détectent les motifs de surface mais manquent souvent de la capacité à comprendre le sens dans le contexte. Contrairement aux humains, ils ne s’appuient pas sur l’expérience vécue, la connaissance culturelle ou la nuance émotionnelle pour donner un sens au langage. C’est particulièrement évident lors de l’analyse de la rhétorique politique, où la métaphore est utilisée pour puiser dans des sentiments, des histoires et des identités partagées.
Défis de classification et variations de performance
L’étude a aussi évalué la capacité du modèle à classer les métaphores selon des thèmes communs ou « domaines sources ». Ces catégories incluent des concepts comme la Force, le Mouvement et la Direction, la Santé et la Maladie, ou le Corps Humain. Trump a fréquemment utilisé des expressions comme « Nous nous levons ensemble » ou « Délivrons le destin glorieux de l’Amérique », que le modèle a correctement classées comme des métaphores de Mouvement ou de Force. Ces métaphores véhiculent des idées de progrès et de contrôle, des thèmes clés dans la communication de campagne.
Cependant, le modèle a moins bien performé dans des catégories plus rares ou abstraites, telles que la Cuisine et l’Alimentation ou les Plantes. Dans la catégorie des Plantes, il n’a détecté aucune métaphore pertinente. Pour la Cuisine et l’Alimentation, il a généré plusieurs faux positifs, identifiant des métaphores que les évaluateurs humains ont jugées littérales. Ces résultats suggèrent que les LLM sont plus fiables avec des types de métaphores familiers et fréquemment utilisés, et moins performants dans les domaines exigeant une compréhension nuancée ou un contexte culturel.
Comparaison avec les outils traditionnels et faiblesses structurelles
Pour valider leurs découvertes, les chercheurs ont comparé les résultats de l’IA avec ceux d’outils d’analyse métaphorique traditionnels. Parmi eux, on retrouve Wmatrix et MIPVU. Les résultats étaient globalement fortement corrélés, mais des différences notables sont apparues. ChatGPT s’est avéré plus rapide et facile à utiliser, mais sa précision variait considérablement selon les catégories de métaphores. En revanche, les méthodes traditionnelles étaient plus lentes, mais plus constantes dans l’identification des métaphores dans toutes les catégories.
Un autre problème révélé par l’étude est la forte dépendance des performances des LLM à la manière dont les requêtes sont formulées. Même de petites modifications dans la formulation d’une question peuvent affecter la sortie du modèle. Ce manque de stabilité rend la reproduction des résultats difficile et affaiblit la confiance dans la fiabilité du modèle, surtout pour des contenus sensibles comme les discours politiques.
Les chercheurs ont également mis en évidence des problèmes structurels plus larges dans la formation des LLM. Ces modèles s’appuient sur d’énormes ensembles de données tirés d’Internet, souvent non organisés ou non annotés pour le sens. Par conséquent, les LLM peuvent manquer d’exposition au langage métaphorique dans des contextes culturels, historiques ou politiques spécifiques. Ils peuvent aussi absorber et reproduire des biais existants liés au genre, à la race ou à l’idéologie, en particulier lors du traitement de textes chargés émotionnellement ou politiquement.
L’expertise humaine, un atout indétrônable
Les chercheurs concluent que, bien que les modèles de langage étendus montrent des promesses dans l’analyse des métaphores, ils sont loin de remplacer l’expertise humaine. Leur tendance à mal interpréter, à exagérer ou à manquer des subtilités les rend mieux adaptés à l’assistance des chercheurs plutôt qu’à la réalisation d’analyses entièrement automatisées. En particulier, les métaphores politiques, qui reposent souvent sur des symboles culturels partagés, une résonance émotionnelle profonde et un cadrage idéologique implicite, restent difficiles à saisir pour ces systèmes. L’étude, intitulée «Large language models prompt engineering as a method for embodied cognitive linguistic representation: a case study of political metaphors in Trump’s discourse», a été réalisée par Haohan Meng, Xiaoyu Li et Jinhua Sun, et publiée dans la revue Frontiers in Psychology.
