March 29, 2023

“L’IA est en avance sur les États-Unis.” examen de licence médicale.” “ChatGPT réussir les examens de la faculté de droit malgré des performances “moyennes”.” “ChatGPT obtiendra un MBA de Wharton?”

Des titres comme ceux-ci ont récemment vanté (et souvent exagéré) les succès de ChatGPT, un outil d’intelligence artificielle capable d’écrire des réponses textuelles sophistiquées aux invites humaines. Ces réalisations s’inscrivent dans une longue tradition de comparaison des capacités de l’IA avec celles d’experts humains tels que Victoire aux échecs de Deep Blue sur Gary Kasparov en 1997, IBM Watson “Menace!” la victoire sur Ken Jennings et Brad Rutter en 2011 et AlphaGo gagne dans Go over Lee Sedol en 2016.

Le sous-texte implicite de ces titres récents est plus alarmant : l’IA vient pour votre travail. C’est aussi intelligent que votre médecin, votre avocat et le conseiller que vous avez embauché. Cela laisse présager une perturbation imminente et généralisée de nos vies.

Mais le sensationnalisme mis à part, comparer l’IA à la performance humaine nous dit quelque chose pratique utile? Comment devrions-nous utiliser efficacement l’IA pour réussir l’examen de licence médicale aux États-Unis ? Pourrait-il collecter de manière fiable et sécurisée les dossiers médicaux lors de l’admission des patients ? Que diriez-vous d’offrir un deuxième avis sur le diagnostic? On ne peut pas répondre à ces types de questions avec des performances humaines comparables à l’examen de licence médicale.

Le problème est que la plupart des gens ont peu de connaissances en IA – ils comprennent quand et comment utiliser efficacement les outils d’IA. Nous avons besoin d’un cadre général simple pour évaluer les forces et les faiblesses des outils d’IA que tout le monde peut utiliser. Ce n’est qu’alors que le public pourra prendre des décisions éclairées sur l’intégration de ces outils dans notre vie quotidienne.

Pour répondre à ce besoin, mon groupe de recherche s’est tourné vers une vieille idée de l’éducation : Taxonomie de Bloom. La taxonomie de Bloom , publiée pour la première fois en 1956 et révisée plus tard en 2001, est une hiérarchie décrivant les niveaux de pensée dans lesquels les niveaux supérieurs représentent une pensée plus complexe. Ses six niveaux sont : 1) Se souvenir – rappeler des faits de base, 2) Comprendre – expliquer des concepts, 3) Appliquer – utiliser des informations dans de nouvelles situations, 4) Analyser – relier des idées, 5) Évaluer – critiquer ou justifier une décision ou une opinion. et 6) Créer — créer une œuvre originale.

Ces six niveaux sont intuitifs même pour les non-experts, mais suffisamment spécifiques pour faire des évaluations significatives. De plus, la taxonomie de Bloom n’est pas liée à une technologie spécifique – elle s’applique à la cognition au sens large. Nous pouvons l’utiliser pour évaluer les forces et les limites de ChatGPT ou d’autres outils d’IA qui manipulent des images, créent du son ou pilotent des drones.

Mon groupe de recherche a commencé à évaluer ChatGPT à travers le prisme de la taxonomie de Bloom en lui demandant de répondre à des changements rapides, chacun ciblant un niveau de cognition différent.

Par exemple, nous avons demandé à l’IA : “Supposons que la demande de vaccins COVID cet hiver devrait être de 1 million de doses plus ou moins 300 000 doses. Combien devrions-nous stocker pour répondre à 95 % de la demande ? — la tâche Appliquer. Nous avons ensuite modifié la question pour lui demander de « discuter des avantages et des inconvénients de la commande de 1,8 million de vaccins » – une tâche de niveau évaluation. Nous avons ensuite comparé la qualité des deux réponses et répété cet exercice pour les six niveaux de taxonomie.

Les résultats préliminaires sont instructifs. ChatGPT fonctionne généralement bien avec les tâches de rappel, de compréhension et d’application, mais a du mal avec les tâches plus complexes d’analyse et d’évaluation. Au premier défi, ChatGPT a bien répondu application et explicatif une formule qui suggère une quantité raisonnable de vaccin (même si elle fait une petite erreur arithmétique dans le processus).

Pour le second, cependant, ChatGPT hésitait de manière peu convaincante à avoir trop ou trop peu de vaccins. Il n’a fait aucune évaluation quantitative de ces risques, n’a pas pris en compte les problèmes logistiques de stockage au froid pour une si grande quantité et n’a pas averti de la possibilité qu’une variante résistante aux vaccins puisse survenir.

Nous constatons un comportement similaire pour différents défis à travers ces niveaux de taxonomie. Ainsi, la taxonomie de Bloom nous permet de développer une évaluation plus détaillée de la technologie de l’IA qu’une comparaison de l’intelligence humaine et artificielle brute.

Quant à notre médecin, avocat et consultant, la taxonomie de Bloom fournit également un aperçu plus détaillé de la façon dont l’IA pourrait un jour remodeler – et non remplacer – ces professions. Bien que l’IA puisse exceller dans les tâches de rappel et de compréhension, peu de gens consultent leur médecin pour noter tous les symptômes possibles d’une maladie, ou demandent à leur avocat de réciter textuellement la jurisprudence, ou engagent un consultant pour expliquer les cinq forces de Porter.

Mais avec des tâches cognitives à un niveau supérieur, nous nous tournons vers des experts. Nous apprécions le jugement clinique de notre médecin dans l’évaluation des avantages et des risques d’un plan de traitement, la capacité de notre avocat à synthétiser les précédents et à plaider en notre nom, et la capacité de notre consultant à identifier des solutions prêtes à l’emploi auxquelles personne d’autre n’a pensé. Ces compétences consistent à analyser, évaluer et créer des tâches, des niveaux de cognition où la technologie de l’IA est actuellement insuffisante.

En utilisant la taxonomie de Bloom, nous pouvons voir qu’une collaboration efficace entre l’homme et l’IA signifiera en grande partie la délégation de tâches cognitives de niveau inférieur pour concentrer notre énergie sur des tâches cognitives plus complexes. Au lieu de chercher à savoir si l’IA peut rivaliser avec un expert humain, nous devrions nous demander dans quelle mesure les capacités de l’IA peuvent être utilisées pour soutenir la pensée critique, le jugement et la créativité humains.

Bien sûr, la taxonomie de Bloom a ses limites. De nombreuses tâches complexes impliquent plusieurs niveaux de taxonomie, frustrant les tentatives de catégorisation. Et la taxonomie de Bloom n’aborde pas directement les problèmes de préjugés ou de racisme, ce qui est un problème majeur avec les applications à grande échelle de l’intelligence artificielle. Bien que la taxonomie de Bloom soit imparfaite, elle reste utile. Il est suffisamment simple à comprendre pour tout le monde, suffisamment général pour s’appliquer à un large éventail d’outils d’IA et suffisamment structuré pour garantir que nous posons un ensemble de questions cohérentes et approfondies sur ces outils.

Tout comme l’essor des médias sociaux et des fausses nouvelles nous oblige à développer une meilleure littératie médiatique, des outils comme ChatGPT nous obligent à développer notre littératie en IA. La taxonomie de Bloom offre un moyen de réfléchir à ce que l’intelligence artificielle peut faire – et ce qu’elle ne peut pas faire – à mesure que ce type de technologie fait partie de plus en plus de nos vies.

Vishal Gupta est professeur agrégé de science des données et d’opérations à l’USC Marshall School of Business et occupe un poste de courtoisie au département de génie industriel et des systèmes.


Leave a Reply

Your email address will not be published. Required fields are marked *