Ma première confrontation à ChatGPT dans un cadre professionnel

+

Voir aussi un exposé sur ce thème

https://www-verimag.imag.fr/~maraninx/teaching/expose-chatgpt-inp/

Perroquets stochastiques ou “Mansplaining-as-a-Service” ?

Disons-le tout de suite, ma référence en matière de grands modèles de langage, c’est le papier On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? qui a déjà 2 ans, et qui alertait sur les dangers de ces objets. Les autrices Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell sont des sources d’analyses très éclairantes depuis le lancement de ChatGPT.

A mon avis les problèmes potentiels immédiats liés à l’évaluation d’étudiants dans le cadre scolaire ou universitaire sont loin d’être les plus graves suscités par l’avénement de ces “outils”. Cela dit, il va bien falloir faire quelque chose, prendre position, ne fût-ce que parce que lire la production de ChatGPT est assez pénible pour un enseignant. Les textes auxquels j’ai été confrontée sont absolument et parfaitement corrects du point de vue de l’orthographe et de la grammaire, mais aussi parfaitement creux, avec un ton péremptoire ne laissant aucune place au doute ou à la nuance. D’où la 2ème citation ci-dessus, due à Christine Lemmer-Webber : ChatGPT, c’est du Mansplaining-as-a-Service.

Mon expérience en janvier 2023

J’ai été confrontée (selon toute probabilité) aux productions de ChatGPT pour la première fois en lisant des comptes-rendus de conférences en janvier 2023. Les conférences avaient eu lieu entre septembre et novembre 2022, le compte-rendu était dû le 4 janvier 2023, ChatGPT a été jeté dans la nature fin 2022. Les étudiant.e.s qui n’étaient pas complètement débranché.e.s pendant les vacances de noël ont vu le potentiel. Et comme nous n’avions pas encore eu le temps (et pour cause) d’y réfléchir posément et d’édicter des règles à ce sujet, je n’ai rien à leur reprocher. J’avais noté explicitement dans les consignes de l’exercice :

... tout ce que vous écrivez doit être strictement personnel. 
C’est ce que vous avez retenu de la conférence. A la rigueur, si vous avez besoin 
d’une référence, notez soigneusement d’où elle vient, et mettez en évidence 
la portion de texte ou l’image qui n’est pas de vous. 
Une recopie non signalée de sources externes entraîne un 0.

Comme je reçois les textes sous forme numérique, il est très facile de copier-coller dans google les portions de texte qui sautent aux yeux par leur rupture de style, de trouver ainsi la source externe non signalée, ce qui prouve l’infraction. Maintenant, que penser de portions de texte qui sautent également aux yeux par leur rupture de style, mais qui ne correspondent pas à du texte trouvable facilement sur le web ? Dans le cas de mes comptes-rendus de conférences, je n’ai eu aucun état d’âme, un outil comme ChatGPT étant bien incapable de produire quoi que ce soit de précis par rapport à des conférences orales sans trace sur le web, et datant qui plus est de l’automne 2022. La conclusion (et la note fort médiocre qui en découle) c’est : c’est tellement creux et hors-sujet que ça pourrait être du ChatGPT[^2]. Mais il se pourrait que, d’une part l’outil s’améliore[^1], d’autre part les étudiant.e.s apprennent à l’utiliser de manière plus subtile que dans cette première expérience à chaud. Que faire en tant qu’enseignant ?

Cas particulier des enseignant.e.s en informatique

A ce point de mes réflexions il faut préciser que j’enseigne l’informatique, ce qui a plusieurs conséquences :

– Les outils génératifs comme ChatGPT sont aussi utilisés pour produire des programmes dans un langage informatique. Ce n’est pas du tout le sujet de cet billet.

L’activité de rédaction demandée aux étudiant.e.s n’est pas un but en soi. Je ne prétends pas que ce qui suit pourra aider les collègues dont la discipline s’apprend par la production de textes écrits. Dans mon expérience professionnelle, même en allant jusqu’à la thèse, le texte écrit n’est qu’un moyen de transmettre de l’information technique et scientifique de manière claire, concise, correcte, très structurée, avec références, etc. La qualité littéraire n’est pas le critère majeur, même si on apprécie de lire des choses bien écrites.

– Il est possible d’expliquer aux étudiant.e.s ce qui est caché sous le capot d’outils tels que ChatGPT, afin de démystifier la chose.

– En tant qu’enseignants en informatique, il faut absolument que nous évitions de personnifier la chose, que nous nous interdisions de dire des choses comme : “ChatGPT s’est trompé sur une référence”. ChatGPT ne se “trompe” pas pour la bonne raison que cet objet n’est pas construit pour exprimer une vérité, quelle qu’elle puisse être. Même dans le cas où l’outil produirait des fautes d’orthographe, on ne pourrait affirmer qu’il “se trompe”. Il faudrait dire dans ce cas “l’outil produit des textes contenant des fautes d’orthographe”. Pour résister à la personnification parfois inconsciente, on peut s’appuyer sur les travaux d’Emily Bender qui dit par exemple : Mind your own credulity [19].

– Il est primordial d’expliquer à nos étudiant.e.s, justement parce qu’ils et elles peuvent comprendre la technique et seront peut-être amené.e.s à y contribuer, que la vision purement technique de la chose est très très insuffisante. A ce sujet j’ai beaucoup apprécié ce texte : https://autumm.edtech.fm/2023/01/18/prior-to-or-instead-of-using-chatgpt-with-your-students/. Je prévois de le faire lire à tout groupe à qui je demanderai un texte technique, et qui pourrait être tenté par l’utilisation de ChatGPT.

– En tant qu’informaticien.ne.s on risque d’espérer (voire de contribuer à) l’avénement d’un outil anti ChatGPT (comme https://gptzero.me/), qui permettrait de simplement interdire l’usage de ChatGPT en espérant pouvoir le prouver. Je refuse tout à fait de me placer dans cette hypothèse de course aux armements, on est déjà largement servis avec la cybersécurité. Décider l’interdiction de ChatGPT, c’est se préparer des situations difficiles lorsqu’on n’aura que de fortes présomptions. Et pourquoi faire confiance à un outil de détection ? Pourquoi accepter d’utiliser ces outils de détection alors qu’ils ont les mêmes défauts que ce qu’ils cherchent à contrer ?

Position personnelle

Tout ceci étant posé, je reformule la question : une fois expliqués les à-côtés non techniques du déploiement des outils de type ChatGPT (avec le message : la bonne raison de ne pas s’en servir, ce n’est pas le risque de se faire prendre lors d’une évaluation, mais les dégâts engendrés par ces outils), comment en refuser ou au moins limiter drastiquement l’usage ?

Personnellement je tiens absolument à éviter de tomber dans le piège de l’interdiction. Pour tous les cours dont j’ai la responsabilité, les examens se font “tous documents autorisés”. Je ne travaille plus jamais sans être branchée à une grande quantité de sources sur le web, et j’estime que travailler comme ça serait légitime aussi pour les étudiant.e.s au niveau où je les ai. La seule raison pour laquelle on ne peut pas faire des examens sur machine avec accès internet, c’est qu’il serait alors possible de demander de l’aide à une amie plus avancée.

Cela dit, l’usage de ChatGPT est à considérer plutôt dans le cadre de travaux “à la maison”. Il me semble que la première chose à faire est d’en discuter avec les étudiant.e.s pour fixer des bornes. Pour l’instant j’ai envie de les convaincre que vu la nature de ce qu’on leur demande dans nos diverses évaluations, ChatGPT ou un autre modèle génératif n’ont aucune chance de fournir des contenus intéressants, et que nous préférerons toujours des textes mal écrits avec du fond technique, à des textes bien écrits mais totalement creux.

Quelques idées à explorer

Une première idée est de demander au public concerné, de manière anonyme : Si vous avez été ou êtes tenté.e d’utiliser ChatGPT pour un rendu scolaire ou universitaire, quel avantage en espérez-vous ? (à supposer que ce ne soit pas interdit, ou pas repérable à coup sûr) ?. Avec comme réponses possibles :

  • Pour écrire en bon français, ce qui m’est difficile et me prend beaucoup de temps sinon
  • Pour aller plus vite parce que je trouve l’exercice sans intérêt
  • Pour trouver quoi dire dans l’introduction
  • Pour m’aider à démarrer
  • Pour trouver l’information (j’avais perdu mes notes, je n’avais pas assisté à la conférence ou au cours)
  • Autre (préciser)

Une deuxième idée est de leur faire comparer des productions ChatGPT et des textes écrits par des étudiant.e.s, pas nécessairement les plus doués en écriture. Cela devrait suffire à leur faire réaliser à quel point les premières sont vides d’information par rapport aux deuxièmes. J’aime bien les recommandations sous forme de contre-exemples.

Une troisième idée est de faire un jour un cours entier (pas trop long quand même) basé sur des contenus produits par ChatGPT. Même idée du contre-exemple que ci-dessus, peut-être un peu trop en style vengeance par anticipation. Et puis ça suppose d’utiliser l’outil, ce que pour l’instant j’ai réussi à ne pas faire du tout. Ce qui est un peu hypocrite puisque j’utilise et commente les expériences de mes collègues.

Remarques générales

On a lu cette semaine que Plus de mille chercheurs et entrepreneurs de la technologie ont signé en quelques heures un texte appelant à un moratoire de six mois sur les recherches en Intelligence artificielle pour fixer les règles du jeu ; les progrès fulgurants de l’IA leur font redouter la perte de contrôle..

L’enthousiasme de la presse sur cette tribune ne devrait pas faire oublier ce qu’est l’institut “Future of life”. La encore je laisse la parole à Emily Bender qui commente cette nouvelle.

Extrait : Just sayin’: We wrote a whole paper in late 2020 (Stochastic Parrots, published in 2021) pointing out that this head-long rush to ever larger language models without considering risks was a bad thing. But the risks and harms have never been about “too powerful AI”. Instead: They’re about concentration of power in the hands of people, about reproducing systems of oppression, about damage to the information ecosystem, and about damage to the natural ecosystem (through profligate use of energy resources).

Quelques décisions d’interdiction ou non, ailleurs

Annexes et documents

Notes

  • [^1]: L’outil va-t-il s’améliorer ? Encore faudrait-il décider ce que nous considérerions comme une amélioration. Les articles [13] et [17] sont assez éclairants de ce point de vue. En mode humoristique, on lira aussi [18]. En tant qu’informaticienne toujours tentée par la récurrence, je ne peux pas m’empêcher de me demander ce que donnera le web quand la génération n de ChatGPT aura été entraînée sur les productions des générations 1 à n-1. On chérira alors les erreurs de syntaxe comme un signe certain qu’on est tombé sur un authentique morceau de production intellectuelle originale… Et si l’outil s’améliore dans le sens de la vraisemblance syntaxique, on en reviendra à la tradition orale. [Edit du 20 juin 2023, voilà bien le problème de l’entraînement d’une IA sur la production de l’IA d’avant : Entraîner des IA à partir d’autres IA abime les modèles]. [Edit du 21 juin 2023, c’est même pire, les annotateurs humains cachés derrière la prétendue IA se mettent à utiliser ChatGPT pour faire leur travail ! AI is going to eat itself: Experiment shows people training bots are using bots ]

  • [^2]: On m’a déjà demandé des exemples, je n’en donnerai pas ici, sauf si des discussions avec les étudiant.e.s permettent de construire un petit article de démonstration, contenant des extraits de leur production (avec leur permission).

Références scientifiques

Dans la presse ou chez des collègues