Nadiya Balovsiak Professeur agrégé du Département des communications médiatiques de l'UCU

L’intelligence artificielle fermée. Pourquoi OpenAI abandonne l’approche ouverte du ChatGPT

Économie
31 mars 2023, 13:41

OpenAI, le développeur du célèbre chatbot ChatGPT, a récemment présenté son dernier modèle de langage, GPT-4. Malgré les attentes de la communauté technologique, l’entreprise n’a presque rien révélé sur les principes de fonctionnement de sa nouveauté, les ensembles de données qu’elle utilise (ensembles de données qui permet à ChatGPT d’apprendre) ou d’autres informations d’ordre technique. Avec cette décision, OpenAI s’est retrouvé sous le feu des critiques. Cependant, face à l’intensification des discussions sur l’utilisation incontrôlée de l’intelligence artificielle et des craintes quant à son utilisation dans la vie quotidienne, la décision est logique. C’est une manifestation de la contrainte technologique – un phénomène qui se produit quand les technologies dépassent le degré de préparation de la société à l’acceptation et à l’utilisation, et l’émergence de lois capables d’en réglementer les innovations.

OpenAI refuse d’être ouverte

L’annonce publique de GPT-4 n’était pas seulement accompagnée des détails techniques du projet. En plus de cela, OpenAI a expliqué que l’entreprise ne soutenait plus le principe de l’open source, ce qui constitue un changement conceptuel beaucoup plus grave. Bien que l’annonce du nouveau modèle d’IA linguistique de la prochaine génération GPT-4 ait eu lieu relativement récemment et que les capacités du système soient toujours en cours d’évaluation, de nombreux experts associés à l’entreprise ont déjà apporté les premières critiques au travail du génératif modèle.

L’entreprise a partagé un grand nombre de résultats comparatifs et de tests pour GPT-4, mais n’a fourni aucune information sur les données qu’elle a utilisées pour former le système. Elle n’a pas non plus divulgué les méthodes spécifiques utilisées pour créer le nouveau modèle.

Les critiques issues du milieu de l’intelligence artificielle concernent sur le fait de porter atteinte à l’esprit de l’entreprise en tant qu’organisme de recherche et de faire obstacle à la répétition du travail par d’autres. Certains ont même souligné que cela rend aussi plus difficile le développement de défenses contre les menaces créées par des systèmes d’intelligence artificielle tels que GPT-4.

Sécurité et prudence

Commentant sa décision, l’un des co-fondateurs d’OpenAI, Ilya Soutskever, a avancé deux raisons à cela. La première est la grande concurrence, et le second est la nécessité de se conformer à la sécurité.
« Ces modèles sont très puissants et le deviennent de plus en plus. À un moment donné, il sera assez facile avec ces modèles d’infliger beaucoup de dégâts. Et comme cette probabilité ne fait qu’augmenter, la raison pour laquelle nous ne voulons pas les divulguer est évidente », a expliqué Soutskever.

Cette approche contredit vraiment l’un des principes de base de l’entreprise : la transparence.
Expliquant le changement de paradigme, Soutskever déclare : « Nous avions tort. Si vous pensez, comme nous, qu’à un moment donné, l’intelligence artificielle – ou même l’intelligence artificielle générale (AGI) – va devenir extrêmement, incroyablement puissante, alors cela n’a aucun sens d’ouvrir le code source. C’est une mauvaise idée… Je suis convaincu que dans quelques années, il sera absolument clair pour tout le monde qu’il ne peut pas y avoir d’intelligence artificielle en source ouverte »… La principale capacité de l’intelligence artificielle générale, aussi appelée intelligence artificielle universelle, est de comprendre n’importe quelle tâche à laquelle les humains sont confrontés et de la résoudre tout aussi efficacement. En d’autres termes, l’intelligence artificielle générale est ce que nous voyons dans les films de science-fiction, où l’intelligence artificielle peut être aussi intelligente qu’un humain.

A qui appartiennent les données ?

Il ne peut être exclu que le refus de divulguer des détails sur GPT-4 soit en rapport avec la responsabilité légale, à savoir des informations sur les données sur lesquelles le modèle a été formé et si elles comprenaient des données personnelles ou du matériel protégé par le droit d’auteur.
L’ensemble de données sur la base duquel les modèles de langage de l’intelligence artificielle sont formés est une caractéristique très importante de ceux-ci et détermine souvent les capacités des outils qui fonctionnent avec de tels modèles. Par exemple, GPT-3.5 a été formé sur les données jusqu’en 2021.

En conséquence, la version de ChatGPT publiée au début de l’année ne peut pas gérer les dernières nouvelles et événements, et ne fonctionne qu’avec des informations connues jusqu’en 2021 inclus.
Jusqu’à présent, les modèles de langage n’ont pas fait l’objet de poursuites pour des questions de droits d’auteur, mais d’autres outils d’IA – des générateurs d’images dotés d’une intelligence artificielle qui apprennent aussi à partir de contenus en ligne (DALL*E 2, Midjourney) – ont déjà été attaqués en justice par des artistes indépendants et la banque de photos Getty Images pour violation des droits d’auteur.

Lorsqu’on a demandé à Ilya Soutskever dans une interview si OpenAI pouvait confirmer que l’ensemble de données et les données de formation ne contenaient pas de matériel piraté, il n’a pas répondu directement.

Boîte noire dangereuse

Jamais auparavant une nouvelle intelligence artificielle puissante n’était passée aussi rapidement du laboratoire aux produits de consommation. Et c’est précisément le danger. Malgré toute la force et la puissance de GPT-4, il reste imparfait et capable de générer du faux contenu comme les autres modèles de langage. D’une part, OpenAI affirme que les tests de sécurité GPT-4 étaient suffisants pour que les applications tierces utilisent le produit. Mais OpenAI s’attend aussi à des surprises.

« La sécurité n’est pas une chose binaire ; c’est un processus », dit Soutskever. « Tout devient plus difficile à chaque addition de nouvelles capacités. Beaucoup de ces possibilités sont maintenant assez bien comprises, mais je suis sûr que certaines seront encore surprenantes », précise-t-il.

Dans le même temps, OpenAI ne cache pas que la capacité de GPT-4 à générer des contrefaçons très convaincantes leur fait craindre les conséquences futures de la technologie. Le rapport OpenAI indique que GPT-4 génère des faux « de manière plus convaincante que les versions précédentes du modèle ».

Le rapport indique qu’une dépendance excessive à l’égard des informations générées par un chatbot peut s’avérer problématique. En plus des erreurs non détectées et d’une supervision inadéquate, « à mesure que les utilisateurs deviennent plus à l’aise avec le système, la dépendance au modèle peut entraver le développement de nouvelles compétences ou même entraîner la perte de compétences importantes ».

Quels problèmes peuvent apparaître alors ? L’un d’entre vient de la capacité de ChatGPT à tromper un candidat à un emploi. Le bot devait accéder à des données protégées par un code captcha (pour vérifier si l’utilisateur est une personne réelle). Auparavant, les machines ne pouvaient pas passer ce test. Mais le robot a engagé un humain sur le site d’emploi TaskRabbit pour qu’il passe le code captcha à sa place. Quand le candidat a demandé si le recruteur n’était pas un robot, le robot a menti. Il a expliqué le fait même de la demande par de la cécité.

Un autre exemple de comportement problématique du chatbot ressort des tests du Alignment Research Center, démontrant la capacité du chatbot à lancer une attaque de phishing. Des tentatives de cybercriminels d’utiliser des chatbots pour écrire du code malveillant et organiser des cyberattaques ont aussi déjà été enregistrées.

Tous ces risques, qui ne peuvent que s’amplifier si les modèles d’IA sont largement utilisés, ont conduit à la décision d’OpenAI de limiter l’accès au code et à l’ensemble de données.

Autres risques

Outre les risques purement techniques, l’utilisation massive de l’intelligence artificielle comporte d’autres risques dangereux pour les droits de l’homme.

Les grandes quantités de données disponibles sur chaque internaute permettent de créer des messages manipulateurs sophistiqués. Après tout, sur la base de ces informations et sur la base des demandes qu’une personne adresse à un chatbot, il est possible de recevoir des données sur ce qui est susceptible d’influencer l’utilisateur, de l’enthousiasmer ou de l’irriter. Il permet aussi de créer des systèmes de fraude personnalisés. Un autre problème est la discrimination, c’est-à-dire la sélection de certains groupes de personnes sur la base de données les concernant. L’exemple le plus simple est l’utilisation de l’intelligence artificielle dans le recrutement, où l’algorithme va trier les candidats, par exemple, par âge.

C’est pourquoi de plus en plus d’entreprises limitent l’utilisation des chatbots IA à des fins commerciales, en tenant compte des risques généraux de cette technologie et des dangers des données sensibles.

En 2016, le chercheur en intelligence artificielle Nick Bostrom a comparé les expériences de l’humanité avec l’intelligence artificielle à des enfants jouant avec une bombe. Selon lui, nous ne comprenons pas encore toutes les conséquences que l’utilisation massive des outils d’IA entraînera. Le scientifique est convaincu que le modèle le plus probable ne sera pas celui dans lequel l’IA détruira l’humanité à l’aide d’une arme, mais la manipulera simplement, comprenant comment fonctionne le cerveau humain et comment la pensée humaine peut être manipulée. Ce manipulateur peut également devenir une entreprise privée qui comprendra tous les avantages de l’utilisation de l’intelligence artificielle et apprendra à travailler avec. C’est pourquoi le modèle fermé adopté par OpenAI est un scénario plus sûr pour le développement de l’intelligence artificielle dans l’environnement actuel.