Accueil > Forum TERATEC > Ateliers > Atelier 6

Forum Teratec 2024
Jeudi 30 mai

Atelier 05 - De 09h00 à 12h30

Les applications de l’IA dans la recherche et l’industrie
Présidé par Stéphane Requena, Director Innovation & Technology, Genci et Patrick Fabiani, AI Roadmapping & Advanced Scientific Studies, Dassault Aviation

Faut-il avoir peur du grand méchant GPT ?
Démystification des modèles de langue et prevention de leurs weaponisation.

Par Djamé Seddah, Associate Professor in CS, Inria

Au moment où toute prise de positions publiques fait soit l’objet d’une “meme-isation” instantanée ou est passée au crible d’un fact-checking tout aussi rigoureux que le plus souvent invisible, l’apparition d’outils performants de génération de texte à la simplicité d’emploi confondante interroge, questionne, voire inquiète parfois. La plupart de ces outils accessibles au grand public sont en effet des pures boîtes noires à propos desquelles on ne sait rien ou presque : leurs données d'entraînement ? rien. Leurs architectures ? si peu. Leurs performances ? le plus souvent au doigt mouillé.

Est-ce qu’on peut moins détecter leur contenu et par conséquent leurs éventuelles influences ? pas vraiment, même OpenAI, créateur de ChatGPT rapporte des taux de succès de 26%. Dans cette présentation, je ferai un tour d'horizon des principaux modèles de langues, questionnerai leur pertinence dans un milieu académique et aborderai la question de leur détectabilité dans des contextes antagonistes (ou “adversariaux” en franglais). J’évoquerai aussi la problématique grandissante de leur weaponisation.

Biographie : Djamé Seddah est Maître de conférences à Sorbonne Université et en détachement à l'INRIA Paris dans l'équipe Almanach. Ses centres d'intérêts couvrent le domaine du traitement du langage naturel, principalement l'analyse syntaxique multilingue à large couverture, l'interface syntaxe-sémantique, les modèles de langues pour les langues peu dotées, etc. Spécialiste en constitution de corpus annotés (corpus Sequoia, French Social Media Bank, French Question Bank, Narabizi Treebank, etc.), il a participé à l’élaboration des modèles de langues CamemBERT, PagnolXL, CamemBERTa et des modèles à base de caractères pour des langues dialectales et fortement bruitées. Ses recherches actuelles sont centrées autour des modèles de langues et des moyens possibles d’éviter leur “weaponisation” (détection de contenu, détection et mitigation des biais, etc.)

Inscrivez-vous au Forum Teratec pour participer à cet atelier >>>

© Teratec - Tous droits réservés - Mentions légales