Introduction aux approches automatisées pour évaluer la difficulté du langage
27 Avril 2018
Conférence de Thomas François, chargé de recherche CNRS, CENTAL, IL&C (université catholique de Louvain).
Depuis presque un siècle, les recherches en lisibilité ont visé à proposer des modèles mathématiques capables de prédire automatiquement le niveau de difficulté de textes à la lecture. Parmi les modèles les connus, aussi appelés « formules de lisibilité », citons ceux de Flesch (1948), Dale et Chall (1948), Gunning (1952). À l'aube du XXIe siècle, ce domaine a connu un renouveau sous l'impulsion des recherches en traitement automatique du langage, lesquelles ont permis de mettre au point des formules de lisibilités prenant davantage de dimensions textuelles en compte et reposant sur des algorithmes statistiques plus performants. Les sciences cognitives informent également la lisibilité sur les facteurs qui rendent un texte difficile pour un lecteur donné. Enfin, dans la lignée de la lisibilité, des méthodes ont également été développées dans le but de simplifier automatiquement les textes détectés comme trop complexes.
Dans cette communication, nous présentons un panorama de nos travaux sur les méthodes automatiques d'évaluation de la complexité langagière. Nous montrerons comment nous sommes passés d'une vision classique de la lisibilité dont le but est d'associer un niveau de difficulté à l'ensemble du texte, à une approche qui cherche à identifier plus précisément les phénomènes linguistiques rendant problématique la lecture d'un texte (ex. termes rares ou spécialisés, structures syntaxiques complexes, etc.).
Nous présenterons plusieurs recherches réalisées au Cental qui s'intègrent dans ces approches :
– AMesure, un logiciel pour l'aide à la rédaction claire des textes administratifs (François et al., 2014) ;
– le projet DMesure, une plateforme web offrant un diagnostic précis sur la difficulté des textes pour des lecteurs du français langue étrangère ;
– le projet ReSyF (François et al., 2016a), un dictionnaire de synonymes gradués, qui intègre un algorithme d'ordonnancement des mots en fonction de leur difficulté de lecture ;
– le projet CEFRLex (François et al., 2014 ; 2016b ; Tack et al., 2017), un ensemble de lexiques gradués pour l'apprentissage des langues étrangères;
– le projet PrediComplex (Tack et al., 2016) qui vise à prendre en compte les spécificités des lecteurs dans l'évaluation de la difficulté de lecture du lexique.
Horaires
De 10 h à 13 h.
Contact
Lieu
- UFR SLHS - Sciences du langage, de l'homme et de la société
30-32 rue Mégevand
25000 Besançon