Introduction aux approches automatisées pour évaluer la difficulté du langage

27 Avril 2018

Conférence de Thomas François, chargé de recherche CNRS, CENTAL, IL&C (université catholique de Louvain).

Grand salon de l'UFR SLHS
Ludovic Godard - UFC

Depuis presque un siècle, les recherches en lisibilité ont visé à proposer des modèles mathématiques capables de prédire automatiquement le niveau de difficulté de textes à la lecture. Parmi les modèles les connus, aussi appelés « formules de lisibilité », citons ceux de Flesch (1948), Dale et Chall (1948), Gunning (1952). À l'aube du XXIe siècle, ce domaine a connu un renouveau sous l'impulsion des recherches en traitement automatique du langage, lesquelles ont permis de mettre au point des formules de lisibilités prenant davantage de dimensions textuelles en compte et reposant sur des algorithmes statistiques plus performants. Les sciences cognitives informent également la lisibilité sur les facteurs qui rendent un texte difficile pour un lecteur donné. Enfin, dans la lignée de la lisibilité, des méthodes ont également été développées dans le but de simplifier automatiquement les textes détectés comme trop complexes.

Dans cette communication, nous présentons un panorama de nos travaux sur les méthodes automatiques d'évaluation de la complexité langagière. Nous montrerons comment nous sommes passés d'une vision classique de la lisibilité dont le but est d'associer un niveau de difficulté à l'ensemble du texte, à une approche qui cherche à identifier plus précisément les phénomènes linguistiques rendant problématique la lecture d'un texte (ex. termes rares ou spécialisés, structures syntaxiques complexes, etc.).

Nous présenterons plusieurs recherches réalisées au Cental qui s'intègrent dans ces approches :
– AMesure, un logiciel pour l'aide à la rédaction claire des textes administratifs (François et al., 2014) ;
– le projet DMesure, une plateforme web offrant un diagnostic précis sur la difficulté des textes pour des lecteurs du français langue étrangère ;
– le projet ReSyF (François et al., 2016a), un dictionnaire de synonymes gradués, qui intègre un algorithme d'ordonnancement des mots en fonction de leur difficulté de lecture ;
– le projet CEFRLex (François et al., 2014 ; 2016b ; Tack et al., 2017), un ensemble de lexiques gradués pour l'apprentissage des langues étrangères;
– le projet PrediComplex (Tack et al., 2016) qui vise à prendre en compte les spécificités des lecteurs dans l'évaluation de la difficulté de lecture du lexique.

Horaires

De 10 h à 13 h.

Contact

Centre de recherches interdisciplinaires et transculturelles - CRIT

Lieu

Grand Salon
Tags