Iana Atanassova devant un ordinateur. Un collègue se tient derrière elle.
Ludovic Godard
Auteur 
Catherine Tondu

Au commencement était le verbe

Quand la puissance de l’informatique s’allie à l’analyse de la linguistique, la sélection des données prend un tour que maîtrise parfaitement le centre Lucien Tesnière à l’université de Franche-Comté, rompu à cet exercice de longue date.

Identifier et valoriser le sens des données sont à l’origine de nombreux travaux de recherche au centre Tesnière. Dans son travail de post-doctorant, Ibrahim Soumana interroge internet. Son idée est de sélectionner les informations les plus pertinentes par rapport à un objectif de recherche sur la toile, en croisant un modèle linguistique avec un langage naturel. « Cette façon d’opérer va à l’encontre des algorithmes standard de Google, qui, eux, travaillent selon un profil d’utilisateur », explique le jeune chercheur.

Un autre aspect du projet est d’amener les entreprises à partager en petit comité les données qui pourraient être utiles à chacune, sachant que « plus de 80 % des informations sont ignorées des moteurs de recherche en raison de leur caractère confidentiel ». Le logiciel mis au point par Ibrahim Soumana fera l’objet d’une démonstration sous forme de prototype dès cet automne auprès des entreprises, pour lesquelles il peut représenter une alternative ou un complément aux méthodes statistiques traditionnelles.

Cette logique du sens prévaut aussi dans le travail de Iana Atanassova, qui, elle, s’attache au tri sélectif des données de la recherche. « L’objectif est d’analyser le contenu d’articles scientifiques à très grande échelle pour établir l’état de l’art d’un domaine particulier », explique la chercheuse, qui a choisi la biologie pour tester sa méthode à partir d’un corpus de quelque 100 000 articles. C’est le verbe qui concentre toutes les attentions.

Des algorithmes sont chargés d’identifier les verbes dans un texte, de les relier entre eux, d’étudier leur sens précis et leur contexte linguistique. Il n’est pas ici question de statistiques, mais de sélection d’informations par le sens, là encore selon un objectif défini. « L’extraction de catégories sémantiques permet à chacun de consulter rapidement ce qui l’intéresse à l’intérieur d’une vaste somme d’informations », conclut la chercheuse, dont le travail a fait l’objet de plusieurs publications.

Extrait du dossier « Dompter le big data » paru dans le numéro 266 de septembre - octobre du journal en Direct.

Contact

Centre Lucien Tesnière

Articles relatifs