La génération automatique de textes en langue naturelle est une branche du traitement automatique de la langue (TAL), né au lendemain de la Seconde Guerre mondiale. Warren Weaver, mathématicien de la Fondation Rockfeller influencé par les travaux de Claude Shannon [1], réussit à réunir des fonds ”considérables” pour mettre en œuvre la traduction automatique de textes. Cette possibilité, indique Bouillon [2], intéresse notamment l’armée et les services de renseignement. Mais les travaux de Weaver n’aboutissent pas et le projet est abandonné au début des années 1960.
En 1966, le rapport du comité ALPAC (Automatic Language Processing Advisory Committee), chargé d’évaluer les progrès en traitement automatique des langues conclut que les recherches ne sont pas rentables pour l’état américain qui, dans la foulée, coupe tout subside. Dès lors, les chercheurs vont diversifier leurs actions. A la fin des années 1960, les travaux de Chomsky aboutissent à deux importantes conclusions : ”la structure des phrases est assez régulière pour être décrite de manière formelle dans une grammaire qui rende compte des compétences linguistiques des êtres humains (. . . ), et il développe une théorie qui débouche sur un traitement purement syntaxique des langues”, indique Bouillon. Cette théorie – qui suscitera de vives critiques – dispose que si la syntaxe est indispensable au sens, l’analyse syntaxique peut se faire indépendamment. Parallèlement, d’autres recherches aboutissent à des résultats concluant en matière de traitement automatique de la langue naturelle ”sans que ce soit nécessairement mis en œuvre une grammaire générative transformationnelle”.
Du dialogue homme-machine à la génération de rapports météo
Les premières expériences de TAL consistent en des systèmes de dialogue homme-machine (ELIZA, développé par Joseph Weizenbaum en 1964 ; et SHRDLU, par Terry Winograd en 1970). Mais il faut attendre la fin des années 1970 pour voir se développer les premiers programmes de génération de textes en langue naturelle, souligne Danlos [3].
En 1976, Meehan développe Tale Spin, un générateur interactif de contes dont l’objet est un problème à résoudre. Il simule un monde et assigne des objectifs à ses personnages [4].
En 1985, McKeown met au point le programme TEXT, destiné à répondre à des questions posées à des bases de données sur base d’un réseau sémantique. La même année, le programme ROMPER adapte le contenu qu’il produit aux caractéristiques d’un lecteur [5]. En 1992, le système Gossip, qui a pour objectif de produire des résumés sur son utilisation et signaler des comportements anormaux, s’appuie sur le modèle de la construction en arbre thématique.
Au début des années 1990, le secteur témoigne d’un certain dynamisme et compte plusieurs réalisations dans des domaines très divers, indiquent Zock et Sabah : interfaces aux bases de données, génération automatique de récits, de rapports et de courrier, enseignement assisté par ordinateur, modélisation des processus psychologiques,… Il rassemble ”des linguistes, des psychologues et des chercheurs en intelligence artificielle” [6].
Les chercheurs estimaient, à l’époque, qu’une décennie suffirait pour voir apparaître des systèmes permettant de produire des textes de l’ordre d’une page, d’une qualité proche de celle d’un rédacteur humain. A l’époque, les systèmes de génération automatique de textes se partagent en trois grandes classes, note Ponton : les générateurs de phrases isolées, les générateurs qui produisent quelques lignes de textes (un paragraphe) et les générateurs de textes longs (moins nombreux) [7].
Sur le plan opérationnel, l’un des premiers systèmes de génération automatique de textes s’appelle FoG et il développé au Canada, au début des années 1990, par la société COGENTEX. Il est utilisé pour générer des bulletins météorologiques en anglais et en français : l’ordinateur produit des simulations, qui sont annotées par un être humain. En Europe, Multimeteo (ERLI/LEXIQUEST) remplit la même tâche pour les météos belge, française, espagnole et autrichienne [8].
D’autres types de production de contenus en langue naturelle sont automatisés : documentation de simulations de travail (PlanDoc, 1994), manuels de documentation pour des logiciels (Drafter, 1996), lettres destinées à une clientèle (AlethGen, 1996), textes et graphiques produits à partir de tableaux statistiques (PostGraphe, 1996) [9], génération de documents hypertextes, présentés comme une page du World Wide Web, à partir d’une taxonomie (PEBA, 1996), description de produits commerciaux(Marketing, 1997), lettres personnalisées pour aider à arrêter de fumer (Behaviour Change, 1997) [10] et même des blagues (Entertainment,1997).
Dans le contexte journalistique
La génération automatique de textes est aujourd’hui utilisée dans une variété de domaines et de secteurs, et cela pour une toute aussi large palette de finalités : rapports d’entreprises, notices d’utilisation, rapports médicaux, textes calibrés pour les réseaux sociaux, commentaires de tableaux statistiques ou encore contenus de sites web (qu’ils relèvent du domaine journalistique ou non). Leurs performances tiennent à la fois dans le large volume de données qu’ils sont capables de traiter et dans la rapidité de ce traitement.
Aujourd’hui, la GAT a également investi le terrain du journalisme avec Narrative Science et Automated Science, qui ont lancé le mouvement aux Etats-Unis à la fin des années 2000. Mais la première expérience de GAT dans le contexte journalistique est bien antérieure : en 1985, la chercheuse française Laurence Danlos, mettait au point un système de génération automatique de courts récits d’attentats sur un mode journalistique (dépêche d’agence), à partir de données envoyées via un formulaire [11].
Références
[1] L’article de Claude Shannon ”Théorie mathématique de la communication”, publié en 1948, s’intéresse à la génération de textes en langue naturelle. Son approche mathématique est basée sur la stochastique (caractère aléatoire) dans des modèles construits à partir de chaînes de Markov. Il étudie les probabilités de transition entre les mots pour donner lieu à des phrases qui, au fil de l’expérience, ressemblent de plus en plus à de l’anglais ”ordinaire”.
[2] Bouillon Pierrette. Traitement automatique des langues naturelles. Champs Linguistiques. De Boeck Supérieur, 1998.
[3] Danlos Laurence et Pierrel Jean-Marie (coordonné par). Ingénierie des langues.in IC2 : information, commande, communication. Hermès Science publications, 2000.
[4] Meehan James R. Tale-spin, an interactive program that writes stories. In IJCAI, volume 77, pages 91–98, 1977.
[5] Zock Michael et Sabah Gérard. La génération automatique de textes : trente an déjà, ou presque. Langages, pages 8–35, 1992.
[6] Zock Michael et Sabah Gérard, idem
[7] Ponton Claude. Génération automatique de textes : 30 ans de réalisations. Génération Automatique de Textes (GAT’97), 1997.
[8] Danlos Laurence et Pierrel Jean-Marie, idem
[9] Danlos Laurence et Pierrel Jean-Marie, ibidem
[10] Reiter Ehud and Dale Robert. Building Natural Language Generation Systems. Building Natural Language Generation Systems. Cambridge University Press, 2000.
[11] Danlos Laurence. Écriture automatique. La Recherche Les Cahiers de l’Inria, (443 Juillet-Août 2010), 2010.