De la reconnaissance des formes linguistiques à l'analyse syntaxique
La plupart des descriptions des langues naturelles consistent en une accumulation de règles décrivant le comportement des différents éléments du langage. Cependant, si beaucoup de règles générales ont été établies, leurs exceptions n'ont pratiquement pas été étudiées, ce qui fait que ces descriptions sont incomplètes, voire erronées lorsque le nombre de cas particuliers n'est pas négligeable. Pour remédier à cela, un examen minutieux des phrases élémentaires du français a été mené au LADL. Ces travaux ont abouti à une description très fine des propriétés syntaxiques de ces phrases, codée sous la forme de matrices appelées tables de lexique-grammaire. En 1993, il a été montré que l'on pouvait exploiter les données de ces tables pour effectuer l'analyse automatique de phrases simples. Nous avons étudié un moyen d'étendre ces travaux, de façon à traiter exhaustivement les données du lexique-grammaire, afin de pouvoir analyser n'importe quelle phrase simple du français. Le traitement complet de toutes ces constructions est une opération qui prendra beaucoup de temps, ce qui nous a conduit à nous poser la question de la maintenance de données à long terme. Nous avons ainsi pris le parti d'utiliser un formalisme de description très simple, celui des grammaires locales, afin que les données soient représentées d'une façon la plus claire possible, et qu'elles puissent être maintenues facilement. Dans un premier temps, nous avons testé la puissance de description de notre modèle, à travers l'examen de diverses constructions. Bien que simple, il s'est avéré bien adapté à la description de structures syntaxiques, et a mis en évidence le fait que la distinction entre la recherche de motifs et l'analyse syntaxique n'est qu'une question d'échelle de description. En contrepartie de cette simplicité, nous avons du faire face aux problèmes informatique soulevés par l'exploitation de nos grammaires, en particulier à cause des ordres de grandeur atteints par les données accumulées. Nous avons donc étudié dans un second temps différentes méthodes permettant de manipuler ces données, les unes mettant en jeu des transformations opérant sur les grammaires, les autres concernant les programmes destinés à les appliquer. Les résultats que nous avons obtenus montrent que notre modèle est viable, et que l'accumulation des grammaires décrivant toutes les structures de phrases simples du français est réalisable, ce qui devrait permettre, à terme, d'obtenir un analyseur syntaxique exact pour ces constructions