Analyse syntaxique de la langue naturelle
En linguistique informatique ou en TALN, l'analyse syntaxique (syntactic parsing) rĂ©fĂšre au processus d'analyse automatisĂ© d'une chaine de mots â reprĂ©sentant une phrase â dans le but d'obtenir les relations coexistant entre ces mots, par l'intermĂ©diaire d'un arbre syntaxique. Lorsquâon part de texte brut, ce dernier doit avoir Ă©tĂ© segmentĂ© en unitĂ©s lexicales au prĂ©alable (tokenization). Habituellement, une analyse lexicale (lemmatisation, analyse morphosyntaxique...) est exĂ©cutĂ©e avant l'analyse syntaxique proprement dite, afin d'identifier les unitĂ©s lexicales et leurs propriĂ©tĂ©s. Le rĂ©sultat de l'analyse est typiquement utilisĂ© comme base dans l'analyse sĂ©mantique, construisant une reprĂ©sentation du sens du texte, ou directement dans des applications telles que la correction grammaticale.
Pour un systÚme de réponse aux questions ou de recherche d'informations, il serait par exemple difficile de répondre correctement à la demande « quels ouvrages ont été écrits par des auteurs francophones avant 1900 ? » sans reconnaitre le sujet « ouvrages », car il faut notamment comprendre que l'utilisateur désire une liste d'ouvrages et non une liste d'auteurs.
Le processus d'analyse peut se reposer sur une grammaire formelle et/ou faire appel à des méthodes statistiques.
Historique
Lâanalyse syntaxique remonte aux dĂ©buts de la recherche en TALN, puisquâun des premiers algorithmes dâanalyse fut introduit par Victor Yngve en 1955, avant mĂȘme le dĂ©veloppement de la thĂ©orie des langages formels par Noam Chomsky en 1956 [1]. DĂšs lors, les analyseurs crĂ©Ă©s vont se fonder sur les grammaires formelles, particuliĂšrement celles dites hors contexte ou de type 2. Entre autres, John Cocke a inventĂ© un algorithme de programmation dynamique en 1960, qui fut ensuite formalisĂ© par T. Kasami (1965) [2] et D. H. Younger (1967) [3] : le cĂ©lĂšbre algorithme CKY, analysant une sĂ©quence en temps cubique grĂące aux grammaires en Forme normale de Chomsky. Ce dernier est de type mixte, câest-Ă -dire combinant les stratĂ©gies ascendantes et descendantes, individuellement moins efficaces.
ParallĂšlement, dans les annĂ©es 1960, plusieurs autres formalismes destinĂ©s Ă lâanalyse syntaxique voient le jour, dont les grammaires de dĂ©pendances inspirĂ©es par Lucien TesniĂšre (1959) et formalisĂ©es avant tout par David Hays (1960). Peu aprĂšs N. Chomsky, John Backus (1959) et Peter Naur (1960) ont indĂ©pendamment rĂ©inventĂ© les grammaires hors contexte dans leur description du langage ALGOL, donnant lieu Ă la cĂ©lĂšbre forme de Backus-Naur. En 1968, Jay Earley inventa le premier algorithme dâanalyse syntaxique en temps cubique pour toutes les grammaires hors contexte (pas nĂ©cessairement en forme normale) [4]. Ă la mĂȘme Ă©poque, R. Kaplan [5] et M. Kay [6] ont gĂ©nĂ©ralisĂ© lâalgorithme CKY Ă toutes les grammaires hors contexte pour en faire le chart parser, utilisant un graphe. Parmi les algorithmes similaires aux deux prĂ©cĂ©dents, on peut encore citer celui du coin gauche (left-corner parser), en rĂ©fĂ©rence au premier symbole de la partie droite dâune rĂšgle de production [7].
Beaucoup dâautres formalismes ont Ă©tĂ© dĂ©veloppĂ©s durant les annĂ©es 1970-1980, dont les rĂ©seaux de transition augmentĂ©s (ATN), et les grammaires dâunification (Constraint-Based Grammars). Une reprĂ©sentation en dĂ©pendances de ces derniĂšres a Ă©tĂ© originairement proposĂ©e par H. Maruyama [8]. Durant les annĂ©es 1990, les dĂ©veloppements furent principalement tournĂ©s vers les mĂ©thodes statistiques, dont un travail important autour des grammaires hors contexte probabilistes (PCFG) [9] â un des modĂšles dâanalyse statistique parmi les plus influents, qui est basĂ© sur une grammaire formelle â dont les problĂšmes principaux sont lâignorance des informations sĂ©mantiques et lâhypothĂšse dâindĂ©pendance de lâattachement structurel des syntagmes. Certaines approches plus rĂ©centes ont permis dâamĂ©liorer les faiblesses des PCFG par la lexicalisation de la grammaire [10], ou lâutilisation dâun jeu plus prĂ©cis de symboles non terminaux [11], entre autres. Du cĂŽtĂ© de la reprĂ©sentation en dĂ©pendances, le premier algorithme stochastique influant fut proposĂ© par Jason Eisner [12].
Pour les mĂ©thodes qui ne requiĂšrent pas lâintervention dâune grammaire, les modĂšles sont directement induits depuis des donnĂ©es annotĂ©es (corpus), ce qui facilite le portage des systĂšmes Ă de nouvelles langues ou domaines. Bien que cette derniĂšre possibilitĂ© soit majoritairement utilisĂ©e de nos jours, les mĂ©thodes basĂ©es sur des grammaires restent utilisĂ©es lorsquâil nâexiste pas suffisamment de donnĂ©es annotĂ©es nĂ©cessaires au fonctionnement des mĂ©thodes supervisĂ©es. Notons au passage quâune grammaire peut trĂšs bien ĂȘtre extraite de donnĂ©es linguistiques ; les mĂ©thodes basĂ©es sur les grammaires (grammar-based parsing) et celles guidĂ©es par des donnĂ©es (data-driven parsing) ne sont donc pas mutuellement exclusives. La catĂ©gorisation suggĂ©rĂ©e des mĂ©thodes statistiques dâanalyse est trĂšs rĂ©pandue dans le domaine du TALN [13].
Difficultés
L'analyse syntaxique est une tĂąche non triviale, principalement en raison de lâambiguĂŻtĂ© intrinsĂšque de la langue et de sa diversitĂ©. Un Ă©noncĂ© est dit ambigu si plusieurs structures linguistiques peuvent y ĂȘtre associĂ©es.
Voici quelques exemples dâambiguĂŻtĂ©s structurelles:
« Jean a vu lâhomme sur la colline avec un tĂ©lescope »
Dans cette phrase, l'attachement du syntagme prĂ©positionnel est ambigu, et on ne sait pas si Jean a utilisĂ© un tĂ©lescope pour voir l'homme, ou si Jean a vu un homme utilisant lui-mĂȘme un tĂ©lescope.
« Ă qui avez-vous promis dâĂ©crire ? »
La question prĂ©cĂ©dente pourrait ĂȘtre paraphrasĂ©e de deux façons: « Vous avez promis dâĂ©crire Ă qui ? » ou « Vous avez promis Ă qui dâĂ©crire ? » ; on ne sait pas si la personne en question va Ă©crire Ă quelqu'un, ou si elle a promis Ă quelqu'un d'Ă©crire (quelque chose).
Lien avec l'analyse d'un langage formel
MĂȘme si le but de l'analyse syntaxique d'un langage formel dĂ©terministe (p. ex. langage de programmation) est identique Ă celui de l'analyse syntaxique de la langue naturelle, la tĂąche est nettement plus ardue dans le second cas.
PremiĂšrement, la capacitĂ© gĂ©nĂ©rative dâune grammaire â sa puissance â est beaucoup plus faible dans le cas des langages informatiques, car ceux-ci doivent ĂȘtre strictement non ambigus et rapidement analysables (donc la grammaire est restreinte). Comparativement, une grammaire prĂ©vue pour la langue naturelle doit permettre par exemple dâexprimer des dĂ©pendances entre des mots Ă©loignĂ©s les uns des autres ; elle est donc plus complexe.
DeuxiĂšmement, comme la langue naturelle souffre dâune ambiguĂŻtĂ© structurelle, Ă chaque Ă©tape de lâanalyse, plusieurs rĂšgles de la grammaire seront probablement applicables. Ainsi, une phrase telle que « Jean a vu lâhomme [sur la colline] [avec un tĂ©lescope] [accompagnĂ© de sa fille] [...] » verra le nombre de ses analyses possibles augmenter exponentiellement avec le nombre de constituants ajoutĂ©s [14]. Au passage, câest une des raisons qui a poussĂ© le dĂ©veloppement des mĂ©thodes statistiques.
La derniĂšre diffĂ©rence notable se situe au niveau de la validitĂ© de la sĂ©quence dâentrĂ©e : un langage de programmation possĂšde un nombre fini de constructions valides, alors quâil est illimitĂ© pour une langue naturelle. De ce fait, lâimpossibilitĂ© de produire une analyse existe dans le cas du TALN, erreur qui nâest d'ailleurs pas nĂ©cessairement due Ă une grammaire inadĂ©quate, mais possiblement Ă une erreur grammaticale, une faute de frappe, un mot inconnu, etc.
Outre ces dissemblances caricaturales, de nombreuses autres existent, comme la délimitation stricte des « phrases » (déclarations, blocs) et mots dans le cas des langages formels avec des caractÚres bien définis.
MĂ©thodes classiques
Méthodes purement basées sur une grammaire
La majoritĂ© des premiers systĂšmes d'analyse syntaxique se fondent exclusivement sur une grammaire indĂ©pendante de contexte (context-free grammar) pour gĂ©nĂ©rer des structures syntaxiques correctes, bien que ce type de grammaire ne soit pas suffisant pour engendrer la langue naturelle dans son ensemble [Note 1]. Conjointement, il est nĂ©cessaire d'avoir un algorithme qui dicte comment ces structures seront efficacement produites. Dans ce cadre-lĂ , lâalgorithme de programmation dynamique CKY est Ă©normĂ©ment utilisĂ©, dans lequel les sous-problĂšmes â maintenus dans un tableau â sont reprĂ©sentĂ©s par les arbres syntaxiques partiels enracinĂ©s sur les syntagmes de la phrase d'entrĂ©e. GrĂące Ă la nature indĂ©pendante du contexte des grammaires, il est possible de rĂ©utiliser une sous-structure dans les dĂ©rivations suivantes qui la demande, rendant possible la programmation dynamique. Les algorithmes concurrents Ă CKY sont celui d'Earley [4] et le chart parsing [5] - [6].
Méthodes aidées par la statistique
Le problĂšme des algorithmes assimilĂ©s Ă CKY est leur incapacitĂ© Ă rĂ©soudre les ambiguĂŻtĂ©s structurelles (voir section « difficultĂ©s »), bien qu'il soit possible de les dĂ©tecter. Pour pallier ce manque, il est nĂ©cessaire d'ajouter une composante statistique au modĂšle; si chaque rĂšgle est accompagnĂ©e d'une probabilitĂ©, il suffit de sĂ©lectionner celle avec la probabilitĂ© la plus haute en cas d'ambiguĂŻtĂ©. Ă ce titre, le formalisme le plus usitĂ© est la grammaire indĂ©pendante de contexte probabiliste (probabilistic context-free grammar ou PCFG) [9]. Une version probabiliste de l'algorithme CKY existe, dĂ©crit avant tout par H. Ney [15]. L'infĂ©rence exacte nĂ©cessite un temps en , oĂč reprĂ©sente le nombre de rĂšgles de la grammaire.
Cependant, le modĂšle de PCFG est relativement limitĂ© dans sa capacitĂ© Ă exceller, car il impose de fortes hypothĂšses d'indĂ©pendances. Le problĂšme majeur est le fait que la probabilitĂ© d'une rĂšgle particuliĂšre soit indĂ©pendante du contexte dans lequel elle est produite ; par exemple, la probabilitĂ© qu'un syntagme nominal soit Ă©tendu en pronom (rĂšgle ) reste constante, que ce syntagme se trouve en position de sujet ou d'objet, alors que la premiĂšre possibilitĂ© est bien plus frĂ©quente pour certaines langues [13]. Par ailleurs, si deux structures diffĂ©rentes utilisent exactement les mĂȘmes rĂšgles, elles obtiendront la mĂȘme probabilitĂ© ; or, pour une mĂȘme phrase (donc mĂȘmes rĂšgles), il y a souvent une structure qui est prĂ©fĂ©rĂ©e Ă une autre (lorsque plusieurs possibilitĂ©s existent), chose qui n'est pas vĂ©hiculĂ©e par le formalisme PCFG.
Plusieurs modĂšles furent proposĂ©s dans le but de rĂ©soudre les problĂšmes citĂ©s ci-devant. Un des plus influents est celui de Michael Collins, appelĂ© LPCFG ou parfois head-driven [16], consistant Ă lexicaliser la grammaire par l'Ă©lection d'un Ă©lĂ©ment prĂ©pondĂ©rant (head rule) pour chaque rĂšgle de la grammaire. De cette façon, chaque nĆud parent de l'arbre syntaxique est "paramĂ©trĂ©" par un mot de la phrase ; par exemple une rĂšgle pour une PCFG pourrait devenir si « le chien » fait partie de la phrase Ă analyser. Comme est l'Ă©lĂ©ment prĂ©pondĂ©rant pour cette rĂšgle, le parent hĂ©rite du mot « chien ».
L'annotation des nĆuds non terminaux d'une PCFG, connue sous le nom de parent annotation [17], a aussi connu un grand succĂšs pour l'analyse de constituants, car la prĂ©cision des systĂšmes implĂ©mentant cette technique est similaire Ă ceux Ă base de LPCFG, avec une moindre complexitĂ© [18]. Une telle annotation pourrait ĂȘtre par exemple si compose un syntagme prĂ©positionnel.
Une autre solution au manque de sensibilité structurelle des PCFGs est le data oriented parsing (DOP) établi par Remko Scha et Rens Bod [19] - [20]. Le principe est d'analyser des phrases en combinant des fragments d'analyses de phrases dont la structure est connue, comme celles provenant d'un corpus.
Deux classes de modÚles probabilistes existent: ceux dits génératifs, comme les LPCFGs, et ceux dits discriminants (voir section « modÚles statistiques d'analyse » pour plus de détails).
MĂ©thodes statistiques
Avantages de la statistique
Avec lâapproche classique, lâanalyse dâune phrase peut donner lieu Ă des millions dâarbres syntaxiques possibles en raison de la grande taille de la grammaire, avec lâimpossibilitĂ© de choisir lequel reflĂšte au mieux la structure de la phrase en question. Si des contraintes sont ajoutĂ©es Ă cette grammaire pour restreindre le nombre dâanalyses possibles, une partie des phrases analysĂ©es risquent alors de ne plus avoir de structure correspondante. Lâapproche statistique a lâavantage de tolĂ©rer des millions dâanalyses, tout en ayant la possibilitĂ© de sĂ©lectionner la meilleure en temps raisonnable ; Ă ce titre, il est souvent nĂ©cessaire de rĂ©duire lâespace de recherche tout au long du processus dâanalyse, en Ă©liminant les analyses partielles peu probables au plus tĂŽt.
De nos jours, les grammaires (seules) ne sont quasiment plus utilisées, et les approches dans le domaine du TALN font essentiellement appel à des techniques d'apprentissage automatique.
Qui plus est, la formalisation des phĂ©nomĂšnes linguistiques Ă©tant laborieuse, les techniques statistiques ont apportĂ© lâĂ©norme avantage dâextraire les connaissances linguistiques directement dâĂ©chantillons (rĂ©els) de donnĂ©es. Et si la construction dâun corpus (treebank) est plus fastidieuse que la construction dâune grammaire, ce premier a lâavantage dâĂȘtre rĂ©utilisable dans dâautres systĂšmes (dont les analyseurs morphosyntaxiques), expliquant en partie le dĂ©sintĂ©rĂȘt Ă lâĂ©gard des grammaires. En outre, les donnĂ©es contiennent implicitement des statistiques, et lâĂ©valuation dâun systĂšme est aisĂ©e. Notons quâune grammaire peut trĂšs bien ĂȘtre extraite de donnĂ©es linguistiques ; les mĂ©thodes basĂ©es sur les grammaires (grammar-based parsing) et celles guidĂ©es par des donnĂ©es (data-driven parsing) â aujourd'hui majoritaires â ne sont donc pas mutuellement exclusives.
Bien que les techniques statistiques soient utilisĂ©es pour dĂ©sambiguĂŻser â le cas Ă©chĂ©ant â le processus dâanalyse, l'espace de recherche ne peut qu'extrĂȘmement rarement ĂȘtre explorĂ© dans sa totalitĂ©, et il est nĂ©cessaire de le borner pour des raisons dâefficacitĂ©.
ModĂšles statistiques d'analyse
On peut reprĂ©senter un analyseur syntaxique par une fonction , oĂč est lâensemble des entrĂ©es possibles, sachant que reprĂ©sente une sĂ©quence dâentrĂ©e , et est lâensemble des reprĂ©sentations syntaxiques admissibles. Relevons que la nature de la reprĂ©sentation dâune analyse est spĂ©cifique Ă la thĂ©orie utilisĂ©e, au mĂȘme titre que son critĂšre dâadmissibilitĂ©.
Un modÚle d'analyse syntaxique se décompose conceptuellement en deux parties [13] :
- un composant gĂ©nĂ©ratif , qui fait correspondre une entrĂ©e Ă un ensemble dâanalyses candidates , donc ;
- un composant évaluatif , classant les analyses candidates selon un score numérique attribué, donc .
Les deux composants ont gĂ©nĂ©ralement des paramĂštres dont les valeurs vont ĂȘtre estimĂ©es statistiquement, en commençant par lâanalyse de donnĂ©es reprĂ©sentatives, nommĂ©es ensemble dâentrainement, afin de faire de un bon estimateur du correspondant. Câest lâĂ©tape dâapprentissage du modĂšle, qui peut ĂȘtre supervisĂ©e ou non supervisĂ©e (parfois semi-supervisĂ©e) ; un apprentissage supervisĂ© nĂ©cessite que lâanalyse correcte soit prĂ©sente dans les donnĂ©es. Toute la difficultĂ© de cette Ă©tape est donc dâutiliser correctement lâĂ©vidence partielle â contenue dans les donnĂ©es â pour crĂ©er une distribution de probabilitĂ© reflĂ©tant au plus prĂšs la rĂ©alitĂ©. Ă partir de la fonction , infĂ©rĂ©e au moment de lâapprentissage du modĂšle, la seconde Ă©tape consiste Ă ordonner efficacement les analyses candidates pour une phrase dâentrĂ©e (inĂ©dite) donnĂ©e : câest le problĂšme dâinfĂ©rence. Cette derniĂšre peut ĂȘtre exacte ou approximative, selon les garanties apportĂ©es par lâalgorithme utilisĂ©.
Il faut souvent trouver un juste compromis entre la complexitĂ© du modĂšle et le manque dâexactitude des solutions gĂ©nĂ©rĂ©es. Au passage, notons le fait que lâensemble est vraisemblablement trĂšs grand, et que chaque est un objet possĂ©dant une structure interne riche ; ce constat contraste avec un simple problĂšme de classification, pour lequel serait beaucoup plus petit. Les systĂšmes utilisant un algorithme dâapprentissage supervisĂ© sont beaucoup plus rĂ©pandus, car ils sont bien plus performants [13].
En outre, deux grandes classes de modĂšles sâopposent en apprentissage automatique, pas nĂ©cessairement liĂ©es aux composants gĂ©nĂ©ratifs et Ă©valuatifs mentionnĂ©s auparavant : la premiĂšre possibilitĂ©, dite gĂ©nĂ©rative, est de voir le processus dâanalyse comme un systĂšme de rĂ©Ă©criture probabiliste, oĂč le but est de produire une (ou plusieurs) structures en fonction dâune entrĂ©e donnĂ©e ; Ă chaque Ă©tape, il faudrait choisir la (ou les) meilleure(s) alternative(s) afin dâobtenir la structure la plus probable Ă lâissue de lâanalyse. Ici, le but est de maximiser la probabilitĂ© jointe , quel que soit et , en modĂ©lisant et , puis en les recombinant avec la rĂšgle de Bayes (cas des PCFGs). La seconde possibilitĂ©, dite discriminante, est de voir la grammaire comme un ensemble de contraintes sur les structures correctes, et la sĂ©quence dâentrĂ©e comme une contrainte sur la position des mots ; lâanalyse doit alors rĂ©soudre ces contraintes, puis sĂ©lectionner la structure syntaxique la plus probable parmi celles rĂ©pondant le mieux aux contraintes. Dans ce cas, on cherche Ă modĂ©liser la probabilitĂ© conditionnelle directement depuis les donnĂ©es. Encore, les deux approches peuvent ĂȘtre combinĂ©es de façon sĂ©quentielle (reranking) [21].
ModÚles génératifs
La dĂ©rivation de la structure syntaxique est modĂ©lisĂ©e par un processus stochastique pour lequel chaque Ă©tape dĂ©pend dâĂ©vĂ©nements apparus par le passĂ© (historique). La forme gĂ©nĂ©rale de tels modĂšles, Ă©voquĂ©s initialement par G. Leech [22], est la suivante :
oĂč la fonction dĂ©finit quels Ă©vĂ©nements de l'historique sont pris en compte. Bien que ce soit souvent le cas, le composant gĂ©nĂ©ratif est un systĂšme de dĂ©rivations qui n'est pas forcĂ©ment contraint par une grammaire formelle (le modĂšle de l'analyseur IDP est un exemple [23]). L'Ă©valuation se fait selon la probabilitĂ© jointe, factorisĂ©e en probabilitĂ©s conditionnelles. Ă noter que se ramĂšne Ă car, pour une structure donnĂ©e, la probabilitĂ© est Ă©gale Ă si est la phrase unique correspondant Ă cette structure ; par consĂ©quent, si engendre , ou dans tous les autres cas.
Les modÚles génératifs imposent des hypothÚses d'indépendance rigides, ce qui a un impact sur la désambiguïsation (typiquement les PCFGs). Toutefois, l'adaptation de ces hypothÚses donne des modÚles plus complexes et l'inférence exacte n'est plus possible (voir aussi section « méthodes aidées par la statistique »). Fondamentalement, ce genre de modÚle doit prédire le prochain mot à mesure que l'analyse avance, ce qui nécessite une normalisation globale à travers le vocabulaire entier, et souvent un faisceau plus grand (le cas échéant), de façon à pouvoir « essayer » un grand nombre de structures sur la partie de phrase incluant le mot prédit [23]. Par ailleurs, l'entrainement des modÚles génératifs cherche la plupart du temps à maximiser la probabilité jointe des entrées-sorties de l'ensemble d'entrainement ; or, le but de l'analyse est de maximiser la précision du modÚle pour des phrases inédites. Pour ces raisons, les modÚles discriminants sont de plus en plus utilisés.
ModĂšles localement discriminants
Le but de ces modÚles est de maximiser la probabilité de décisions locales, en espérant atteindre la meilleure solution globale grùce à la succession de décisions (locales) optimales, à l'instar des modÚles génératifs basés sur un historique :
Ici, la fonction reprĂ©sente des propriĂ©tĂ©s/traits arbitraires dĂ©pendant de lâhistorique des dĂ©cisions prises, et de lâentrĂ©e ; autrement dit, on dĂ©finit une classe dâĂ©quivalence pour toute combinaison dâun historique et dâune entrĂ©e. En employant des mĂ©thodes de prĂ©vision sur lâentrĂ©e, certains analyseurs approchent une analyse dĂ©terministe (prĂ©dictive). Pour ce type de modĂšle, le composant gĂ©nĂ©ratif est constituĂ© dâun processus incrĂ©mental (p. ex. automate), alors que le composant Ă©valuatif doit ĂȘtre capable dâassigner un score Ă une dĂ©cision locale donnĂ©e, et de combiner ces scores en scores globaux, Ă©valuant une sĂ©quence complĂšte de transitions.
Parfois, ce type de modĂšle est appelĂ© « gĂ©nĂ©ratif », car il implique des hypothĂšses d'indĂ©pendance comme les modĂšles vĂ©ritablement gĂ©nĂ©ratifs â modĂ©lisant la probabilitĂ© jointe â mais sur des dĂ©cisions locales, et non pas sur des dĂ©cisions globales [13]. L'approche locale Ă l'avantage de favoriser la prise en considĂ©ration de traits caractĂ©ristiques utiles Ă la dĂ©sambiguĂŻsation, problĂ©matique principale des vĂ©ritables modĂšles gĂ©nĂ©ratifs. Cette catĂ©gorie de modĂšles permet d'obtenir des analyseurs beaucoup plus rapides que ceux Ă base de modĂšles gĂ©nĂ©ratifs (p. ex. de l'ordre de 35x [23]).
ModĂšles discriminants
Cette classe de modĂšles dĂ©finit typiquement la fonction dâĂ©valuation comme Ă©tant le produit dâun vecteur de traits (caractĂ©ristiques) et dâun vecteur de poids :
oĂč chaque reprĂ©sente une caractĂ©ristique de et , et chaque quantifie lâimportance de la caractĂ©ristique pour lâanalyse optimale. Si ce poids est nĂ©gatif, la caractĂ©ristique dessert lâanalyse, alors que dans le cas contraire, la caractĂ©ristique influe positivement sur lâanalyse optimale. La nature des caractĂ©ristiques nâest pas limitĂ©e ; la seule restriction est de pouvoir les encoder sous forme numĂ©rique. On peut par exemple utiliser le score fourni par un autre analyseur en tant que caractĂ©ristique, ou tenir compte de la prĂ©sence/absence d'une sous-structure.
Donc, un modĂšle vĂ©ritablement discriminant dĂ©finit un unique score sur la structure globale dâune analyse. Lâavantage est de pouvoir observer des propriĂ©tĂ©s globales des structures syntaxiques, et de pouvoir tenir compte (ajouter) de nouvelles contraintes sans altĂ©rer la dĂ©rivation du modĂšle [21]. Pour cette classe, le composant gĂ©nĂ©ratif est assez variable dâun systĂšme Ă l'autre, tandis que le composant dâĂ©valuation est Ă©tabli par une combinaison linĂ©aire de caractĂ©ristiques pondĂ©rĂ©es, non restreintes par un quelconque processus, et dont les poids sont fixĂ©s par un modĂšle dâapprentissage discriminant.
Le dĂ©faut de ce type de modĂšle est le besoin de rĂ©analyser l'ensemble d'entrainement Ă chaque itĂ©ration, ce qui est naturellement gourmand en ressources. Certaines approches, dites de reranking, se sont contentĂ©es d'utiliser ce genre de modĂšle uniquement pour un sous-ensemble de , lui-mĂȘme obtenu via un modĂšle gĂ©nĂ©ratif [24] - [25] - [21]. Cependant, la meilleure analyse ne se trouve pas forcĂ©ment dans ce dernier sous-ensemble [24], ce qui en fait une technique pas idĂ©ale. NĂ©anmoins, les problĂšmes d'efficacitĂ© sont moins marquĂ©s dans l'analyse de dĂ©pendances que dans celle de constituants, et ils sont beaucoup utilisĂ©s dans le premier cas oĂč l'infĂ©rence exacte est mĂȘme possible sous certaines conditions [13] (voir section « mĂ©thodes basĂ©es sur des graphes »).
Paradigmes d'analyse
Actuellement, la représentation des structures syntaxiques la plus populaire est celle en dépendances [Note 2], en raison du bon compromis expressivité/efficacité des algorithmes qu'elle propose [26] - [27], et des performances obtenues pour une grande variété de langues [28] - [29]. Avec cette représentation, ce sont trÚs souvent des modÚles probabilistes localement discriminants ou discriminants qui sont utilisés, contrairement à la représentation en constituants, pour laquelle les modÚles génératifs sont plus compétitifs [13]. Toutefois, il est intéressant de relever que certains systÚmes récents (p. ex. [30] - [31]), particuliÚrement performants, sont fondés sur l'assemblage de modÚles de types différents (technique d'ensemble ou system combination) [32].
On peut classer lâimmense majoritĂ© des modĂšles dâanalyse statistique de dĂ©pendances en deux familles [33]:
- Les mĂ©thodes basĂ©es sur des transitions (transition-based) reposent sur un automate Ă Ă©tats finis permettant de gĂ©nĂ©rer une structure syntaxique Ă partir dâune phrase donnĂ©e. Au long de lâanalyse, le modĂšle appris doit ĂȘtre en mesure de prĂ©dire la prochaine transition, en fonction de lâhistorique des transitions, de maniĂšre Ă pouvoir trouver la sĂ©quence optimale de transitions menant Ă la meilleure analyse possible de la phrase dâentrĂ©e.
- Les mĂ©thodes basĂ©es sur des graphes (graph-based) dĂ©finissent un univers dâanalyses candidates pour une phrase donnĂ©e. Lâapprentissage se rĂ©sume Ă induire un modĂšle capable dâĂ©valuer ces analyses candidates dans leur ensemble ; le processus dâanalyse doit trouver la structure, tel que son score soit le plus Ă©levĂ©, correspondant Ă la phrase dâentrĂ©e.
Dans le premier cas, la stratĂ©gie est de trouver la meilleure solution locale (approche gloutonne), alors que dans le second cas, le raisonnement revĂȘt lâapparence dâune recherche exhaustive. En outre, la premiĂšre mĂ©thode est parfois dĂ©nommĂ©e shift-reduce parsing, du nom de lâalgorithme dâanalyse utilisĂ© par bon nombre dâimplĂ©mentations [34]. C'est une mĂ©thode trĂšs populaire en raison de son excellente efficacitĂ©: la complexitĂ© de l'algorithme d'analyse typique est linĂ©aire (relativement au nombre de mots de la phrase d'entrĂ©e). Quant Ă la seconde mĂ©thode, on la retrouve parfois sous le nom de maximum spanning tree parsing (MST), qui correspond au nom de lâalgorithme utilisĂ© par le systĂšme ayant introduit cette technique [35]. En 2015, Jinho Choi et coll. ont Ă©tudiĂ© les performances de dix analyseurs syntaxiques compĂ©titifs de dĂ©pendances, de façon dĂ©taillĂ©e et selon diffĂ©rentes mĂ©triques [36].
Méthodes basées sur des transitions
Les modĂšles basĂ©s sur des transitions sont des modĂšles localement discriminants avec un apprentissage discriminant, dans le sens oĂč seule lâestimation de lâanalyse finale est extraite de la distribution probabiliste, en recourant par exemple Ă une surface de dĂ©cision. Cela sâoppose aux modĂšles conditionnels, oĂč toute la densitĂ© de probabilitĂ© conditionnelle serait optimisĂ©e [37]. En supposant une fonction dâĂ©valuation assignant un score aux transitions possibles en fonction dâune configuration, reprĂ©sentĂ©e par un vecteur , ainsi quâun moyen dâĂ©valuer une sĂ©quence complĂšte de transitions, lâanalyse revient Ă trouver la sĂ©quence ayant le score le plus Ă©levĂ©. Ă ce titre, la plupart des systĂšmes implĂ©mentent une recherche en faisceau [13].
Une mĂ©thode trĂšs en vogue pour lâanalyse de structures de dĂ©pendances est lâusage dâun classificateur (entrainĂ© sur un corpus), afin de prĂ©dire la prochaine action exĂ©cutĂ©e par un algorithme dâanalyse dĂ©terministe. Cette dĂ©marche est parfois appelĂ©e « pseudo-dĂ©terministe », en rĂ©fĂ©rence aux algorithmes dâanalyse dĂ©terministes appliquĂ©s Ă des grammaires non ambiguĂ«s (langages formels). Dans le cas prĂ©sent, lâespace de recherche est intrinsĂšquement limitĂ© par le procĂ©dĂ© de lâalgorithme, puisquâune seule action choisie implique lâabandon de toutes les autres ; en raison de cette approche gloutonne, lâĂ©lagage est donc trĂšs agressif. Cette force est Ă©galement un dĂ©savantage, car un mauvais choix prĂ©coce peut se rĂ©percuter nĂ©gativement sur lâanalyse finale [38].
Un systĂšme dâanalyse basĂ© sur un classificateur se compose de trois ingrĂ©dients essentiels :
- un algorithme dâanalyse syntaxique qui Ă©tablit une analyse par la succession dâactions Ă©lĂ©mentaires (via un systĂšme de transitions) ;
- un modĂšle permettant de dĂ©crire tout Ă©tat de lâanalyseur (configurations du systĂšme de transitions) par un vecteur de caractĂ©ristiques ;
- un classificateur qui transforme un Ă©tat, sous forme de vecteur de caractĂ©ristiques, en une action de lâalgorithme dâanalyse.
Cette approche a Ă©tĂ© initiĂ©e par T. Kudo et Y. Matsumoto [39], qui ont proposĂ© une implĂ©mentation couplĂ©e Ă un classificateur de type machine Ă vecteur de support, pour lâanalyse en dĂ©pendances non Ă©tiquetĂ©es du japonais. En utilisant la base de lâalgorithme de Joakim Nivre [34], lâidĂ©e a par la suite Ă©tĂ© Ă©tendue itĂ©rativement aux dĂ©pendances Ă©tiquetĂ©es pour le suĂ©dois, puis pour lâanglais, puis Ă 19 langues [40], avant dâĂȘtre optimisĂ©e pour former le logiciel MaltParser [41]. Les premiers algorithmes sont limitĂ©s aux structures projectives, mais G. Attardi [42], parmi dâautres [27] - [43], proposa un algorithme Ă©tendu Ă un sous-ensemble des structures non-projectives. Ă ce titre, J. Nivre propose une version online-reordering de son systĂšme de transitions [44], tandis que d'autres approches passent par une dĂ©composition en (sous-)arbres de dĂ©pendances planaires et l'analyse de chaque plan sĂ©parĂ©ment (mltiplanar parsing) [45]. Une autre solution implique un prĂ©/post-traitement des donnĂ©es (appelĂ© pseudo-projectivization) [46].
Les problĂšmes principaux de ce paradigme sont la sensibilitĂ© aux erreurs de recherche et la propagation des erreurs due au processus incrĂ©mental univoque. Pour tenter d'amĂ©liorer la prĂ©cision, tout en maintenant une analyse hautement efficace, plusieurs techniques ont vu le jour. Certains ont relaxĂ© le processus strictement dĂ©terministe â en gardant les K meilleures analyses (recherche en faisceau) [47] â associĂ© parfois Ă un entrainement en tant que prĂ©diction structurĂ©e [48], tandis que d'autres ont abandonnĂ© l'analyse purement sĂ©quentielle de gauche Ă droite (easy-first parsing) [49], car la recherche en faisceau ralentit substantiellement l'analyse. Dans le mĂȘme but, J. Nivre a expĂ©rimentĂ© l'usage d'un oracle dynamique â Ă la fois non dĂ©terministe et complet (contrairement aux oracles statiques habituels) â pour son systĂšme de transitions arc-eager [50]. Cependant, ces oracles induisent une grande complexitĂ© lorsqu'ils sont utilisĂ©s avec des systĂšmes gĂ©nĂ©raux (non limitĂ©s aux structures projectives), et il n'est pas toujours possible de les dĂ©river. Pour cette raison, M. Straka et coll. ont introduit une nouvelle classe d'oracles dĂ©nommĂ©s search-based oracles [51], qui est une approximation des oracles dynamiques.
En pratique, des modĂšles probabilistes sont dĂ©finis pour chaque action de l'algorithme d'analyse, en fonction de son contexte courant ; cependant, les modĂšles fondĂ©s sur un historique dâactions (ou transitions) doivent faire face Ă une quantitĂ© illimitĂ©e dâinformations, rendant une modĂ©lisation probabiliste impossible. Ce problĂšme est ordinairement rĂ©solu en limitant lâhistorique Ă un ensemble fini de caractĂ©ristiques [52]. Ă ce moment-lĂ , la difficultĂ© majeure rĂ©side dans le choix de la reprĂ©sentation de cet historique, câest-Ă -dire son aperçu, Ă partir duquel la probabilitĂ© de lâaction suivante pourra ĂȘtre convenablement estimĂ©e. Comme cette probabilitĂ© est indĂ©pendante de toute information au sujet de lâhistorique qui ne serait pas contenue dans son aperçu, la qualitĂ© de lâanalyse peut ĂȘtre fortement affectĂ©e par les caractĂ©ristiques retenues.
La recherche dans le domaine de lâanalyse syntaxique statistique a dĂ©butĂ© au milieu des annĂ©es 1990, et sâest principalement focalisĂ©e sur les modĂšles linĂ©aires, durant de nombreuses annĂ©es. Avec de tels modĂšles, le score attribuĂ© Ă une analyse est calculĂ© selon une combinaison de traits structurels ou de caractĂ©ristiques morphologiques â dont la reprĂ©sentation est naturellement Ă©parse â liĂ©es Ă la structure en question. Or, cela demande une sĂ©lection manuelle, plausiblement fastidieuse, des combinaisons de traits Ă inclure dans lâĂ©valuation, avant lâutilisation dâun algorithme dâapprentissage. Par consĂ©quent, lâadaptation de ces modĂšles Ă de nouvelles langues ou de nouveaux domaines est difficile et coĂ»teuse ; de plus, lâoubli dâune caractĂ©ristique importante peut se rĂ©percuter trĂšs nĂ©gativement sur la prĂ©cision (problĂšme d'incomplĂ©tude) [53]. Par ailleurs, les analyseurs passent le plus clair de leur temps Ă extraire les caractĂ©ristiques [Note 3], et non Ă l'analyse en elle-mĂȘme [54]. Toutes ces raisons ont motivĂ© le dĂ©veloppement de modĂšles non linĂ©aires, susceptibles dâinduire automatiquement une combinaison appropriĂ©e des traits prĂ©dictifs ; dans de tels cas, un rĂ©seau de neurones artificiels seconde ou remplace majoritairement le classificateur linĂ©aire. Avec la plupart des modĂšles, il est nĂ©anmoins nĂ©cessaire de leur fournir un nombre restreint (env. 10-20) de caractĂ©ristiques dynamiques simples (c.-Ă -d. non combinĂ©es). Cette voie fut initiĂ©e par James Henderson [55] - [56] au dĂ©but des annĂ©es 2000, puis approfondie en 2007 avec un analyseur fondĂ© sur un modĂšle probabiliste purement gĂ©nĂ©ratif et Ă©quipĂ© d'un rĂ©seau ISBN (incremental sigmoid belief network) pour l'extraction des caractĂ©ristiques [23], assez proche d'un rĂ©seau bayĂ©sien dynamique. L'avantage de cette technique est d'obtenir une reprĂ©sentation dense des mots (c.-Ă -d. un plongement de mot), Ă©tiquettes morphosyntaxiques, et autres caractĂ©ristiques linguistiques; cette derniĂšre reprĂ©sentation (de plus faible dimension) vĂ©hicule par exemple une notion de similaritĂ© entre les mots dans un espace continu Ă dimensions [53], ou mĂȘme tout l'historique d'analyse lorsque le rĂ©seau est rĂ©current [23]. En bref, les reprĂ©sentations denses bĂ©nĂ©ficient d'une forte capacitĂ© de gĂ©nĂ©ralisation [57].
Les modÚles de caractéristiques dynamiques (indépendantes) évoquées au paragraphe précédent sélectionnent des éléments linguistiques (mots, étiquettes de dépendance...), dont les vecteurs de représentation (embeddings) sont souvent concaténés à l'entrée du réseau de neurones. Si le nombre de caractéristiques est sujet à varier, un moyen de conserver des vecteurs de taille fixe s'impose, du fait que l'entrée d'un réseau est de taille fixe. On peut par exemple effectuer une moyenne des vecteurs (représentation par « sac de mots continu » ou CBOW [58]).
Aujourd'hui, l'extraction des caractĂ©ristiques est rĂ©alisĂ©e avec des rĂ©seaux d'une complexitĂ© variable, composĂ©s d'unitĂ©s LSTM par exemple (rĂ©seau LSTM empilĂ© [59], LSTM bidirectionnel [60], etc.), un ISBN [61], ou en utilisant des rĂ©seaux dĂ©nuĂ©s de rĂ©currence, comme la premiĂšre couche d'un perceptron multicouche [53] - [62]. Certaines approches (dites character-based) apprennent mĂȘme Ă reprĂ©senter les mots Ă partir de caractĂšres individuels, Ă l'image de SyntaxNet (2Ăšme ver.) [63] et LSTM-Parser [64].
Quant au classificateur à proprement parler, il s'agit souvent d'un perceptron structuré, à l'image du systÚme SyntaxNet (Parsey's Cousins) proposé par Google [62], dont le systÚme révisé (ParseySaurus [63]) est un des plus précis à l'heure actuelle. Ces derniers systÚmes sont initialement basés sur le Stanford Parser mis au point par Danqi Chen et Christopher Manning en 2014 [53], mais intÚgrent un réseau de neurones profond (et des fonctions d'activation différentes) avec entrainement structuré, sans compter le modÚle probabiliste à normalisation globale [62] ou avec autonormalisation [63] - [Note 4]. Mais des systÚmes du niveau de l'état de l'art, tels LSTM-Parser [64] ou DINN [61], n'ont pas forcément recours à un réseau profond, et utilisent par exemple une couche softmax en guise de classificateur (prédiction des actions élémentaires d'analyse).
Méthodes basées sur des graphes
Les modĂšles dâanalyse basĂ©s sur les graphes sont des modĂšles discriminants (voir section « modĂšles statistiques d'analyse »). Lâavantage des structures en dĂ©pendances, par rapport Ă celles en constituants, est de rendre ce type dâapproche compatible avec une infĂ©rence exacte [13]. En effet, une dĂ©marche rĂ©pandue, initialement proposĂ©e par Ryan McDonald et coll[35]., est de trouver lâarbre couvrant de poids maximum dans un graphe complet. Remarquons que dans ces conditions, le composant nâest pas modĂ©lisĂ© par un systĂšme autonome, mais par une propriĂ©tĂ© de la thĂ©orie des graphes. Toutefois, lâinfĂ©rence exacte prĂ©suppose la limitation de la portĂ©e des caractĂ©ristiques Ă des sous-graphes ; par consĂ©quent, dâautres techniques dâapproximation ont Ă©tĂ© dĂ©veloppĂ©es [65]. Par rapport aux modĂšles basĂ©s sur des transitions, l'avantage de ce type de modĂšle est l'observation â en thĂ©orie â de propriĂ©tĂ©s sur toute la structure globale et/ou la phrase d'entrĂ©e sans restriction, alors que les propriĂ©tĂ©s sont limitĂ©es Ă un contexte structurellement local avec la premiĂšre catĂ©gorie.
En pratique, seuls les modĂšles traitant le score de chaque arc isolĂ©ment â dits « de 1er ordre » ou arc-factored â sont solubles de maniĂšre exacte en temps raisonnable, car la moindre augmentation de ces modĂšles engendre un problĂšme NP-difficile [66]. Cela prĂ©suppose que chaque relation de dĂ©pendance est indĂ©pendante des autres, ce qui est loin d'ĂȘtre vrai d'un point de vue linguistique. NĂ©anmoins, certains systĂšmes de 1er ordre sont extrĂȘmement compĂ©titifs sur le plan de la prĂ©cision, Ă l'image de celui de T. Dozat et C. Manning basĂ© sur le mĂ©canisme de deep biaffine attention [67]. L'Ă©norme majoritĂ© des systĂšmes de 1er ordre repose soit sur l'algorithme d'Eisner [68], soit sur l'algorithme glouton de Chu-Liu-Edmonds (CLE) [69]. Le premier est un algorithme de programmation dynamique dĂ©rivĂ© de CKY qui ne trouve donc que des structures projectives, tandis que le second trouve l'arbre couvrant de poids maximal et est, de ce fait, aussi capable de retourner un arbre de dĂ©pendances non-projectif.
Afin d'entrevoir une amĂ©lioration des performances tout en conservant un algorithme en temps polynomial, certaines approches ont Ă©tendu le chart de l'algorithme d'Eisner, ajoutant un facteur quadratique Ă la complexitĂ© Ă chaque augmentation de l'ordre du modĂšle [70] - [71] - [72]. Les recherches dans ce sens se sont plus ou moins arrĂȘtĂ©es aux modĂšles du 4Ăšme ordre (complexitĂ© temporelle en ). Des stratĂ©gies plus rĂ©centes â et respectivement 200x et 5x plus rapides qu'un modĂšle exact du 3Ăšme ordre â ont explorĂ© l'Ă©lagage de l'espace de recherche avec l'usage de l'algorithme de vine parsing ([73]) - [74], ou le maintien d'un faisceau d'alternatives intĂ©grĂ© Ă l'algorithme d'Eisner (esprit du cube pruning [75]) [76], entre autres. Ces approximations permettent de diminuer drastiquement le coĂ»t de l'analyse, tout en conservant une prĂ©cision au niveau des modĂšles exacts du 3Ăšme ou 4Ăšme ordre !
Quant aux modÚles d'ordre supérieur capables de produire toute sorte d'arbres de dépendances (y.c. non-projectifs), ils passent nécessairement par une approximation, soit du décodage, soit de l'espace de recherche. La premiÚre option comprend les systÚmes intégrant un post-traitement à l'issue de l'algorithme d'Eisner [65] ou CLE [77], qui réarrange les arcs ou combine les meilleurs arbres couvrants, respectivement. D'autres se basent sur le principe de décomposition duale [78] - [79] - [80], de relaxation continue [81], etc. La seconde catégorie inclut les procédés ne considérant qu'une infime partie de l'ensemble des arbres de dépendances non-projectifs [82] - [83] - [84] - [85], car certaines structures sont improbables linguistiquement parlant, et il est complÚtement inutile de tenter de les produire (ces derniÚres sont appelées mildly non-projective structures). Néanmoins, des expériences moins fructueuses furent tentées avec une optimisation linéaire en nombres entiers (ILP) [86].
Tous ces systÚmes utilisent un algorithme d'apprentissage tel que le perceptron structuré, MIRA [87] (extension de ce dernier), un classificateur à entropie maximale (MaxEnt), etc. La plupart des systÚmes évoqués au cours de cette section sélectionnent les caractéristiques de chaque sous-graphe (p. ex. un arc) à l'aide de modÚles préétablis (représentation éparse). Cependant, quelques techniques récentes emploient un réseau de neurones pour l'extraction des caractéristiques: à propagation avant [88], ou récurrent [60] - [67] ; de plus, le score n'est plus calculé linéairement, mais notamment par un perceptron multicouche [88] - [60], associé parfois à une transformation bilinéaire [67].
Complexité de l'analyse de dépendances
Voici un aperçu de la complexité temporelle des algorithmes d'analyse syntaxique pour les structures en dépendances. On différencie ceux capables de produire uniquement des structures projectives des algorithmes généraux, mais on ne considÚre que des versions exactes (exclut les approximations).
Ăvaluation de l'analyse
Tout systĂšme dâanalyse syntaxique a besoin dâĂȘtre Ă©valuĂ©, afin de mesurer ses performances. Pour cela, on exĂ©cute la procĂ©dure dâanalyse sur un ensemble de donnĂ©es de test, diffĂ©rent de lâensemble dâentrainement (le cas Ă©chĂ©ant), et gĂ©nĂ©ralement beaucoup plus petit. Les structures produites par lâanalyseur seront comparĂ©es aux structures de rĂ©fĂ©rence (gold-standard parses), considĂ©rĂ©es comme les meilleures analyses â qui sont annotĂ©es par des linguistes. Les mesures habituellement utilisĂ©es sont la prĂ©cision et le rappel, souvent rĂ©unis en un seul et unique score appelĂ© F-score [89], correspondant Ă la moyenne harmonique de la prĂ©cision () et du rappel () :
La mĂ©thode la plus simple est de compter le nombre de phrases pour lesquelles la structure produite est identique Ă la structure de rĂ©fĂ©rence (exact match). Il sâagit dâun critĂšre extrĂȘmement rude, dans le sens oĂč une seule erreur dâĂ©tiquette a le mĂȘme impact quâune analyse complĂštement erronĂ©e ; dĂšs lors, on favorise plutĂŽt les mĂ©triques fondĂ©es sur une correspondance partielle, dont la granularitĂ© est plus fine.
De structures en constituants
Les mesures communément utilisées sont celles liées aux métriques PARSEVAL [90] - [91], comptant le nombre de constituants qui correspondent à ceux présents dans la structure de référence.
De structures en dépendances
En ce qui concerne les structures de dĂ©pendances, la mesure communĂ©ment utilisĂ©e est le score dâappartenance (attachment score) [92], qui dĂ©termine la proportion de mots correctement reliĂ©s au juste parent, en regard de la rĂ©fĂ©rence. Plusieurs variantes existent :
- Unlabeled attachment score (UAS) : une relation est considĂ©rĂ©e comme correcte si lâenfant est liĂ© au parent attendu.
- Labeled attachment score (LAS) : une relation est considĂ©rĂ©e comme correcte si lâenfant est liĂ© au parent attendu, et le type de la relation est fidĂšlement reproduit.
- Label accuracy score (LS) : on nâexamine que lâĂ©tiquette dâune relation, sans tenir compte du parent.
Comme chaque unitĂ© lexicale possĂšde exactement un parent, une seule mesure suffit pour qualifier la prĂ©cision. Au niveau dâun corpus, le score global peut ĂȘtre calculĂ© Ă lâĂ©chelle du mot (micro-average), câest-Ă -dire sans tenir compte de la phrase Ă laquelle un mot appartient, ou Ă lâĂ©chelle de la phrase (macro-average), en effectuant la moyenne des scores de chacune dâentre elles.
Notes et références
- Typiquement, les dĂ©pendances croisĂ©es (ou non-projectives) â apparaissant dans certaines langues â ne peuvent pas ĂȘtre obtenues avec une grammaire de type 2. La langue naturelle est par consĂ©quent de type 1 (contextuelle), mais nĂ©anmoins trĂšs proche du type 2.
- Un arbre de dépendances est formellement un graphe orienté étiqueté simple, connexe et acyclique, comportant une seule racine, muni d'une relation de préséance linéaire sur l'ensemble des sommets (ordre des mots).
- Cela correspond à la combinaison d'éléments linguistiques (mots...), puis à la recherche dans une structure de données contenant plusieurs millions d'éléments.
- Tous les systÚmes précédents utilisent une normalisation locale, bien moins complexe à calculer. Il est d'ailleurs impossible de calculer des probabilités globalement normalisées en temps raisonnable; ces systÚmes passent donc par une approximation.
Références bibliographiques
- Jacqueline LĂ©on, Histoire de l'automatisation des sciences du langage, ENS Ăditions, coll. « Langages », , 218 p. (ISBN 978-2-84788-680-1, DOI 10.4000/books.enseditions.3733, lire en ligne)
- Tadao Kasami, « An efficient recognition and syntax algorithm for context-free languages », Technical Report AFCLR-65-758, Air Force Cambridge Research Laboratory, 1965
- D. H. Younger, « Recognition of context-free languages in time n3 », Information and Control, vol. 10, no 2, 1967, p. 189-208.
- Jay Earley, « An efficient context-free parsing algorithm », In : Communications of the ACM 13 (2), p. 94-102, 1970
- Ronald M. Kaplan, « A general syntactic processor », In : Natural Language Processing, Sous la dir. de R. Rustin, Algorithmics Press, p. 193-241, 1973
- Martin Kay, « Algorithm Schemata and Data Structures in Syntactic Processing », Report CSLâ80â12, Xerox PARC, 1980
- Alan Demers, « Generalized Left Corner Parsing », In : Proceedings of the 4th ACM SIGACT-SIGPLAN Symposium on Principles of Programming Languages, ACM, p. 170-182, 1977
- Hiroshi Maruyama, « Structural disambiguation with constraint propagation », In : Proceedings of the 28th Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, p. 31-38, 1990
- T. L. Booth et R. A. Thompson, « Applying Probability Measures to Abstract Languages », In : IEEE Transactions on Computers 22.5, p. 442-450, 1973
- Eugene Charniak, « Statistical parsing with a context-free grammar and word statistics », In : Proceedings of 14th National Conference on Artificial Intelligence, Association for Computational Linguistics, p. 598-603, 1997
- Dan Klein et Christopher D. Manning, « Accurate unlexicalized parsing », In : Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics., 2003
- Jason M. Eisner, « Three New Probabilistic Models for Dependency Parsing : An Exploration », In : Proceedings of the 16th International Conference on Computational Linguistics, Association for Computational Linguistics, p. 340-345, 1996
- Joakim Nivre, « Statistical Parsing », In : Handbook of Natural Language Processing, Sous la dir. de Nitin Indurkhya et Fred J. Damerau, 2nd, Chapman & Hall/CRC, Chap. 11, p. 237-266, 2010
- Kenneth Church et Ramesh Patil, « Coping with syntactic ambiguity or how to put the block in the box on the table », Comput. Linguist. 8, 3-4, 139-149, 1982
- H. Ney, « Dynamic programming parsing for context-free grammars in continuous speech recognition », IEEE Transactions on Signal Processing, 39(2), 336â340, 1991.
- (en) Michael Collins, « Head-Driven Statistical Models for Natural Language Parsing », Computational Linguistics, vol. 29, no 4,â , p. 589â637 (ISSN 0891-2017, DOI 10.1162/089120103322753356, lire en ligne)
- (en) Dan Klein et Christopher D. Manning, « Accurate unlexicalized parsing », Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics,â , p. 423â430 (DOI 10.3115/1075096.1075150, lire en ligne)
- (en) Slav Petrov, Leon Barrett, Romain Thibaux et Dan Klein, « Learning Accurate, Compact, and Interpretable Tree Annotation », Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics,â (lire en ligne)
- R. Bod, « Enriching linguistics with statistics: Performance models of natural language », PhD thesis, University of Amsterdam, Amsterdam, the Netherlands, 1995.
- R. Bod, R. Scha, et K. Simaâan (Eds.), « Data-Oriented Parsing », CSLI Publications, Stanford, CA., 2003. (Lire en ligne)
- (en) Michael Collins et Terry Koo, « Discriminative Reranking for Natural Language Parsing », Computational Linguistics, vol. 31, no 1,â , p. 25â70 (ISSN 0891-2017 et 1530-9312, DOI 10.1162/0891201053630273, lire en ligne, consultĂ© le )
- (en) Geoffrey N. Leech, Statistically-driven Computer Grammars of English : The IBM/Lancaster Approach, Rodopi, (ISBN 90-5183-478-0)
- (en) Ivan Titov et James Henderson, « A latent variable model for generative dependency parsing », Proceedings of the 10th International Conference on Parsing Technologies, Association for Computational Linguistics,â , p. 144â155 (ISBN 9781932432909, lire en ligne, consultĂ© le )
- (en) Michael Collins, « Discriminative Reranking for Natural Language Parsing », Proceedings of the Seventeenth International Conference on Machine Learning, Morgan Kaufmann Publishers Inc.,â , p. 175â182 (ISBN 1558607072, lire en ligne)
- (en) Michael Collins et Nigel Duffy, « New ranking algorithms for parsing and tagging: kernels over discrete structures, and the voted perceptron », Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics,â , p. 263â270 (DOI 10.3115/1073083.1073128, lire en ligne)
- Haim Gaifman, « Dependency systems and phrase structure systems », In : Information and Control 8.3, p. 304-337, 1965
- (en) Michael A. Covington, « A Fundamental Algorithm for Dependency Parsing », Proceedings of the 39th Annual ACM Southeast Conference,â , p. 95-102
- (en) Sabine Buchholz et Erwin Marsi, « CoNLL-X Shared Task on Multilingual Dependency Parsing », International Journal of Web Engineering and Technology - IJWET,â (DOI 10.3115/1596276.1596305, lire en ligne, consultĂ© le )
- (en) J. Nivre, J. Hall, S. KĂŒbler, R. McDonald, J. Nilsson, S. Riedel, D. Yuret, « The CoNLL 2007 Shared Task on Dependency Parsing », Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007,â , p. 915-932
- (en) Tianze Shi, Felix G. Wu, Xilun Chen et Yao Cheng, « Combining Global Models for Parsing Universal Dependencies », Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics,â , p. 31â39 (DOI 10.18653/v1/K17-3003, lire en ligne)
- (en) Anders Björkelund, Agnieszka Falenska, Xiang Yu et Jonas Kuhn, « IMS at the CoNLL 2017 UD Shared Task: CRFs and Perceptrons Meet Neural Networks », Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics,â , p. 40â51 (DOI 10.18653/v1/K17-3004, lire en ligne)
- (en) Joakim Nivre et Ryan McDonald, « Integrating Graph-Based and Transition-Based Dependency Parsers », Proceedings of ACL-08: HLT,â (lire en ligne)
- (en) Ryan Mcdonald, « Characterizing the errors of data-driven dependency parsing models », PROCEEDINGS OF THE CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND NATURAL LANGUAGE LEARNING,â (lire en ligne, consultĂ© le )
- Joakim Nivre, « An Efficient Algorithm for Projective Dependency Parsing », In: Proceedings of the 8th International Workshop on Parsing Technologies (IWPT), 2003
- (en) Ryan McDonald, Fernando Pereira, Kiril Ribarov et Jan HajiÄ, « Non-projective dependency parsing using spanning tree algorithms », Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, Association for Computational Linguistics,â , p. 523â530 (DOI 10.3115/1220575.1220641, lire en ligne, consultĂ© le )
- (en) Jinho D. Choi, Joel Tetreault et Amanda Stent, « It Depends: Dependency Parser Comparison Using A Web-based Evaluation Tool », Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Association for Computational Linguistics, vol. 1,â , p. 387â396 (DOI 10.3115/v1/P15-1038, lire en ligne)
- Tony Jebara, « Discriminative, Generative and Imitative Learning », PhD thesis, Massachusetts Institute of Technology, 212 p., 2002.
- (en) Joakim Nivre, « Algorithms for Deterministic Incremental Dependency Parsing », Computational Linguistics, vol. 34, no 4,â , p. 513â553 (ISSN 0891-2017 et 1530-9312, DOI 10.1162/coli.07-056-r1-07-027, lire en ligne, consultĂ© le )
- (en) Taku Kudo et Yuji Matsumoto, « Japanese dependency structure analysis based on support vector machines », Proceedings of the 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, Association for Computational Linguistics,â , p. 18â25 (DOI 10.3115/1117794.1117797, lire en ligne, consultĂ© le )
- (en) Joakim Nivre, Johan Hall, Jens Nilsson et GĂŒlĆen Eryiǧit, « Labeled pseudo-projective dependency parsing with support vector machines », Proceedings of the Tenth Conference on Computational Natural Language Learning, Association for Computational Linguistics,â , p. 221â225
- J. Nivre, J. Hall, J. Nilsson, A. Chanev, G. Eryigit, S. KĂŒbler, S. Marinov, et E. Marsi, « MaltParser: A language-independent system for data-driven dependency parsing », Natural Language Engineering, 13, 95-135, 2007.
- Giuseppe Attardi, « Experiments with a multilanguage non-projective dependency parser », In Proceedings of the Tenth Conference on Computational Natural Language Learning (CoNLL-X '06). Association for Computational Linguistics, Stroudsburg, PA, USA, 166-170, 2006.
- (en) Joakim Nivre, « Incremental Non-Projective Dependency Parsing. », Proceedings of Conference of the North American Chapter of the Association of Computational Linguistics,â , p. 396â403
- Joakim Nivre, « Non-projective dependency parsing in expected linear time ». In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1 - Volume 1 (ACL '09), Association for Computational Linguistics, Stroudsburg, PA, USA, 351-359, 2009.
- Carlos GĂłmez-RodrĂguez et Joakim Nivre, « A transition-based parser for 2-planar dependency structures ». In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL '10), Association for Computational Linguistics, Stroudsburg, PA, USA, 1492-1501, 2010.
- (en) Joakim Nivre et Jens Nilsson, « Pseudo-projective dependency parsing », Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics,â , p. 99â106 (DOI 10.3115/1219840.1219853, lire en ligne, consultĂ© le )
- Richard Johansson et Pierre Nugues, « Investigating multilingual dependency parsing », In Proceedings of the Tenth Conference on Computational Natural Language Learning (CoNLL-X '06), Association for Computational Linguistics, Stroudsburg, PA, USA, 206-210, 2006.
- (en) Yue Zhang et Stephen Clark, « A tale of two parsers: investigating and combining graph-based and transition-based dependency parsing using beamsearch », IN PROCEEDINGS OF EMNLP-08,â
- Yoav Goldberg et Michael Elhadad, « An efficient algorithm for easy-first non-directional dependency parsing », In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT '10), Association for Computational Linguistics, Stroudsburg, PA, USA, 742-750, 2010.
- Yoav Goldberg, Joakim Nivre, « A Dynamic Oracle for Arc-Eager Dependency Parsing », 2012
- Milan Straka, Jan HajiÄ, Jana Strakova et Jan jr. HajiÄ, « Parsing Universal Dependency Treebanks using Neural Networks and Search-Based Oracle », 2015.
- (en) Yue Zhang et Joakim Nivre, « Transition-based Dependency Parsing with Rich Non-local Features », Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics,â
- Danqi Chen et Christopher Manning, « A Fast and Accurate Dependency Parser using Neural Networks », Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics,â (DOI 10.3115/v1/d14-1082, lire en ligne)
- (en) Bernd Bohnet, « Very high accuracy and fast dependency parsing is not a contradiction », Proceedings of the 23rd International Conference on Computational Linguistics, Association for Computational Linguistics,â , p. 89â97
- (en) James Henderson, « Inducing history representations for broad coverage statistical parsing », Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, Association for Computational Linguistics,â , p. 24â31 (DOI 10.3115/1073445.1073459, lire en ligne, consultĂ© le )
- (en) James Henderson, « Discriminative training of a neural network statistical parser », Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics,â , p. 95 (DOI 10.3115/1218955.1218968, lire en ligne, consultĂ© le )
- (en) T Mikolov, W.-T Yih et G Zweig, « Linguistic regularities in continuous space word representations », Proceedings of NAACL-HLT,â , p. 746â751 (lire en ligne)
- (en) Tomas Mikolov, Kai Chen, Greg Corrado et Jeffrey Dean, « Efficient Estimation of Word Representations in Vector Space », arXiv:1301.3781 [cs],â (lire en ligne)
- (en) Chris Dyer, Miguel Ballesteros, Wang Ling et Austin Matthews, « Transition-Based Dependency Parsing with Stack Long Short-Term Memory », arXiv:1505.08075 [cs],â (lire en ligne)
- (en) Eliyahu Kiperwasser et Yoav Goldberg, « Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations », arXiv:1603.04351 [cs],â (lire en ligne)
- Majid Yazdani et James Henderson, Incremental Recurrent Neural Network Dependency Parser with Search-based Discriminative Training, In: Proceedings of the 19th Conference on Computational Language Learning, Beijing, China, 2015, p. 142-152.
- (en) Daniel Andor, Chris Alberti, David Weiss et Aliaksei Severyn, « Globally Normalized Transition-Based Neural Networks », Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Association for Computational Linguistics,â (DOI 10.18653/v1/p16-1231, lire en ligne)
- (en) « An Upgrade to SyntaxNet, New Models and a Parsing Competition »,
- (en) Miguel Ballesteros, Chris Dyer et Noah A. Smith, « Improved Transition-based Parsing by Modeling Characters instead of Words with LSTMs », Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics,â (DOI 10.18653/v1/d15-1041, lire en ligne)
- (en) Ryan Mcdonald et Fernando Pereira, « Online Learning of Approximate Dependency Parsing Algorithms », IN PROC. OF EACL,â , p. 81ââ88
- (en) Ryan McDonald et Giorgio Satta, « On the complexity of non-projective data-driven dependency parsing », Proceedings of the 10th International Conference on Parsing Technologies, Association for Computational Linguistics,â , p. 121â132 (ISBN 9781932432909, lire en ligne)
- (en) Timothy Dozat et Christopher D. Manning, « Deep Biaffine Attention for Neural Dependency Parsing », arXiv:1611.01734 [cs],â (lire en ligne)
- (en) Jason M. Eisner, « Three new probabilistic models for dependency parsing: an exploration », Proceedings of the 16th conference on Computational linguistics, Association for Computational Linguistics,â , p. 340â345 (DOI 10.3115/992628.992688, lire en ligne)
- Jack Edmonds, « Optimum Branchings », In : J. Res. Nat. Bur. Standards 71B.4, p. 233-240, 1967.
- (en) Xavier Carreras, « Experiments with a Higher-Order Projective Dependency Parser », Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL),â (lire en ligne)
- (en) Terry Koo et Michael Collins, « Efficient Third-Order Dependency Parsers. », Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics,â , p. 1â11 (lire en ligne)
- (en) Xuezhe Ma et Hai Zhao, « Fourth-Order Dependency Parsing », Proceedings of COLING 2012,â , p. 785â796 (lire en ligne)
- (en) Markus Dreyer, David A. Smith et Noah A. Smith, « Vine parsing and minimum risk reranking for speed and precision », Proceedings of the Tenth Conference on Computational Natural Language Learning, Association for Computational Linguistics,â , p. 201â205 (lire en ligne)
- (en) Alexander M. Rush et Slav Petrov, « Vine pruning for efficient multi-pass dependency parsing », Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics, Association for Computational Linguistics,â , p. 498â507 (ISBN 9781937284206, lire en ligne)
- (en) Mark Hopkins et Greg Langmead, « Cube pruning as heuristic search », Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics,â , p. 62â71 (ISBN 9781932432596, lire en ligne)
- (en) Hao Zhang et Ryan McDonald, « Generalized Higher-Order Dependency Parsing with Cube Pruning », Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,â (lire en ligne)
- (en) Keith Hall, « K-best Spanning Tree Parsing », Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics,â (lire en ligne)
- (en) Terry Koo, Alexander M. Rush, Michael Collins et Tommi Jaakkola, « Dual decomposition for parsing with non-projective head automata », Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics,â , p. 1288â1298 (lire en ligne)
- (en) AndrĂ© F. T. Martins, Noah A. Smith, Pedro M. Q. Aguiar et MĂĄrio A. T. Figueiredo, « Dual decomposition with many overlapping components », Proceedings of the Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics,â , p. 238â249 (ISBN 9781937284114, lire en ligne)
- (en) AndrĂ© Martins, Miguel Almeida et Noah A Smith, « Turning on the Turbo: Fast Third-Order Non-Projective Turbo Parsers », Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, vol. 2,â , p. 617â622 (lire en ligne)
- (en) Sebastian Riedel, David Smith et Andrew Mccallum, « Parse, price and cut: delayed column and row generation for graph based parsers », Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,â , p. 732â743 (lire en ligne)
- (en) Carlos GĂłmez-RodrĂguez, John Carroll et David Weir, « Dependency parsing schemata and mildly non-projective dependency parsing », Computational Linguistics, vol. 37, no 3,â , p. 541â586 (ISSN 0891-2017, DOI 10.1162/COLI_a_00060, lire en ligne)
- (en) Emily Pitler, Sampath Kannan et Mitchell Marcus, « Dynamic Programming for Higher Order Parsing of Gap-Minding Trees », Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,â (lire en ligne)
- (en) Emily Pitler, Sampath Kannan et Mitchell Marcus, « Finding Optimal 1-Endpoint-Crossing Trees », Transactions of the Association of Computational Linguistics, vol. 1,â (lire en ligne)
- (en) Emily Pitler, « A Crossing-Sensitive Third-Order Factorization for Dependency Parsing », Transactions of the Association of Computational Linguistics, vol. 2, no 1,â (lire en ligne)
- (en) AndrĂ© F. T. Martins, Noah A. Smith et Eric P. Xing, « Concise integer linear programming formulations for dependency parsing », Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, Association for Computational Linguistics,â , p. 342â350 (ISBN 9781932432459, lire en ligne)
- (en) Koby Crammer et Yoram Singer, « Ultraconservative online algorithms for multiclass problems », The Journal of Machine Learning Research, vol. 3,â , p. 951â991 (ISSN 1532-4435, DOI 10.1162/jmlr.2003.3.4-5.951, lire en ligne)
- (en) Wenzhe Pei, Tao Ge et Baobao Chang, « An Effective Neural Network Model for Graph-based Dependency Parsing », Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Association for Computational Linguistics, vol. 1,â , p. 313â322 (DOI 10.3115/v1/P15-1031, lire en ligne)
- C. J. van Rijsbergen, Information Retrieval, Butterworths, 1975.
- (en) S. Abney, S. Flickenger, C. Gdaniec et C. Grishman, « Procedure for quantitatively comparing the syntactic coverage of English grammars », Proceedings of the workshop on Speech and Natural Language, Association for Computational Linguistics,â , p. 306â311 (DOI 10.3115/112405.112467, lire en ligne)
- R. Grishman, C. Macleod, et J. Sterling, « Evaluating parsing strategies using standardized parse files », In Proceedings of the Third Conference on Applied Natural Language Processing (ANLP), Trento, Italy, p. 156â161, 1992.
- (en) Sabine Buchholz et Erwin Marsi, « CoNLL-X shared task on multilingual dependency parsing », Proceedings of the Tenth Conference on Computational Natural Language Learning (CoNLL-X), Association for Computational Linguistics,â , p. 149â164 (DOI 10.3115/1596276.1596305, lire en ligne, consultĂ© le )
Voir aussi
Bibliographie
- Daniel Jurafsky et James H. Martin, Speech and Language Processing (2nd Edition), Prentice Hall, , 1024 p.
- Nitin Indurkhya et Fred J. Damerau (ed.), Handbook of Natural Language Processing (2nd Edition), Chapman & Hall, , 702 p.
- A. V. Aho et J. D. Ullman, The Theory of Parsing, Translation, and Compiling, Vol. 1. Prentice Hall, 1972.
- Christophe Moor, Multilingual Dependency Parsing from Raw Text to Universal Dependencies : The CLCL entry, MSc thesis, Université de GenÚve, 2018.
Articles connexes
- Traitement automatique du langage naturel
- Analyse sémantique
- Analyse lexicale
- Analyse syntaxique
- Arbre syntaxique
- Grammaire non contextuelle
- Grammaire de dépendance
- Algorithme de Cocke-Younger-Kasami
- Analyse Earley
- Programmation dynamique
- Classifieur linéaire
- Perceptron multicouche
- RĂ©seau de neurones artificiels
Liens externes
- Collins' Parser analyseur syntaxique de constituants historique basé sur les grammaires hors contexte probabilistes lexicalisées
- MaltParser analyseur syntaxique de dépendances statistique basé sur des transitions (implémenté en Java)
- MSTParser analyseur de dépendances basé sur les graphes (Java)
- IDP analyseur de dépendances basé sur des transitions et un modÚle probabiliste génératif, intégrant un réseau de neurones récurrent (C)
- Stanford Parser analyseur de dépendances récent basé sur des transitions et intégrant un réseau de neurones