Tagmatica
Tagmatica est une société française spécialisée dans l'informatique documentaire et linguistique. Elle a été fondée en 2002 par Gil Francopoulo qui est l'auteur de la norme ISO des dictionnaires électroniques LMF.
Tagmatica | |
Création | |
---|---|
Personnages clés | Gil Francopoulo |
Forme juridique | SASU |
Siège social | Paris France |
Activité | Exploration de données Traitement automatique du langage naturel Reconnaissance d'entités nommées Logiciel Fouille de textes Standardisation |
Produits | TagParser (18 langues européennes) |
SIREN | 828193961[1] |
Site web | www.tagmatica.com |
Histoire
La société Tagmatica, crée le a été dissoute le [2].
Une autre société (avec le nom Tagmatica SAS) a été immatriculée le [3].
Activités
Les activités sont la standardisation, les dictionnaires, les analyseurs morphologiques, syntaxiques et sémantiques des langues, la détection de langue et le calcul automatique de thématiques.
Contexte
La majeure partie de la connaissance étant formulée sous forme de textes, il s'agit de les traiter automatiquement pour en obtenir les structures syntaxiques, les entités nommées, les citations et/ou des indicateurs numériques qui synthétisent le corpus.
Au niveau syntaxique, alors que la plupart des acteurs se limitent à l'application de règles de filtrage par motif sur de petits fragments de phrases, les outils de Tagmatica réalisent des analyses syntaxiques complètes (sur certaines langues) afin de détecter à la fois les attachements de courte, mais aussi ceux de longue distance. Ces derniers sont difficiles à traiter et posent de sérieux problèmes aux outils datant d'une dizaine d'années. Le défi était de mettre au point des outils rapides et robustes pour analyser des dizaines de millions de mots dans un temps raisonnable.
Au niveau sémantique, l'analyse utilise une base de connaissances multilingues comportant 600 000 termes qui est structurée selon une ontologie d'un millier de types[4].
Langues traitées
L'analyseur développé par Tagmatica s'appelle TagParser. Il effectue une analyse linguistique complète (dont les entités nommées) pour le français, l'anglais et l'espagnol. Une détection des entités nommées est réalisée pour l'allemand, le danois, le grec, l'italien, le letton, le lituanien, le maltais, le néerlandais, le polonais, le portugais, le roumain, le slovaque, le slovène, le suédois et le tchèque. Le nombre de langues traitées est donc au total de 18 langues européennes.
Utilisation
TagParser est un logiciel utilisé depuis plusieurs années par les services de la Commission européenne pour aider à élaborer les revues de presse.
Respect des standards
Ayant participé à l'élaboration de spécifications ISO et W3C, Tagmatica se devait de respecter les standards professionnels en la matière. Les interfaces sont définies en XML. Tous les outils et données sont codés en Unicode. Les dictionnaires sont conformes à la norme LMF. L'ontologie respecte les recommandations du W3C pour le Web sémantique avec une définition en OWL.
Projets collaboratifs scientifiques
Tagmatica a participé aux projets Technolangue-Easy, eContent-LIRICS, ANR-Passage, ITA-Metaverse, Scribo et ANR-Lelie.
Principales publications
- Language Resources and Evaluation / Springer Verlag 2008 (DOI: 10.1007/s10579-008-9077-5): Multilingual resources for NLP in the lexical markup framework (LMF)
- Gesellschaft fĂĽr linguistische Datenverarbeitung GLDV-2007/Tubingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons
- Language Resources and Evaluation LREC-2006/Genoa: Lexical Markup Framework (LMF)
- Language Resources and Evaluation LREC-2006/Genoa: The relevance of standards for research infrastructures
- Experiments with a Chunker and Lucene, in Advances in Cross-Language Information Retrieval, 2003, Springer-Verlag, Berlin.
Références
- Système national d'identification et du répertoire des entreprises et de leurs établissements, (base de données)
- « TAGMATICA à PARIS (441857455), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le )
- « TAGMATICA SAS à PARIS (828193961), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le )
- Francopoulo G. Demay F. 2011, A deep ontology for Named Entities, International Conference on Computational Semantics, Interoperable Semantic Annotation Workshop, Oxford