Accueil🇫🇷Chercher

BERT (modèle de langage)

En traitement automatique du langage naturel, BERT, acronyme anglais de Bidirectional Encoder Representations from Transformers, est un modèle de langage développé par Google en 2018. Cette méthode a permis d'améliorer significativement les performances en traitement automatique des langues.

BERT

Informations
Développé par Google Research (d)
Première version
DĂ©pĂ´t github.com/google-research/bert
Taille des donnĂ©es 110 000 000 paramètre et 340 000 000 paramètre
Type Grand modèle de langage
Modèle transformateur
Modèle de langage entraîné par masquage (d)
Licence Licence Apache version 2.0
Site web arxiv.org/abs/1810.04805

Usage dans des applications

Le , Google annonce officiellement que BERT est dĂ©sormais intĂ©grĂ© Ă  certains de ses services pour les entreprises (Cloud TPU, bibliothèque pour TensorFlow)[1] et que son dĂ©ploiement s'effectuera les jours suivants, d'abord pour la langue anglaise, puis les autres. La firme de Mountain View qualifie ce changement de modification la plus importante apportĂ©e Ă  l'algorithme Google depuis 5 ans, date Ă  laquelle RankBrain avait Ă©tĂ© lancĂ©.

La mĂ©thode a Ă©tĂ© adaptĂ©e Ă  la langue française en 2019 avec les modèles CamemBERT[2] et FlauBERT[3]. CamemBERT a Ă©tĂ© prĂ©-entraĂ®nĂ© sur un corpus de 138 Go de texte et FlauBERT sur un corpus de 71 Go de texte.

Bibliographie

Voir aussi

Articles connexes

Liens externes

Notes et références

  1. (en) Jacob Devlin et Ming-Wei Chang, « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », sur Google AI Blog (en), (consultĂ© le ).
  2. (en) Louis Martin et al., « CamemBERT: a Tasty French Language Model », .
  3. (en) Hang Le et al., « FlauBERT: Unsupervised Language Model Pre-Training for French », .
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.