Comment BERT va-t-il changer le traitement du langage naturel ?

BERT (Bidirectional Encoder Representation from Transformers) est une avancée récente dans le domaine du traitement du langage naturel (NLP).

Il s’agit d’un outil Google développé en 2018, avant ChatGPT et Google Bard, conçu pour comprendre les mots d’une requête de recherche avec plus de précision qu’auparavant en tenant compte de leur contexte et de leur complexité.

Contrairement au modèle précédent, qui analysait le texte dans un seul sens (de gauche à droite ou de droite à gauche), BERT analyse les mots par rapport à tous les autres mots d’une phrase dans les deux sens.

En analysant les mots avant et après un mot, BERT est capable de comprendre son contexte complet, ce qui permet une compréhension plus approfondie de la langue.

BERT a influencé de nombreuses architectures NLP, approches d’apprentissage et modèles linguistiques, notamment GPT d’OpenAI, XLNet, TransformerXL de Google, ERNIE 2.0 et Roberta.

Qu’est-ce que BERT ?

BERT est un outil d’IA et d’apprentissage automatique flexible et puissant. Il est utilisé dans diverses applications NLP, telles que l’analyse des sentiments, la reconnaissance d’entités nommées et la réponse à des questions.

Il a également été incroyablement innovant dans sa contribution à l’amélioration de l’interprétation des intentions des utilisateurs par les moteurs de recherche et a constitué un tournant important vers une interaction plus naturelle et plus humaine entre les personnes et les machines.

Le modèle a été pré-entraîné sur des textes non étiquetés tels que Wikipédia (environ 2,5 milliards de mots) et le Book Corpus (800 millions de mots).

Avant l’avènement des transformateurs, la modélisation du langage naturel était une tâche difficile. Même après l’essor des réseaux neuronaux, tels que les réseaux récurrents et convolutifs, les résultats n’étaient que partiels.

Il était difficile de prédire les mots manquants dans une phrase à l’aide des mécanismes des réseaux neuronaux. À l’époque, les réseaux neuronaux s’appuyaient sur des architectures encodeur-décodeur, qui étaient puissantes mais chronophages et gourmandes en ressources.

Le savoir-faire de Bert

L’architecture BERT est construite sur la base du Transformer. Deux variantes sont disponibles : BERT Base : 12 couches et BERT Large : 24 couches.

L’architecture BERT Base est similaire à la taille du modèle OpenAI ChatGPT. Toutes ces couches Transformer sont des blocs encodeurs uniquement.

Traitement du texte

Les développeurs de BERT ont ajouté un ensemble de règles spécifiques pour représenter le texte d’entrée du modèle. Tous les encodages d’entrée sont une combinaison d’encodages de position, d’encodages de segment et d’encodages de token.

La combinaison des étapes de prétraitement suivantes permet à BERT d’être facilement entraîné sur une variété de tâches de NLP, sans qu’il soit nécessaire de modifier l’architecture du modèle

Embeddings positionnels : BERT apprend et utilise ces embeddings pour naviguer entre les mots d’une phrase. Contrairement aux RNN, qui ne peuvent pas capturer une séquence d’informations, ces embeddings aident Transformer à surmonter ses limites.
Embeddings segmentaux : dans le cas des questions-réponses, BERT prend des paires de phrases en entrée. En apprenant ses embeddings, le modèle peut distinguer la première phrase de la deuxième.
Embeddings de tokens : ces embeddings représentent des connaissances spécifiques obtenues pour un token particulier à partir du vocabulaire de tokens WordPiece.

Tâche de pré-entraînement

BERT est pré-entraîné à la modélisation du langage masqué et à la prédiction de la phrase suivante. À l’origine, BERT a été conçu comme un modèle « bidirectionnel ». Cela signifie que le réseau obtient des informations à la fois du contexte droit et gauche d’un token, de la première couche à la dernière.

Les modèles linguistiques précédents étaient sujets à des erreurs dues aux prédictions contextuelles de droite à gauche et vice versa.

ELMo a introduit une bidirectionnalité de base en entraînant deux modèles LSTM distincts qui traitent le texte de gauche à droite et de droite à gauche, puis en combinant leurs résultats.

BERT a développé ce concept avec un modèle plus approfondi et purement bidirectionnel utilisant l’approche du modèle de langage masqué (MLM).

Dans les MLM, des mots aléatoires dans une phrase sont masqués et le modèle est entraîné à prédire ces mots cachés plutôt que le mot suivant dans une séquence.

BERT utilise une stratégie consistant à masquer 15 % des mots afin d’améliorer l’apprentissage et d’éviter le surajustement aux tokens masqués.

BERT est également entraîné à la prédiction de la phrase suivante pour les tâches qui nécessitent une compréhension de la relation entre les phrases. Pour les tâches de classification binaire, la génération de données à partir d’un corpus de texte arbitraire nécessite la création de paires de phrases, similaire à l’approche utilisée dans les modèles de langage masqué (MLM).

Par exemple, à partir d’un ensemble de données de 100 000 phrases, 50 000 paires d’entraînement peuvent être créées. La moitié de ces paires serait étiquetée « IsNext », où la première phrase est immédiatement suivie d’une deuxième phrase, tandis que l’autre moitié serait étiquetée « NotNext », où la première phrase est associée à une phrase aléatoire du corpus.

Cette méthode et le MLM sont essentiels à la capacité de BERT à s’adapter à différentes tâches, et l’intégration de la prédiction de la phrase suivante (NSP) et du MLM dans le pré-entraînement fait de BERT un modèle véritablement indépendant de la tâche.

Variantes et adaptations de BERT

BERT étant open source, les développeurs peuvent accéder au code source, apporter des améliorations et ajouter des fonctionnalités. De nombreuses variantes de BERT ont ainsi vu le jour. Voici quelques-unes des variantes de BERT

Roberta

Il s’agit d’une variante de BERT créée par Meta en collaboration avec l’université de Washington, qui signifie « Robustly Optimised BERT approach » (approche BERT optimisée de manière robuste).

Cette variante est entraînée sur un ensemble de données 10 fois plus important que celui de BERT et est considérée comme plus puissante que le BERT original. Elle utilise l’apprentissage par masquage dynamique au lieu de l’apprentissage par masquage statique afin d’apprendre des représentations de mots plus robustes et plus généralisables.

Distilvert

Basée sur l’architecture du BERT original, cette variante utilise des techniques de distillation des connaissances pendant le pré-entraînement. Elle vise à rendre le BERT plus accessible en réduisant sa taille de 40 %, tout en conservant 97 % de sa capacité de compréhension du langage et en le rendant 60 % plus rapide.

ALBERT

ALBERT (abréviation de A Lite BERT) a été développé pour améliorer l’efficacité de la pré-formation de BERTlarge en résolvant les problèmes de contraintes de mémoire, de longs temps de formation et de dégradation du modèle.

Les développeurs d’ALBERT ont introduit deux stratégies de réduction des paramètres afin de minimiser l’utilisation de la mémoire et d’accélérer la vitesse de formation.

De Word2Vec à BERT : le parcours du NLP

Le NLP étant un domaine varié qui comprend de nombreuses tâches différentes, il n’existe que quelques centaines à quelques milliers d’exemples d’entraînement étiquetés par des humains dans des ensembles de données spécifiques à une tâche. Le parcours du NLP a commencé avec des encodages de mots tels que Word2Vec et GloVe.

Ces encodages permettaient de capturer les relations contextuelles entre les mots et de faire de meilleures prédictions.

Cependant, ces encodages utilisaient des modèles linguistiques peu approfondis. En raison du manque d’informations disponibles, il a fallu recourir à des modèles linguistiques plus complexes. Une autre limite était que ces modèles ne pouvaient pas prendre en compte le contexte des mots.

ELMo a relevé le défi de la polysémie en passant d’un simple modèle Word2Vec à un modèle d’encodage complexe dépendant du contexte, généré par un réseau LSTM bidirectionnel.

Cette innovation permet aux mots d’avoir plusieurs intégrations spécifiques au contexte, soulignant les avantages de l’apprentissage préalable dans le développement du traitement du langage naturel.

ULMFiT a encore développé le NLP en permettant le réglage fin des modèles linguistiques pour la classification de documents avec un minimum de données, et a démontré l’efficacité du transfert d’apprentissage dans le NLP avec moins de 100 cas. Cela a établi une formule pour un transfert d’apprentissage réussi dans ce domaine.

(L’architecture basée sur Transformer, plutôt que le modèle LSTM utilisé dans ULMFiT et ELMo, a facilité le réglage fin pour un plus large éventail de tâches, notamment le raisonnement et la compréhension.

Grâce à son mécanisme d’attention, GPT a pu démontrer l’efficacité et les capacités de reconnaissance des modèles de Transformer, soulignant l’efficacité de l’architecture en établissant de nouvelles références et en ouvrant la voie à BERT et aux innovations ultérieures en matière de NLP.

À quoi sert Google BERT ?

BERT a permis d’obtenir des résultats de pointe dans plusieurs tâches de NLP. Voici quelques-uns des domaines dans lesquels BERT excelle

BERT est le premier chatbot alimenté par Transformer et a obtenu des résultats remarquables dans le domaine de la réponse aux questions.
BERT a fait preuve d’une impressionnante capacité à prédire de manière pessimiste ou optimiste les critiques de films.
BERT est déjà capable de produire des phrases plus longues à partir de simples invites.
BERT peut résumer des phrases simples ou complexes, par exemple dans les domaines juridique et médical.
BERT est un modèle multilingue qui peut être traduit de manière appropriée dans d’autres langues.
BERT peut être utilisé pour des tâches d’auto-complétion telles que les services de messagerie électronique et de messagerie instantanée.

Affiner BERT pour des tâches spécifiques

L’une des caractéristiques les plus importantes des modèles linguistiques à grande échelle est la séparation entre le pré-entraînement et l’ajustement. Les développeurs peuvent utiliser des versions pré-entraînées de n’importe quel modèle et les ajuster pour des cas d’utilisation spécifiques ; des versions ajustées de BERT ont été développées pour diverses tâches de TALN.

BERT-base-Chinese a été entraîné pour les tâches de TALN en chinois.
BERT-base-NER est une version personnalisée pour la reconnaissance d’entités nommées.
Symps_disease_bert_v3_c41 est un modèle de classification des symptômes en maladies pour les chatbots en langage naturel.
BERT for Patent est basé sur BERTarge et a été formé par Google sur plus de 100 millions de brevets dans le monde entier.

Similitudes entre BERT et le Big Data

Bien que le Big Data et BERT aient des utilisations différentes, ils sont fondamentalement équivalents en termes de traitement et d’analyse de grandes quantités de données.

Leur évolutivité les distingue : BERT tire ses capacités de compréhension du langage de vastes bases de données textuelles. Les technologies Big Data sont conçues pour traiter et stocker efficacement d’énormes ensembles de données sur des systèmes distribués.

Les deux s’appuient sur des méthodes de traitement complexes : BERT utilise l’apprentissage profond et l’architecture Transformer pour le traitement du langage naturel, tandis que le Big Data utilise des cadres complexes tels que Hadoop et Spark pour l’analyse.

Cela permet de trouver des modèles cachés, des tendances et des complexités contextuelles dans de vastes bases de données, facilitant ainsi la prise de décisions éclairées dans différents domaines.

Le Big Data et BERT représentent des avancées technologiques dans leurs domaines respectifs et soulignent le rôle important que joue l’analyse de données à grande échelle dans l’expansion des connaissances et des capacités de la science des données et de l’intelligence artificielle.

Limites de BERT

Comme d’autres modèles linguistiques à grande échelle (LLM), BERT est affecté par la qualité et la quantité des données d’entraînement, et des données limitées ou biaisées peuvent conduire à des résultats inexacts ou à des « illusions LLM ».

Contrairement aux modèles plus récents qui utilisent l’apprentissage par renforcement à partir du retour d’information humaine (RLHF) pour améliorer la fiabilité, le BERT original ne dispose pas de cette fonctionnalité. Cette lacune ne permet pas de bénéficier de la coordination de la formation humaine et est source d’erreurs.

De plus, bien qu’il soit plus petit que ses contemporains, BERT nécessite des ressources informatiques considérables pour son fonctionnement et son entraînement, ce qui représente un défi pour les développeurs disposant de ressources limitées.

Conclusion

En conclusion, BERT représente le summum de la complexité et du progrès en matière de modélisation du langage et a poussé l’automatisation de la compréhension du langage vers de nouveaux sommets.

Grâce à un entraînement intensif sur d’énormes ensembles de données et à l’utilisation transformatrice de l’architecture Transformer, BERT a eu un impact profond sur le NLP.

Avec l’open source de BERT et l’engagement de la communauté IA à améliorer et à diffuser de nouvelles itérations, l’avenir s’annonce riche en avancées majeures dans le domaine du TALN. L’avenir s’annonce riche en avancées majeures dans le domaine du TALN.

Foire aux questions

Comment BERT se compare-t-il aux Transformers ?

Alors que BERT produit des encodages de mots, les Sentence Transformers excellent dans la compréhension de segments de texte plus larges, notamment des phrases et des paragraphes. Ces modèles sont conçus pour produire des encodages détaillés de phrases et conviennent à diverses applications nécessitant une compréhension au niveau de la phrase.

BERT est-il supérieur à GPT ?

BERT excelle dans des tâches telles que l’analyse des sentiments, la réponse à des questions et la catégorisation de textes, où la compréhension des liens entre les phrases est essentielle. À l’inverse, GPT excelle dans la génération de texte, en particulier dans la production de textes qui semblent naturels.

Après BERT, comment le TALN va-t-il évoluer à l’avenir ?

Le succès de BERT a stimulé la recherche de modèles de NLP plus efficaces, plus précis et plus polyvalents. Les avancées futures pourraient inclure des modèles nécessitant moins de puissance de calcul, ayant une compréhension plus approfondie du contexte et pouvant être facilement adaptés à un plus large éventail de langues et de tâches.

Où puis-je trouver des ressources pour commencer à travailler avec BERT ?

Les développeurs qui envisagent d’utiliser BERT peuvent accéder à des modèles entraînés et à de la documentation via le référentiel GitHub officiel maintenu par Google et la bibliothèque Hugging Face Transformers.