×

En savoir plus

Boîte d'auteur


Discutez de votre projet

À propos de nous

Nous sommes un partenaire Microsoft Gold avec sa présence aux États-Unis et en Inde. Nous sommes un fournisseur de services informatiques dynamique et professionnel au service des entreprises et des startups, en les aidant à relever les défis de l'économie mondiale. Nous offrons des services dans le domaine de la consultation et de la mise en œuvre CRM, du développement d'applications, du développement d'applications mobiles, du développement Web et du développement offshore.

qu'est-ce que BERT

Qu'est-ce que BERT? BERT pour la classification de texte

By Amit Modi / 14 avril 2021

Le 15 juin 2021
Qu'est-ce que BERT? BERT pour la classification de texte

Dans ce domaine de la vision et de la perspicacité par ordinateur, les chercheurs ont fréquemment révélé les avantages de l'apprentissage par transfert - pré-former une conception de réseau neuronal sur une tâche familière, par exemple, ImageNet, puis effectuer un réglage fin - en utilisant le réseau neuronal formé comme le fondation d'un nouveau et dernier modèle spécifique à un objectif. Des chercheurs ont également montré ces dernières années qu'une technique connexe peut être bénéfique dans plusieurs tâches de langage naturel.

Il y a beaucoup de battage médiatique et d'autres informations erronées concernant la nouvelle mise à jour de l'algorithme de Google. Qu'est-ce que BERT, comment ça marche et pourquoi est-ce important pour notre travail en tant que SEO? En fait, au cours de l'année précédente de sa mise en œuvre, BERT a créé une tempête passionnante d'activité dans la recherche de production. Dans cet article, nous explorerons ce qu'est BERT et l'application de BERT à la classification de texte en python.

La dernière mise à jour algorithmique de Google, BERT, permet à Google de comprendre correctement le langage naturel, en particulier dans la recherche conversationnelle. BERT influence environ 10% des requêtes et transformera également les extraits de code et les classements organiques. Donc, ce n'est pas un petit changement. Cependant, comprenez que BERT n'est pas simplement une mise à jour algorithmique, mais c'est aussi un document de recherche et un cadre de traitement du langage naturel d'apprentissage automatique.

Aussi, lisez: 10 cadres de développement de chatbot AI puissants

Qu'est-ce que le BERT?

BERT est l'acronyme de Bidirectional Encoder Representations from Transformers. Il s'agit d'un cadre de PNL puissant et révolutionnaire de Google. Il est plus communément connu sous le nom d'outil ou de cadre d'algorithme de recherche Google appelé Google BERT, qui vise à améliorer la recherche, à comprendre la distinction et la signification des mots dans les recherches et à mieux faire correspondre toutes les requêtes avec des résultats efficaces et utiles.

BERT est un projet de recherche et d'analyse open-source et un article académique. Il a été annoncé pour la première fois en octobre 2018 sous le nom de BERT. De plus, BERT est un cadre PNL de traitement du langage naturel produit par Google et le prochain projet de recherche open-source, pour rendre le domaine de recherche complet du traitement du langage naturel meilleur à la compréhension globale du langage naturel.

BERT a un rôle majeur dans l'accélération de la compréhension du langage naturel NLU plus que tout autre cadre, et les progrès de Google vers l'open-source BERT ont raisonnablement changé de manière permanente le traitement du langage naturel.

BERT a suscité l'enthousiasme dans la communauté d'apprentissage automatique et de PNL en offrant des retours à la pointe de la technologie dans une grande variété de missions de PNL, comme l'inférence en langage naturel (MNLI), la réponse aux questions (SQuAD v1.1), et plusieurs autres.

la source: analytique

L'innovation technique clé de BERT met en œuvre la formation bidirectionnelle de Transformer, un modèle d'attention moderne, à la modélisation du langage. Cela contraste avec les efforts antérieurs qui examinaient une séquence de texte de gauche à droite ou une formation combinée de gauche à droite et de droite à gauche. Les résultats de cet article révèlent qu'un modèle de langage qui est formé de manière bidirectionnelle peut posséder un sens plus profond du flux et du contexte du langage que les modèles de langage unidirectionnels. Les chercheurs détaillent une nouvelle technique dans l'article, appelée Masked LM (MLM), qui prend désormais en charge la formation bidirectionnelle dans les modèles, ce qui était impossible auparavant.

Aussi, lisez: Le développement de l'intelligence artificielle est-il coûteux?

Comment fonctionne BERT

Le but de toute technique PNL donnée est d'apprendre le langage humain tel qu'il s'exprime naturellement. Dans le cas de BERT, cela signifie prédire un mot dans un blanc. Pour y parvenir, les modèles doivent généralement s'entraîner à utiliser un vaste dépôt de données d'apprentissage spécifiques et étiquetées. Cela nécessite un étiquetage manuel des données par des équipes de linguistes.

Identifier

BERT continue d'apprendre sans surveillance à partir du texte non étiqueté et de croître même s'il est utilisé dans des applications pratiques, par exemple la recherche Google. Sa pré-formation fonctionne comme une couche de base de «connaissances» à partir de laquelle se développer. À partir de là, BERT peut s'adapter à la collection toujours croissante de contenus et de requêtes interrogeables et être affiné selon les spécifications de l'utilisateur. Ce processus s'appelle l'apprentissage par transfert.

BERT est en outre la première technique PNL à s'appuyer individuellement sur le mécanisme d'auto-attention, rendu possible par les transformateurs bidirectionnels au centre de la conception de BERT. Ceci est important car généralement, un mot peut modifier sa signification en tant que structure de phrase. S'il y a plus de nombre total de mots présents dans chaque phrase ou phrase, alors le mot qui est au centre devient plus ambigu. BERT prend en compte le sens prolongé en inspectant bidirectionnellement, en tenant compte de l'impact que tous les autres mots de cette phrase ont sur le mot principal, en supprimant l'élan de gauche à droite qui, autrement, oriente les mots vers un sens défini au fur et à mesure que la phrase avance.

Implémentation de BERT pour la classification de texte en Python

source : analyticsvidhya

La classification de texte est à la base de plusieurs applications de traitement de texte et est utilisée dans de nombreux domaines tels que les ressources humaines du marché, le CRM (acheminement des plaintes des consommateurs, la recherche et la science (classification de l'état médical du patient), ou la surveillance des réseaux sociaux (urgence en temps réel). surveillance, détection de fausses informations ou tout commentaire offensant).

Les modèles de classification de texte ont obtenu des résultats remarquables grâce à l'arrivée de techniques de PNL d'apprentissage profond extrêmement performantes, parmi lesquelles le modèle BERT et d'autres consorts ont un rôle de premier plan.

Maintenant, vous devez penser à toutes les possibilités offertes par BERT. Il existe plusieurs façons de tirer parti de l'énorme référentiel de connaissances de BERT pour nos applications PNL. L'une des méthodes les plus efficaces serait de l'ajuster en fonction de votre tâche particulière et des données spécifiques à la tâche. Vous pouvez ensuite utiliser ces incorporations produites à partir de BERT comme incorporations pour vos documents texte.

Prétraiter votre texte signifie simplement mettre votre texte sous une forme analysable et prévisible pour votre tâche. Une tâche ici est un mélange de domaine et d'approche. Par exemple, sélectionner les meilleurs mots-clés à partir de Tweets (domaine) avec TF-IDF (approche) est une illustration d'une tâche.

À retenir:

1. La taille du modèle compte, même à grande échelle. BERT large, avec environ 345 millions de paramètres, est le modèle le plus complet du genre. Il est manifestement meilleur pour les tâches à petite échelle que pour la base BERT, qui utilise une architecture identique avec «seulement» 110 millions de paramètres.

2. La méthode bidirectionnelle (MLM) de BERT converge plus lentement que les approches de gauche à droite (car seulement 15% des mots sont prédits dans chaque lot), mais la formation bidirectionnelle bat toujours la formation de gauche à droite après un petit nombre d'étapes de pré-formation. .

3. Avec des données d'entraînement suffisantes, plus d'étapes d'entraînement, ce qui conduit finalement à une plus grande précision.

Conclusion

Cet article visait principalement à expliquer les principales idées de l'article sans se noyer dans des aspects techniques extrêmes, nous avons ici discuté de BERT et de sa classification de texte en Python.

BERT est incontestablement une percée et en même temps une invention dans l'utilisation de l'apprentissage automatique pour le traitement du langage naturel. Le fait qu'il soit accessible et permet un réglage rapide et fin fournira probablement un large éventail d'applications pratiques à l'avenir.

La source: Qu'est-ce que BERT | BERT pour la classification de texte (analyticsvidhya.com)

[sc name = "AI"]

Dans ce domaine de la vision et de la perspicacité par ordinateur, les chercheurs ont fréquemment révélé les avantages de l'apprentissage par transfert - pré-former une conception de réseau neuronal sur une tâche familière, par exemple, ImageNet, puis effectuer un réglage fin - en utilisant le réseau neuronal formé comme le fondation d'un nouveau et dernier modèle spécifique à un objectif. Des chercheurs ont également montré ces dernières années qu'une technique connexe peut être bénéfique dans plusieurs tâches de langage naturel.

Il y a beaucoup de battage médiatique et d'autres informations erronées concernant la nouvelle mise à jour de l'algorithme de Google. Qu'est-ce que BERT, comment ça marche et pourquoi est-ce important pour notre travail en tant que SEO? En fait, au cours de l'année précédente de sa mise en œuvre, BERT a créé une tempête passionnante d'activité dans la recherche de production. Dans cet article, nous explorerons ce qu'est BERT et l'application de BERT à la classification de texte en python.

La dernière mise à jour algorithmique de Google, BERT, permet à Google de comprendre correctement le langage naturel, en particulier dans la recherche conversationnelle. BERT influence environ 10% des requêtes et transformera également les extraits de code et les classements organiques. Donc, ce n'est pas un petit changement. Cependant, comprenez que BERT n'est pas simplement une mise à jour algorithmique, mais c'est aussi un document de recherche et un cadre de traitement du langage naturel d'apprentissage automatique.

Aussi, lisez: 10 cadres de développement de chatbot AI puissants

Qu'est-ce que le BERT?

BERT est l'acronyme de Bidirectional Encoder Representations from Transformers. Il s'agit d'un cadre de PNL puissant et révolutionnaire de Google. Il est plus communément connu sous le nom d'outil ou de cadre d'algorithme de recherche Google appelé Google BERT, qui vise à améliorer la recherche, à comprendre la distinction et la signification des mots dans les recherches et à mieux faire correspondre toutes les requêtes avec des résultats efficaces et utiles.

BERT est un projet de recherche et d'analyse open-source et un article académique. Il a été annoncé pour la première fois en octobre 2018 sous le nom de BERT. De plus, BERT est un cadre PNL de traitement du langage naturel produit par Google et le prochain projet de recherche open-source, pour rendre le domaine de recherche complet du traitement du langage naturel meilleur à la compréhension globale du langage naturel.

BERT a un rôle majeur dans l'accélération de la compréhension du langage naturel NLU plus que tout autre cadre, et les progrès de Google vers l'open-source BERT ont raisonnablement changé de manière permanente le traitement du langage naturel.

BERT a suscité l'enthousiasme dans la communauté d'apprentissage automatique et de PNL en offrant des retours à la pointe de la technologie dans une grande variété de missions de PNL, comme l'inférence en langage naturel (MNLI), la réponse aux questions (SQuAD v1.1), et plusieurs autres.

la source: analytique

L'innovation technique clé de BERT met en œuvre la formation bidirectionnelle de Transformer, un modèle d'attention moderne, à la modélisation du langage. Cela contraste avec les efforts antérieurs qui examinaient une séquence de texte de gauche à droite ou une formation combinée de gauche à droite et de droite à gauche. Les résultats de cet article révèlent qu'un modèle de langage qui est formé de manière bidirectionnelle peut posséder un sens plus profond du flux et du contexte du langage que les modèles de langage unidirectionnels. Les chercheurs détaillent une nouvelle technique dans l'article, appelée Masked LM (MLM), qui prend désormais en charge la formation bidirectionnelle dans les modèles, ce qui était impossible auparavant.

Aussi, lisez: Le développement de l'intelligence artificielle est-il coûteux?

Comment fonctionne BERT

Le but de toute technique PNL donnée est d'apprendre le langage humain tel qu'il s'exprime naturellement. Dans le cas de BERT, cela signifie prédire un mot dans un blanc. Pour y parvenir, les modèles doivent généralement s'entraîner à utiliser un vaste dépôt de données d'apprentissage spécifiques et étiquetées. Cela nécessite un étiquetage manuel des données par des équipes de linguistes.

Identifier

BERT continue d'apprendre sans surveillance à partir du texte non étiqueté et de croître même s'il est utilisé dans des applications pratiques, par exemple la recherche Google. Sa pré-formation fonctionne comme une couche de base de «connaissances» à partir de laquelle se développer. À partir de là, BERT peut s'adapter à la collection toujours croissante de contenus et de requêtes interrogeables et être affiné selon les spécifications de l'utilisateur. Ce processus s'appelle l'apprentissage par transfert.

BERT est en outre la première technique PNL à s'appuyer individuellement sur le mécanisme d'auto-attention, rendu possible par les transformateurs bidirectionnels au centre de la conception de BERT. Ceci est important car généralement, un mot peut modifier sa signification en tant que structure de phrase. S'il y a plus de nombre total de mots présents dans chaque phrase ou phrase, alors le mot qui est au centre devient plus ambigu. BERT prend en compte le sens prolongé en inspectant bidirectionnellement, en tenant compte de l'impact que tous les autres mots de cette phrase ont sur le mot principal, en supprimant l'élan de gauche à droite qui, autrement, oriente les mots vers un sens défini au fur et à mesure que la phrase avance.

Implémentation de BERT pour la classification de texte en Python

source : analyticsvidhya

La classification de texte est à la base de plusieurs applications de traitement de texte et est utilisée dans de nombreux domaines tels que les ressources humaines du marché, le CRM (acheminement des plaintes des consommateurs, la recherche et la science (classification de l'état médical du patient), ou la surveillance des réseaux sociaux (urgence en temps réel). surveillance, détection de fausses informations ou tout commentaire offensant).

Les modèles de classification de texte ont obtenu des résultats remarquables grâce à l'arrivée de techniques de PNL d'apprentissage profond extrêmement performantes, parmi lesquelles le modèle BERT et d'autres consorts ont un rôle de premier plan.

Maintenant, vous devez penser à toutes les possibilités offertes par BERT. Il existe plusieurs façons de tirer parti de l'énorme référentiel de connaissances de BERT pour nos applications PNL. L'une des méthodes les plus efficaces serait de l'ajuster en fonction de votre tâche particulière et des données spécifiques à la tâche. Vous pouvez ensuite utiliser ces incorporations produites à partir de BERT comme incorporations pour vos documents texte.

Prétraiter votre texte signifie simplement mettre votre texte sous une forme analysable et prévisible pour votre tâche. Une tâche ici est un mélange de domaine et d'approche. Par exemple, sélectionner les meilleurs mots-clés à partir de Tweets (domaine) avec TF-IDF (approche) est une illustration d'une tâche.

À retenir:

1. La taille du modèle compte, même à grande échelle. BERT large, avec environ 345 millions de paramètres, est le modèle le plus complet du genre. Il est manifestement meilleur pour les tâches à petite échelle que pour la base BERT, qui utilise une architecture identique avec «seulement» 110 millions de paramètres.

2. La méthode bidirectionnelle (MLM) de BERT converge plus lentement que les approches de gauche à droite (car seulement 15% des mots sont prédits dans chaque lot), mais la formation bidirectionnelle bat toujours la formation de gauche à droite après un petit nombre d'étapes de pré-formation. .

3. Avec des données d'entraînement suffisantes, plus d'étapes d'entraînement, ce qui conduit finalement à une plus grande précision.

Conclusion

Cet article visait principalement à expliquer les principales idées de l'article sans se noyer dans des aspects techniques extrêmes, nous avons ici discuté de BERT et de sa classification de texte en Python.

BERT est incontestablement une percée et en même temps une invention dans l'utilisation de l'apprentissage automatique pour le traitement du langage naturel. Le fait qu'il soit accessible et permet un réglage rapide et fin fournira probablement un large éventail d'applications pratiques à l'avenir.

La source: Qu'est-ce que BERT | BERT pour la classification de texte (analyticsvidhya.com)

Services de conseil en IA

Vous envisagez de tirer parti de l'IA pour votre entreprise? Nous fournissons AI Consulting pour aider l'organisation à mettre en œuvre cette technologie. Connectez-vous avec notre équipe pour en savoir plus.

invité
0 Commentaires
Commentaires en ligne
Voir tous les commentaires
0
J'adorerais vos pensées, veuillez commenter.x