Les réseaux de neurones artificiels facilitent la modélisation de processus non linéaires. Ils sont devenus un outil très répandu et utile pour résoudre de nombreux problèmes tels que la classification, la régression, la reconnaissance de formes, la réduction de dimensions, la prédiction structurée, la traduction automatique, la détection d’anomalies ou encore la prise de décision. Ce large panel de possibilités permet de se servir des réseaux de neurones artificiels dans divers secteurs. Dans cet article, nous discutons des applications des réseaux de neurones artificiels dans les tâches de traitement du langage naturel , aussi appelé Natural Langage Processing, NLP.
La NLP inclut un large ensemble de tâches de syntaxe, de sémantique, de discours et de parole. Nous décrirons les tâches principales dans lesquelles les réseaux de neurones ont se sont illustres de bien belles manières.
1. Classification et catégorisation de texte
La classification du texte est un élément primordial d’application du NLP. On compte bon nombre d’applications, telles que la recherche Web, le filtrage des informations, l’identification de la langue, l’évaluation de la lisibilité et l’analyse des sentiments. Les réseaux de neurones sont activement utilisés pour ces tâches.
Une série d’expériences sur les réseaux neuronaux convolutifs construites au-dessus de word2vec a été présentée. Le modèle suggéré a été testé par rapport à plusieurs points de repère. Le modèle donne d’excellents résultats. les vecteurs pré-formés sont des extracteurs de caractéristiques universels et peuvent être utilisés pour diverses tâches de classification.
L’article Text Understanding from Scratch de Xiang Zhang et Yann LeCun montre qu’il est possible d’appliquer un apprentissage approfondi à la compréhension du texte, depuis les entrées au niveau du caractère jusqu’à des concepts de texte abstraits à l’aide de réseaux convolutifs temporels (ConvNets) (CNN). Pour prouver leur affirmation, plusieurs expériences ont été menées. Le modèle a été testé sur l’ensemble des données de classification de l’ontologie DBpedia avec 14 classes (entreprise, établissement d’enseignement, artiste, athlète, titulaire de charge, moyen de transport, bâtiment, lieu naturel, village, animal, plante, album, film, travail écrit). Les résultats indiquent à la fois une bonne précision de l’entraînement (99,96%) et des tests (98,40%), avec quelques améliorations par rapport à l’augmentation du thésaurus. En outre, le test d’analyse des sentiments a été effectué sur le jeu de données Amazon Review.
2. Reconnaissance d’entité nommée
La tâche principale de la reconnaissance d’entité nommée, est de classer les entités nommées, telles que Pedro Saltimo, Google, Londres, etc., dans des catégories prédéfinies telles que personnes, entreprises, ou villes etc.
Dans le document, Architectures de neurones pour la reconnaissance d’entités nommées, deux modèles de Reconnaissance d’entité nommés ont été proposés. Les modèles ont besoin de représentations de mots basées sur des caractères appris à partir du corpus supervisé. Pas mal de tests ont été effectués à l’aide de différents ensembles de données tels que CoNLL-2002 et CoNLL-2003 en anglais, néerlandais, allemand et espagnol.
3. Balisage partiel
Le part of speech tagging (POS), en français l’étiquetage morpho-syntaxique, a de nombreuses applications. Notamment l’analyse syntaxique, la conversion de texte en parole, l’extraction d’informations, etc. Un modèle de CNN a été testé sur les données du Wall Street Journal provenant du jeu de données Penn Treebank III et a atteint une précision de marquage de 97,40%.
4. Analyse sémantique et réponse aux questions
Les répondeurs automatiques de questions répondent automatiquement à différents types de questions posées dans les langues naturelles. Par exemples des définitions, des questions biographiques, etc. L’utilisation des réseaux de neurones rend possible le développement de systèmes de réponses aux questions très performants.
5. Détection de paraphrases
La détection de paraphrases sert à vérifier si deux phrases ont la même signification. Cette tâche est ultra importante pour les systèmes de réponse aux questions. En effet, il est possible d’exprimer une meme questions de plusieurs façons.
La détection de questions sémantiquement équivalentes dans les forums d’utilisateurs en ligne suggère une méthode permettant d’identifier des questions sémantiquement équivalentes basées sur un CNN. Ces représentations sont des vecteurs dans un espace sémantique à n dimensions où des phrases de signification similaire sont proches les unes des autres.
6. Génération de langue et résumé multi-documents
La génération en langage naturel possède énormément d’applications. Telles que la rédaction automatisée de rapports, la génération de textes basés sur l’analyse des données de vente au détail, la synthèse de dossiers médicaux électroniques, la production de prévisions météorologiques textuelles à partir de données météorologiques. Et même la production de blagues.
7. Traduction automatique
Les outils de traduction automatique sont sont très populaires et ce malgré leurs limites. Dans certains secteurs, la qualité de la traduction n’est pas optimal. Pour améliorer les résultats, les spécialistes essayent différentes techniques et modèles, y compris l’approche par réseau de neurones. L’objectif de l’étude de la traduction automatique basée sur les neurones pour le domaine médical des textes est de vérifier les effets de différentes méthodes de formation sur un système de traduction automatique.
8. Reconnaissance vocale
La reconnaissance vocale a de nombreuses applications, telles que la domotique, la téléphonie mobile, l’assistance virtuelle, l’informatique mains libres, les jeux vidéo, etc. Les réseaux neutres sont largement utilisés dans ce domaine.
9. Reconnaissance des personnages
Les systèmes de reconnaissance de caractères ont également de nombreuses applications telles que la reconnaissance de caractère de reçu, la reconnaissance de caractère de facture, la reconnaissance de caractère de contrôle, la reconnaissance de caractère de document de facturation, etc. L’article Reconnaissance des caractères par réseau neuronal présente une méthode de reconnaissance des caractères manuscrits avec une précision de 85%.
10. Vérification orthographique
La plupart des éditeurs de texte permettent aux utilisateurs de vérifier si leur texte contient des fautes d’orthographe. Les réseaux de neurones sont maintenant intégrés à de nombreux outils de vérification orthographique.
Dans la vérification orthographique personnalisée à l’aide de réseaux de neurones. Un nouveau système de détection des mots mal orthographiés a été proposé. Ce système est formé sur l’observation des corrections spécifiques apportées par un dactylographe. Il élimine nombre des faiblesses des méthodes de vérification orthographique traditionnelles.
CONCLUSION
Dans cet article, nous avons décrit les problèmes de traitement du langage naturel pouvant être résolus à l’aide de réseaux de neurones. Comme nous l’avons montré, les réseaux de neurones ont de nombreuses applications telles que la classification de texte, l’extraction d’informations, l’analyse sémantique, la réponse aux questions, la détection de paraphrases, la génération de langues, la synthèse de plusieurs documents, la traduction automatique et la reconnaissance vocale et de caractères. Dans de nombreux cas, les méthodes de réseaux de neurones surpassent les autres méthodes.