Les différentes techniques de Natural Language Processing

Le Natural Language Processing ou NLP est une branche de l’intelligence artificielle qui développe des programmes informatiques pour comprendre le langage humain.

Pour analyser les textes, différentes techniques de Natural Language Processing sont actuellement utilisées.


Les expressions régulières : une des techniques de Natural Language Processing

Les expressions régulières sont une méthode particulièrement efficace pour traiter un texte. Elle permet notamment de :

  • Faire une analyse rapide de nombreux textes pour trouver des motifs de caractères spécifiques,
  • Découper une chaîne de caractères en paragraphes, phrases et mots,
  • Valider le texte afin de s’assurer qu’il correspond à un modèle prédéfini, comme une adresse électronique.

L’analyse statistique des mots avec TF-IDF

TF-IDF pour « Term Frequency-Inverse Document Frequency » est une des techniques de Natural Language Processing qui offre un premier niveau d’analyse statistique des mots d’un texte.

Elle permet d’évaluer l’importance d’un mot dans un document, en fonction du nombre de fois où celui-ci apparaît, mais compensé par la fréquence globale du mot dans l’ensemble des documents : le corpus.

En effet, certains mots sont tellement répétés dans le corpus, qu’ils ne permettent pas de caractériser en tant que tel un texte. C’est le cas par exemple des mots comme « et », « mais », « le », etc.

Pour détecter les mots-clés d’un texte, il faut donc que le poids TF-IDF associé à un mot soit d’autant plus élevé que le mot est fréquent dans le document considéré et que le mot est rare dans le corpus.


Les modèles de classification de texte

Les techniques de Natural Language Processing dites de classification de texte sont des modèles de machine learning qui fournissent des prédictions de catégorie basées sur un historique d’exemples déjà classifiés, appelé ensemble d’apprentissage.

Il existe différents modèles de classification selon la nature de l’analyse du texte :

  • L’analyse lexicale : classifie les mots selon leur nature grammaticale.
  • L’analyse syntaxique : attribue une fonction aux mots (verbes, sujets, etc.).
  • L’analyse sémantique : permet de classer les mots dans des catégories : lieux, noms propres, etc.
  • L’analyse de sentiment : associe à chaque mot un coefficient de positivité ou de négativité afin de déterminer le sentiment global d’une phrase.

Les modèles de concepts

Pour améliorer les techniques de Natural Language Processing, des linguistes ont recensé les différents concepts associés à un mot dans des bases de données lexicales. Ces concepts correspondent aux différents sens que peuvent prendre un même mot.

Une des plus connues s’appelle WordNet, construite par l’Université de Princeton.


Les modèles de prolongement prédictif des mots

Les modèles de plongement prédictif de mots utilisent des réseaux de neurones artificiels pour apprendre statistiquement une représentation vectorielle de chaque mot présent dans le texte.

Le vecteur associé à chaque mot prend en compte le contexte dans lequel il est apparu tout au long du texte. Cela permet d’avoir une représentation numérique avec les propriétés grammaticales et sémantiques des mots.


Les modèles statistiques de langage

Un des objectifs des modèles statistiques de langage est de construire un modèle qui peut estimer la distribution du langage naturel de manière aussi précise que possible.

Ce type de techniques de Natural Language Processing s’adapte à des textes très différents et permet de fournir un moyen simple de traiter le langage naturel, tout en utilisant un apprentissage non supervisé.


Les graphes de similarité

Ce type de techniques de Natural Language Processing est inspiré de l’algorithme PageRank de Google. Il permet de détecter des groupes de mots caractérisant un texte.

Un texte est modélisé par un graphe constitué de nœuds et d’arêtes représentant des groupes de mots du texte et la fréquence à laquelle les deux groupes apparaissent ensemble dans le texte.


Pour en savoir plus sur le NLP et découvrir toutes les techniques de Natural Language Processing, n’hésitez pas à télécharger notre livre blanc.


par TheCodM
Extrait de « Natural Language Processing »

Articles similaires TAG