Lemmatisation

La lemmatisation est la technologie qui permet de retrouver la forme « canonique » des mots. Par exemple, le mot « animaux » est transformé dans sa forme canonique « animal ».

Le service de lemmatisation est également en mesure d’identifier les traits morphologiques du mot : dans l’exemple précédent, le fait qu’il s’agisse de la forme plurielle. Optionnellement, le service peut aussi désambiguïser les mots. Par exemple, dans la phrase « il juge un dessin » et « le juge s’est rendu en ville », le service est capable de comprendre que dans le premier cas il s’agit d’un verbe (« juger ») et dans le deuxième un nom (« juge »).

La lemmatisation et/ou analyse morphologique sont à la base de tous les processus de normalisation du langage. L’une des applications fondamentales est liée aux moteurs de recherche tels que Apache Lucene, où elle permet une recherche plus pertinente. Elle est également fondamentale pour tous les processus d’extraction de terminologies métier, d’analyse sémantique, d’apprentissage automatique, …

Ho2S peut vous fournir un accès dédié à un service de lemmatisation paramétré selon vos besoins en termes de domaines métier et d’applications spécifiques.