Extraction d’entités

Le service d’extraction des entités détecte les références à des personnes, lieux, entreprises, dates, etc. qui sont contenues dans un texte. Par exemple : « Les deux offres retenues ont été déposées lundi : l’une par le trio d’hommes d’affaires [PERSON Pigasse-Bergé-Niel], l’autre par [PERSON Claude Perdriel] ([COMPANY Le Nouvel Obs]) associé à [COMPANY Orange] ([COMPANY France Télécom]) et à l’Espagnol[COMPANY Prisa] ([COMPANY El Pais]). »

Les techniques mises en œuvre sont basées sur des méthodes hybrides combinant approches symboliques et approches statistiques (apprentissage automatique). Elles permettent de comprendre que dans une phrase comme « Orange n’est pas cotée en bourse », « Orange » réfère à une entreprise, alors que dans « Notre voyage à Orange s’est bien terminé », « Orange » réfère à la ville et que dans « J’ai fait de la confiture à l’orange », « Orange » réfère au fruit et non pas à une entité nommée comme dans les deux précédents.

La reconnaissance d’entités nommées est cruciale pour toutes les applications qui nécessitent de comprendre la sémantique du texte. Cela peut aller de l’indexation sémantique pour les moteurs de recherche à l’anonymisation de documents, en passant par la business intelligence (ou Informatique décisionnelle) appliquée aux textes, aux renseignement de sources ouvertes (ou renseignement d’origine source ouverte ou Open source intelligence) etc.

Ho2S peut vous fournir un accès dédié à un service d’extraction d’entités nommées paramétré selon vos exigences. La paramétrisation peut concerner soit l’identification d’entités nommés qui ne sont pas incluses dans le service de base (par exemple produits, marques, entités géographiques spécifiques, rôles des personnes dans les organisations, etc.), soit l’extraction d’entités dans des textes particuliers, tels que les SMS, les blogs, les textes structurés tels que bilans, factures, etc.