Analyse Sémantique Généralisée (HOLMES)

Toutes nos applications sont basées sur HOLMES, notre moteur d’analyse sémantique. HOLMES signifie Hybrid Operable platform forLanguage Management and Extensible Semantics (plate-forme hybride pour l’analyse linguistique et l’analyse sémantique extensible). Il s’agit d’une plate-forme pour l’analyse (en français, italien et anglais) des textes, qui comprend les phases de tokenisation, balisage des catégories grammaticales (Part-of-speech / POS tagging), reconnaissance et extraction des entités nommées, classification, analyse des dépendances et extraction de l’information. HOLMES est entièrement écrite en Java et maximise l’extensibilité des traitements pour une utilisation dans les tâches de la vie réelle.

Compte tenu de sa capacité de personnalisation, HOLMES nous permet d’offrir des applications d’extraction d’information classiques avec relativement peu d’effort, et avec, par conséquent, des coûts d’entrée réduits pour le client.

  • Utilisations de HOLMES

    L’extraction de l’information est la tâche consistant à transformer des informations non structurées, contenues dans les textes, en informations structurées pouvant être utilisées par d’autres applications. De nos jours, il existe un certain nombre d’applications d’extraction d’information, par exemple :

    • Dans le domaine financier, les applications qui extraient depuis les sites d’actualités (news) des faits qui sont pertinents pour les analystes : des actions spécifiques de la population, des fusions et acquisitions d’entreprises, des événements spécifiques susceptibles d’influencer les tendances économiques.
    • Dans le domaine de la sécurité : détection d’événements dangereux, détection des signaux faibles, identification des failles de sécurité, et détection des violations de brevets.
    • Dans le domaine scientifique : détection des utilisations faites de certaines technologies spécifiques, veille technologique, identification automatique des modèles expérimentaux à partir de textes scientifiques.
    • Dans le domaine personnel : analyse d’emails, identification automatique des événements pertinents tels que des réunions et des tâches assignées.

    En général, toutes les applications proposant des fonctionnalités de recherche sémantique intelligente utilisent l’extraction d’information, par exemple afin d’identifier les entités qui sont pertinentes pour un domaine donné, ou pour caractériser les relations entre les différentes entités, les dates d’événements, etc.

    Récemment, l’extraction d’information a trouvé deux grands domaines d’application, à savoir les paradigmes connus sous le nom de (Open) Linked Data et Big Data. Dans le premier cas (Linked Data), l’extraction d’information est principalement utilisée pour relier automatiquement les ressources et trouver des relations qui n’ont pas été codées manuellement. Dans le deuxième cas (Big Data), l’extraction d’information fournit des repères centraux pour l’analyse de textes (provenant par exemple de réseaux sociaux) qui, en raison de leur quantité, seraient difficiles à analyser par des opérateurs humains.

  • HOLMES en détails

    Techniquement, HOLMES est un cadre (framework) pour le traitement du langage naturel basé sur une approche radicalement incrémentale. Cela signifie que toutes les informations ajoutées à la chaîne de traitement sont toujours disponibles à des niveaux de traitement plus élevés. Actuellement, les principaux processeurs disponibles dans HOLMES sont :

    • Tokenisation
    • Détection de phrases (Sentence detection)
    • Balisage des catégories grammaticales (Part-of-speech / POS tagging)
    • Analyse morphologique
    • Règles linéaire sur des séquences d’objets linguistiques
    • Analyse de dépendances
    • Consultation d’ontologies
    • Extraction d’entités nommées (utilisant des champs aléatoires conditionnels)
    • Classification automatique

    Comme on peut le déduire de cette liste, l’aspect hybride de HOLMES est représenté par une intégration étroite entre les techniques symboliques (règles sémantiques écrites à la main) et les techniques basées sur l’apprentissage automatique. Fondamentalement, les résultats des calculs statistiques peuvent être consultés au niveau des règles, et inversement tous les composants basés sur l’apprentissage automatique peuvent bénéficier des résultats de n’importe quel type de traitement symbolique en tant que fonctionnalités d’entrée.