Classification de documents

Il s’agit d’un service qui catégorise automatiquement un document selon un ensemble de catégories données. Par exemple, le service est capable de comprendre qu’un article qui parle de l’approbation de la loi des finances doit entrer dans la catégorie « politique ». La classification (ou catégorisation) des documents s’appuie principalement sur des techniques statistiques (apprentissage automatique) mais bénéficie largement de la couche d’analyse grammaticale et d’extraction d’entités nommées mise en place par Ho2S.

La classification automatique des documents ou catégorisation automatique des documents représente un passage fondamental pour toute gestion éditoriale des contenus, qu’il s’agisse de news, d’articles techniques ou de blogs. En dehors des contenus en ligne, elle est primordiale dans toutes les activités de type « knowledge intensive », où la quantité de matériel textuel produit nécessite un archivage automatique. Tel est le cas, par exemple, des tickets dans le domaine du CRM, des verbatims dans les analyses marketing, des CVs dans les opérations de recrutement, des métadonnées dans les bibliothèques électroniques, etc.

Bien que le service permette déjà un haut niveau de paramétrisation en donnant la possibilité d’indiquer le corpus d’apprentissage, Ho2S peut réaliser un service dédié en configurant les paramètres d’apprentissage en fonction de vos exigences. En plus, nos ingénieurs peuvent intégrer des ressources sémantiques telles que thésaurus et ontologies afin de rendre le système encore plus performant.