Classification de documents et verbatims

La classification automatique de textes est une technologie de plus en plus importante pour le développement des entreprises. En termes simples, un système de classification de textes attribue automatiquement une ou plusieurs catégories définies par l’utilisateur à un texte fourni en entrée.

En fonction des besoins de l’entreprise, nous divisons la classification de textes en trois dimensions orthogonales :

  • Classification thématique et classification fonctionnelle. Si votre système a besoin de classer les documents selon leur contenu, nous sommes dans le domaine de la classification thématique. Par exemple, si vous devez faire la distinction entre les documents portant sur les voitures et les documents traitant de motos, vous êtes dans un contexte de classification thématique. En revanche si vous devez, par exemple, séparer les factures des reçus ou classer les documents en fonction de leur degré de sécurité, indépendamment de leur contenu, vous êtes alors dans un cas de classification fonctionnelle.
  • Documents courts et documents longs. Classer automatiquement un document court, souvent mal écrit, et classer un document complet dans un style formel sont deux tâches radicalement différentes. Les documents courts sont représentés typiquement par des transcriptions de centres d’appels, des textes saisis par l’utilisateur (par exemple des termes pour interroger un moteur de recherche), des tickets, des tweets, etc. Les documents longs sont tous les autres types de documents, composés de phrases complètes et structurés de façon plus stricte.
  • Classification pilotée par des règles et classification basée sur apprentissage. Si, à un moment donné, votre entreprise a déjà classé manuellement un certain nombre de documents, il est probablement temps de passer à la classification basée sur apprentissage : il suffit de laisser notre système apprendre automatiquement les critères qui ont été utilisés dans le passé pour classer les documents, et les appliquer ensuite aux futurs documents. Il se peut, cependant, que vous décidiez à un moment d’introduire une nouvelle structure de classification à votre base documentaire, ou que vous vous serviez de plusieurs systèmes de classification en constante évolution. Dans ce cas, la meilleure option est celle de la classification pilotée par des règles : il suffit de coder un ensemble de règles simples avec quelques exemples pour chaque catégorie, et le système sera en mesure de déduire la catégorie optimale pour chaque document.

À Ho2S, nous sommes conscients de toutes les complexités inhérentes aux tâches de classification. Nos systèmes couvrent l’intégralité de la matrice des fonctionnalités mentionnées ci-dessus, et fournissent une classification optimale dans tous les cas de figure.

De plus, notre système de classification est doté d’une sensibilité linguistique : nous proposons une classification en français, anglais, italien, allemand et quelques autres langues, mais nous n’avons pas la prétention d’être totalement indépendant de la langue. Le mécanisme de classification algorithmique émule le processus exécuté par un opérateur humain lorsqu’il s’agit de classer un segment de texte : il est donc évident que la connaissance de la langue de travail est un prérequis.

La connaissance du domaine est également un élément crucial de notre solution de classification de textes. Dans toutes les combinaisons disponibles, il est toujours possible de créer un modèle de connaissance adapté au domaine. Cela signifie que les mêmes mots ne seront pas traités de la même manière dans différents domaines : par exemple, le mot « grue » dans le domaine de la construction aura une valeur sémantique différente de celle du mot « grue » dans le domaine de la nature.

Les systèmes d’information modernes sont inondés de textes courts devant être classés. Ce sont typiquement des tickets de centres d’appels et de systèmes de gestion de la relation client (CRM), des textes entrés en réponse aux questions ouvertes d’un questionnaire soumis par les utilisateurs, des transcriptions de centres d’appels, des tweets, des SMS, etc. Nous offrons le meilleur de la technologie pour lutter contre la difficulté que représente la classification automatique de ces textes. Notre technologie hybride permet à l’utilisateur de concevoir rapidement le plan de classification le mieux adapté à ses besoins, plan qui sera ensuite interprété par le système en charge de classer les documents de tous types. Deux options sont disponibles :

  • Classification locale : Le classificateur est installé en mode client-serveur sur le site du client. Tous les aspects non fonctionnels tels que la sécurité, la répartition de charge, la tolérance aux pannes, etc. sont traités en suivant les procédures standards en vigueur chez le client.
  • Classification en mode service : c’est la façon la plus « agile » d’obtenir des résultats de haute qualité avec un minimum de coûts d’intégration et de temps. Une application cliente envoie à nos serveurs un « document de conception de classification », c’est à dire un document contenant les informations minimales nécessaires à l’instanciation et à l’apprentissage d’un classificateur (la hiérarchie de classification elle-même, la description des catégories, une série d’exemples choisis manuellement pour chaque catégorie, etc.) Le serveur retourne un identifiant. Dès lors, le client peut utiliser cet identifiant pour classer les nouveaux documents dans la hiérarchie de classification sélectionnée.

Grâce à la richesse de notre matrice de classification, nous sommes en mesure de fournir une classification précise des produits basée simplement sur leur description. Il s’agit d’une tâche traditionnellement difficile, car elle implique parfois plusieurs centaines de catégories qui ne se distinguent souvent que par des nuances linguistiques. Dans ce cas, nous vous proposons un système de classification semi-structuré qui mêle à la fois des informations apprises automatiquement et des règles codées à la main, afin de s’assurer qu’aucun résultat « imprévisible » n’est obtenu.

Il s’agit du mode de classification le plus courant, celui qui est appliqué, par exemple, aux documents d’actualités (news), aux pages web, aux documents d’entreprise, et ainsi de suite. Des solutions prêtes à l’emploi peuvent déjà présenter des performances satisfaisantes sur ces types de documents en matière de classification thématique, car la présence de textes en quantité importante permet de conduire le processus d’apprentissage. Nous ajoutons à cela une couche de classification fonctionnelle très précise et qui est d’une importance primordiale dans le cadre, par exemple, des flux d’entreprise (workflows). Cette classification fonctionnelle peut détecter le type des documents, les niveaux de sécurité et de confidentialité, les sources et d’autres caractéristiques qu’il serait difficile à intégrer dans un système de classification thématique standard.

  • Disponibilité de la classification thématique et de la classification fonctionnelle
  • Disponibilité de la classification pilotée par les règles et de la classification basée sur apprentissage
  • Efficace sur tous les types de documents, qu’ils soient longs ou courts
  • Disponible en installation locale ou en interrogation à distance (en mode service web)
  • Sensible à la langue des contenus
  • Connaissance du domaine
  • Intégration rapide