Clustering

Dans les tâches de gestion de l’information, on a parfois la nécessité de grouper des documents sans trop bien savoir quels sont les critères de classification. Le web service de clustering permet de résoudre ce problème en analysant automatiquement un ensemble de documents et en proposant des groupements naturels, c’est à dire basés sur le contenu même des textes. Par exemple, étant donnés les 5 « documents » suivants :

  1. Problème sur la ligne téléphonique.
  2. Le wifi ne marche pas comme il faut.
  3. Je n’entends aucun bruit quand je soulève le téléphone.
  4. Internet ne fonctionne pas sur mon portable.
  5. Je n’arrive pas à voir la télévision.

L’algorithme de clustering proposera 3 groupes, c’est à dire téléphonie=[1,3], wifi=[2,4], télévision=[5]

Le clustering permet de gérer tous les cas qui comportent un ensemble de documents qui ne sont pas classifiables dans un schéma prédéfini ou pour lesquels le schéma varie en permanence. Par exemple, il peut être utilisé pour grouper des commentaires faits par des usagers, des lettres clients, ou tous types de documents pour lesquels on n’a pas encore décidé d’un système de classification précis.

Par conséquent, le clustering peut aussi être utilisé pour faciliter le design d’un système de classification (arborescence) à partir d’un ensemble de documents pré-existants.

Il faut enfin mentionner le fait que même dans les systèmes qui sont basés sur une arborescence définie, le clustering peut s’avérer utile pour détecter des « trends » (tendances) qui n’ont pas été prévues. Par exemple, dans un call center d’une administration publique, il peut s’avérer un certain jour qu’un groupe significatif d’appels concernait le sujet du crédit impôts recherche, même si une telle catégorie n’est pas prévue dans l’arborescence du call center.

Ho2S se spécialise sur le clustering de type textuel : les caractéristiques d’un groupement de documents sont donc basées sur l’analyse linguistique et sémantique du texte. De telles caractéristiques sont ensuite analysées par un algorithme inspiré des Topic Models.

Ho2S peut vous fournir un accès dédié à un service de clusterisation paramétré selon vos exigences en termes de domaines métiers et d’applications spécifiques.