Category fracking
Finding clusters automatically from reviews is tough because:
- Categories can be non-convex, so KMeans does not work
- The similarity between reviews within a category can vary, so using DBScan with a fixed epsilon does not work well.
If the number of categories is known in advance, Spectral Clustering works quite well, but can leave some weird reviews mixed with the rest in some clusters.
Example of a bad cluster:
C'est l'histoire de la grenouille voulant devenir aussi grosse que le boeuf ! Mais on sait tous comment cela s'est fini... La grenouille n'a pu avancer... Bonne à rien et inexploitable... Passez votre chemin... (Je soupçonne que toutes les statistiques sont truquées sauf les avis négatifs...).
Très peu utilisé Decouverte il y a deux ans avant un séjour Londres et vraiment bien conçue. Dommage qu'en France il y est si peu de partenaires. Continuez, c'est coool
beaucoup trop galère ; impossible de générer un nouveau mot de passe, à revoir absolument car pas de plan b pour réserver.
C'est bien pratique. Sauf que je ne peux chercher un resto spécifique. Il faut que je passe par le lieu absolument.
Pfff. Pas vraiment utile ni objectif.
Facile et rapide! Dommage qu'il n'y ait pas tous les restos la dessus!
Fameux. Permet aussi de belles découvertes.
My recommendation is to use DBScan as described in Classifying feedback into categories but to apply it recursively on sub-categories in order to have a lot of small, but very similar categories.