Monday, October 24, 2016

Critique de l’outil de lexicométrie TagCrowd :


TagCrowd est un outil en ligne permettant tout simplement de recenser les termes apparaissant le plus souvent dans un texte afin d’en tirer le lexique principal et ainsi avoir une approche rapide de ce dernier.
C’est un outil très simple. Il suffit de télécharger un document depuis son ordinateur, coller l’URL d’une page internet ou encore faire un simple copier/coller et lancer le traitement du texte, pour avoir apparaître un nuage des termes les plus récurrents.
Il permet également de choisir la langue d’origine afin d’en supprimer les mots inutiles à comptabiliser comme les déterminants, articles et pronoms en tous genre, et d’afficher à côté des termes leur fréquence d’apparition en chiffre.
Il nous est également permis de choisir le nombre de mots à afficher, afin d’étendre ou réduire le lexique obtenu (entre 25 et 200 termes), et de supprimer certains termes jugés non relevants.

Toutefois, bien que simple à utiliser, TagCrowd m’a semblé très limité et, au départ, pénible à utiliser. J’ai choisi, pour essayer, de traiter la page Wikipédia sur le Shinkansen (train à grande vitesse japonais) et le résultat a été plus que décevant… le nuage de mots m’a paru tout simplement chaotique.

En effet des mots sans aucun sens comme « ra » ou « rie » apparaissaient en gros plan parmi beaucoup d’autres, probablement dû à un mauvais traitement de la page web et un découpage raté des mots, n’en comptabilisant que les terminaisons. J’ai donc essayé de copier/coller le texte de la page : le résultat était largement meilleur, pas de mots inexistants, à la bonne heure !


            Par ailleurs, le site limite à 5Mo la taille des fichiers à importer, (et à 500Ko la taille du texte à coller) ce qui limite grandement son utilisation, la moitié des PDF ne passeront malheureusement pas.
Ainsi je n’ai pas été en mesure d’utilisé la plate-forme afin de traiter l’ouvrage dont je dois faire le compte-rendu dans le cadre du séminaire villes asiatiques, ce qui est bien dommage puisque l’outil aurait été parfait pour cerner les tendances fortes du livre (j’ai dû me tourner vers un autre logiciel…). Et, gros point noir supplémentaire : le logiciel ne traite pas les langues asiatiques comme le japonais, alors qu’il aurait été parfait pour cerner rapidement le contenu de textes en japonais très longs à traduire, quel dommage !

En fin de compte, le logiciel aurait pu être très utile, mais il ne m’a pas convaincu du tout. Ses défauts sont trop nombreux.
Toutefois il m’a permis de découvrir l’utilité de la lexicométrie, et de me tourner vers des outils similaires mais plus efficaces comme Voyant !


No comments:

Post a Comment