TagCrowd est un outil en ligne permettant tout simplement de
recenser les termes apparaissant le plus souvent dans un texte afin d’en tirer
le lexique principal et ainsi avoir une approche rapide de ce dernier.
C’est un outil très simple. Il suffit de télécharger un
document depuis son ordinateur, coller l’URL d’une page internet ou encore faire
un simple copier/coller et lancer le traitement du texte, pour avoir apparaître
un nuage des termes les plus récurrents.
Il permet également de choisir la langue d’origine afin d’en
supprimer les mots inutiles à comptabiliser comme les déterminants, articles et
pronoms en tous genre, et d’afficher à côté des termes leur fréquence d’apparition
en chiffre.
Il nous est également permis de choisir le nombre de mots à
afficher, afin d’étendre ou réduire le lexique obtenu (entre 25 et 200 termes), et de supprimer certains termes jugés non relevants.
Toutefois, bien que simple à
utiliser, TagCrowd m’a semblé très
limité et, au départ, pénible à utiliser. J’ai choisi, pour essayer, de traiter
la page Wikipédia sur le Shinkansen
(train à grande vitesse japonais) et le résultat a été plus que décevant… le
nuage de mots m’a paru tout simplement chaotique.
En effet des mots sans aucun sens comme « ra » ou « rie »
apparaissaient en gros plan parmi beaucoup d’autres, probablement dû à un
mauvais traitement de la page web et un découpage raté des mots, n’en
comptabilisant que les terminaisons. J’ai donc essayé de copier/coller le texte
de la page : le résultat était largement meilleur, pas de mots inexistants,
à la bonne heure !
Par
ailleurs, le site limite à 5Mo la taille des fichiers à importer, (et à 500Ko
la taille du texte à coller) ce qui limite grandement son utilisation, la
moitié des PDF ne passeront malheureusement pas.
Ainsi je n’ai pas été en mesure d’utilisé la plate-forme
afin de traiter l’ouvrage dont je dois faire le compte-rendu dans le cadre du
séminaire villes asiatiques, ce qui est bien dommage puisque l’outil aurait été
parfait pour cerner les tendances fortes du livre (j’ai dû me tourner vers un
autre logiciel…). Et, gros point noir supplémentaire : le logiciel ne
traite pas les langues asiatiques comme le japonais, alors qu’il aurait été
parfait pour cerner rapidement le contenu de textes en japonais très longs à
traduire, quel dommage !
En fin de compte, le logiciel
aurait pu être très utile, mais il ne m’a pas convaincu du tout. Ses défauts sont
trop nombreux.
Toutefois il m’a permis de découvrir l’utilité de la
lexicométrie, et de me tourner vers des outils similaires mais plus efficaces
comme Voyant !
No comments:
Post a Comment