Tuesday, October 25, 2016

Haghebaert Ch
CQPweb
CQPweb : C'est un système d'analyse de corpus de texte. Analyse et mesure le vocabulaire, le contexte d'un texte. L'inscription se fait avec un pseudo, sa véritable identité et une adresse universitaire, car seules les personnes dépendant d'une université ont accès à ce site.
Je me suis dirigée directement vers le corpus chinois mandarin car je suis directement concernée. Mais il y a un grand choix de langues, tel que italien, anglais, chinois, arabe, persan, hindi, latin... J'ai fait un essai en copiant un texte en chinois. En cliquant sur un caractère, on peut obtenir sa fréquence dans le texte, dans quelles phrases le caractère apparaît, il est d'ailleurs alors en surbrillance. Des stastistiques sur sa fréquence mondiale sont disponibles ; on peut également savoir quels caractères se trouvent le plus souvent accolés, de 1 à 5 caractères à droite comme à gauche par rapport au caractère sélectionné. Différentes vues sont proposées. On peut créer plusieurs listes et faire des analyses comparatives.
On peut ajouter des notes aux résultats obtenus, obtenir les mots clés, rechercher les termes selon leur sens négatif ou par sens positif.
On peut utiliser les expressions régulières pour la recherche, avec ? qui remplace un caractère, * pour aucun ou plusieurs caractères, + pour au moins un caractère. C'est ainsi que *寿 donnera aussi 延年益寿.
Une autre application est disponible, la "distribution", elle permet de visionner pour le caractère sélectionné sa classification par genre, c'est-à-dire fiction, prose, académique, presse, revues, théâtre, religion... la liste est très complète. On peut également faire une restriction sur cette liste. Dans ce même onglet on peut cliquer pour télécharger les documents ainsi générés.
C'est un outil intéressant, quand on s'intéresse par exemple à l'étymologie et à l'usage du vocabulaire à différentes périodes de l'Histoire.
Une vidéo tutorielle en anglais sur Youtube est disponible pour une bonne prise en main. Enfin je l'ai trouvée fastidieuse, le présentateur répète 10 fois CQP toutes les 20 secondes ! C'est épuisant à suivre.
TagCrowd :
On colle le texte à analyser, et les mots les plus fréquents sont alors affichés, avec une taille proportionnelle à la fréquence. On peut aussi faire analyser un lien Internet, ou un document entier.
Les choix de langue sont importants, 15 langues ainsi que Google search mais pas de chinois.
Les options sont à peu près les mêmes que CQPweb, c'est-à-dire nombre maximum de mots à montrer, montrer ou non la fréquence, grouper ou non des mots similaires (anglais), convertir ou non en minuscules, mots à ne pas montrer.
Avec le français, les accents sont ignorés ; avec le chinois, c'est le pinyin sans ton qui sort au lieu de caractères.
Le résultat peut être enregistré au format html ou pdf sur le site, à télécharger ensuite.





No comments:

Post a Comment