CQPweb
CQPweb : C'est un système d'analyse de
corpus de texte. Analyse et mesure le vocabulaire, le contexte d'un
texte. L'inscription se fait avec un pseudo, sa véritable identité
et une adresse universitaire, car seules les personnes dépendant
d'une université ont accès à ce site.
Je me suis dirigée directement vers le
corpus chinois mandarin car je suis directement concernée. Mais il y
a un grand choix de langues, tel que italien, anglais, chinois,
arabe, persan, hindi, latin... J'ai fait un essai en copiant un texte
en chinois. En cliquant sur un caractère, on peut obtenir sa
fréquence dans le texte, dans quelles phrases le caractère
apparaît, il est d'ailleurs alors en surbrillance. Des stastistiques
sur sa fréquence mondiale sont disponibles ; on peut également
savoir quels caractères se trouvent le plus souvent accolés, de 1 à
5 caractères à droite comme à gauche par rapport au caractère
sélectionné. Différentes vues sont proposées. On peut créer
plusieurs listes et faire des analyses comparatives.
On peut ajouter des notes aux résultats
obtenus, obtenir les mots clés, rechercher les termes selon leur
sens négatif ou par sens positif.
On peut utiliser les expressions
régulières pour la recherche, avec ? qui remplace un caractère, *
pour aucun ou plusieurs caractères, + pour au moins un caractère.
C'est ainsi que *寿
donnera aussi 延年益寿.
Une autre application est disponible,
la "distribution", elle permet de visionner pour le
caractère sélectionné sa classification par genre, c'est-à-dire
fiction, prose, académique, presse, revues, théâtre, religion...
la liste est très complète. On peut également faire une
restriction sur cette liste. Dans ce même onglet on peut cliquer
pour télécharger les documents ainsi générés.
C'est un outil intéressant, quand on
s'intéresse par exemple à l'étymologie et à l'usage du
vocabulaire à différentes périodes de l'Histoire.
Une vidéo tutorielle en anglais sur
Youtube est disponible pour une bonne prise en main. Enfin je l'ai
trouvée fastidieuse, le présentateur répète 10 fois CQP toutes
les 20 secondes ! C'est épuisant à suivre.
TagCrowd :
On
colle le texte à analyser, et les mots les plus fréquents sont
alors affichés, avec une taille proportionnelle à la fréquence. On
peut aussi faire analyser un lien Internet, ou un document entier.
Les
choix de langue sont importants, 15 langues ainsi que Google search
mais pas de chinois.
Les options sont à peu près les mêmes que CQPweb, c'est-à-dire nombre maximum de mots à montrer, montrer ou non la fréquence, grouper ou non des mots similaires (anglais), convertir ou non en minuscules, mots à ne pas montrer.
Avec le français, les accents sont ignorés ; avec le chinois, c'est le pinyin sans ton qui sort au lieu de caractères.
Le résultat peut être enregistré au format html ou pdf sur le site, à télécharger ensuite.
Les options sont à peu près les mêmes que CQPweb, c'est-à-dire nombre maximum de mots à montrer, montrer ou non la fréquence, grouper ou non des mots similaires (anglais), convertir ou non en minuscules, mots à ne pas montrer.
Avec le français, les accents sont ignorés ; avec le chinois, c'est le pinyin sans ton qui sort au lieu de caractères.
Le résultat peut être enregistré au format html ou pdf sur le site, à télécharger ensuite.
No comments:
Post a Comment