Aspect général du logiciel avant l'étude:
On note une présentation agréable, car épurée : réduite au "Paste Text" et à quelques boutons simples en-dessous qui posent les critères de sélection des mots. Absence de couleur : celle-ci se résume au noir, au blanc et au bleu et permet de se concentrer sur le texte.
Maintenant, passons à l'étude du texte
ÉTUDE TAGCROWD DE CE TEXTE CI-CONTRE :
http://nationalinterest.org/feature/chinas-huge-one-belt-one-road-initiative-sweeping-central-17150
« China's
Huge 'One Belt, One Road' Initiative Is Sweeping Central Asia »
« Having overbuilt in many
domestic industries—such as coal, cement and even solar panels—the
Chinese government is redirecting its capital abroad. The aim is to
reduce excessive industrial capacity at home while increasing
financial returns. U.S. policymakers ought to be watching this very
closely.
One of Beijing’s most ambitious
foreign economic development initiatives aims to recreate the
legendary Silk Road. Nicknamed One Belt One Road (OBOR), the project
wields plenty of financial muscle. It launched in February 2014 with
$40 billion—mostly drawn from Beijing’s bountiful foreign
exchange reserves. »
1ère expérimentation :
Dans « Choose your text source »
-J'ai copié/collé dans le logiciel un
texte de 87 mots sur « China's
Huge 'One Belt, One Road' Initiative Is Sweeping Central Asia »
(un texte sur la politique de la Nouvelle Route de la Soie tiré du
bimensuel américain The National Interest)
-J’ai choisi l’Anglais comme langue
de travail , ce qui va de soi !
-Dans « Maximum number of words
to show », j'ai demandé à étudier 87 mots (soit le nombre de
mots total de mon texte).
Résultat : « showing top
47 of 47 possible words » (j'en conclus que sur ces 87 mots du
texte, ils nont sélectionné les 47 premiers mots les plus
importants et en ont fait d'ailleurs un top 47 des mots importants)
-Dans « Minimum frequency »,
j'ai demandé une fréquence d’apparition de chaque mot présenté.
-J'ai demandé de montrer le nombre de
mots fréquents apparus dans le texte ( par exemple, les mots
« aim », « foreign », « road »,
« financial » et « Beijing » sont apparus
plus d’une fois sur ce texte, soit deux fois plus que la moyenne
des mots cités dans ce corpus)
Contre toute attente, les mots tels que
« silk », « One Belt One Road » ou
« economic » ne sont apparus qu'une seule fois en terme
de fréquence alors qu’a la première lecture ils semblaient
determinant.
-J'ai actionné aussi la recherche des
mots similaires a travers le bouton « group similar
words (puisque le texte est lui-même en anglais),
-Dans « Convert to lowercase »
j'ai converti au format « original »car je n’ai as vu
l’intérêt de sortir les mots de leurs contexte dans un document
aussi court.
2ème expérimentation :
-Il y a toujours le texte avec 87 mots
(toujours dans « Maximum number of words to show »
-Une fréquence minimum de 2 mots (et
tout d'un coup, il ne reste plus que les quatres mots importants
ayant une fréquence de 2 sur les autres mots du texte, à savoir
«foreign », « road », « financial » et
« beijing ») Par-contre, on ne retrouve pas le mot
« aim » pourtant considéré comme un mot important.
Pourquoi ?
- « Group similar words »
en mode « non ». Je n'ai plus regroupé les groupes de
mots similaire en anglais (résultats : au lieu de soutirer 47
mots sur un top 47, on en retrouve 48 sur le top 48, ce qui est tout
de même incroyable)
-Dans « Convert to lowercase »,
je l'ai mis en « lowercase » (ce qui explique pourquoi
« beijing » ne prend pas une majuscule avec B puisque ce
que c'est en format dit « par défaut »
3ème expérimentation :
-Il y a toujours le texte avec 87 mots
dans « Maximum number of words to show »
- Dans « Minimum frequency » :
Une fréquence minimum de 2
-« Group similar words » en
mode « oui ». J'ai regroupé les groupes de mots
similaires en anglais => tout à coup, le mot « aim »est
de retour parmi les mots importants du texte, à savoir « beijing »
(toujours avec un b minuscule on se demande pourquoi), « foreign »,
« road », « financial ».
Donc 5 mots importants dans le texte
en tout. Retour aussi du top 47.
- « Convert to lowercase »
en mode « lowercase » (d'ailleurs, LOWERCASE ne veut-il
pas dire « par défaut », allons voir la prochaine
expérimentation de ce texte en format « original »)
4ème expérimentation :
- « Convert to lowercase »
en mode « original ». J'ai juste mis le texte en version
« original »
Resultat : « Beijing »
avec un B majuscule, « Road » avec un R majuscule,
« financial », « foreign » et « aim »
sont sélectionnés.
On l’aura compris, le mode
« original » ne fait qu’extraire les mots du texte dans
leur forme originale(et le contexte de leur utilisation est
respecté).
5ème expérimentation :
-j’utilise « Maximum number of
words to show »,et là je limite à 25 le nombte de mots à
éffectuer..
Résultat : on me montre bel et bien 25 mots sur les 47 du top 47 du texte.
Résultat : on me montre bel et bien 25 mots sur les 47 du top 47 du texte.
6ème expérimentation
-Cette fois-ci, j'ai collé dans le
logiciel l’URL.
http://nationalinterest.org/feature/chinas-huge-one-belt-one-road-initiative-sweeping-central-17150 »
Et j'ai demandé 100 mots principaux
dans « Maximun number of words to show »
Parmi les mots les plus importants (du
plus fréquent au moins fréquent), nous avons :
-« China » (21 fois)
-« billion » (14 fois)
-« Chinese » (11 fois)
-« Asia » (9 fois)
-« economic »,
« projects », « roads », « Subscribe »,
« trade », « buil » (7 fois)
-« Beijing », « America »,
« central », « global » (6 fois)
-« HSR », « funds »,
« plans » (5 fois)
-« Bank »,
« construction », « Fear », « financial »,
« Kazakhstan », « initial », « OBOR »
(« One Belt One Road » policy), « route »,
« year », « Turkmenistan »,
« infrastructure », « Topics »,
« construction » (4 fois)
J'en conclus que TagCrowd m'a fait
l'analyse de la page web complète, mais pas forcément l'étude du
texte que j'étudiais, à savoir « China's
Huge 'One Belt, One Road' Initiative Is Sweeping Central Asia ».
7ème
expérimentation :
J'ai
téléchargé le texte « China's
Huge 'One Belt, One Road' Initiative Is Sweeping Central Asia »
en format HTML (format web) afin d'en faire un fichier à part.
Puis
j'ai placé ce texte dans « Upload file » (différent de
« download » qui veut dire « téléchargé du site
Internet vers son propre ordi » en anglais ; ici
« Upload » veut dire « télécharger son fichier depuis
son ordi pour l'exporter sur le site »)
Résultat :
il m'a sorti cet ensemble de mots divers et varié (mais ici,
intéressant, je retrouve le nom du site « nationalinterest »
(cité 22), sinon tout le reste sont des citations de mots relevant
du champ lexical du web, tels que « org » (24 fois),
« http » (31 fois) ou « span » (22 fois)
CONCLUSION :
TagCrowd est un outil de lexicométrie. Que ce soit pour étudier un
artcile en ligne, un blog ou bien un simple site web, cet outils
permet d'analyser la fréquence du nombre de mots utilisés dans les
documents que l'on cherche.
Le
documents que l'on étudie devient une bases de données informatique
et quitte la prison de papier sur lequel il était fixé. :
les
informations telles que l'usage et la fréquence des mots employés
influencent considérablement l'orientation du chercheur.
Pour
le chercheur en Master en quête d’informations sur des sujets peu
médiatisé, comme « La politique de la nouvelle route de la
Soie » TagCrowd, pourra apparaitre arbitraire et hors de propos
dans le choix des mots sélectionnés.
Certains
mots utilisés (comme « China », « Road »)
représentent les « mots-clés »employés sur le Web. Si
ces « mots-clés » ne représentent pas les mots de
référence à notre recherche, ils sont pourtant sélectionné avec
la justification de TagCrowd en tant que mots utilisés.
Par
exemple, nous employons moins les mots tels que « developpment »
, « gas », « foreign policy », ou
« Challenges » car ils sont moins pertinents que
« Asia », « Beijing », « Road »
ou « billion ».
TagCrowd
nous permet de nous échapper du texte étudié pour prendre un peu
de hauteur sur le sujet. (le point de vue du web ! Mais il doit
être paramétré avec soins afin que sa sélection de mots ne vous
fasse pas basculer dans le hors sujet !
Florie HERAUD
No comments:
Post a Comment