Méthodologie de la recherche: Note critique sur l'usage de TagCrowd

Aspect général du logiciel avant l'étude:

On note une présentation agréable, car épurée : réduite au "Paste Text" et à quelques boutons simples en-dessous qui posent les critères de sélection des mots. Absence de couleur : celle-ci se résume au noir, au blanc et au bleu et permet de se concentrer sur le texte.

Maintenant, passons à l'étude du texte

ÉTUDE TAGCROWD DE CE TEXTE CI-CONTRE :

http://nationalinterest.org/feature/chinas-huge-one-belt-one-road-initiative-sweeping-central-17150

« China's Huge 'One Belt, One Road' Initiative Is Sweeping Central Asia »

« Having overbuilt in many domestic industries—such as coal, cement and even solar panels—the Chinese government is redirecting its capital abroad. The aim is to reduce excessive industrial capacity at home while increasing financial returns. U.S. policymakers ought to be watching this very closely.

One of Beijing’s most ambitious foreign economic development initiatives aims to recreate the legendary Silk Road. Nicknamed One Belt One Road (OBOR), the project wields plenty of financial muscle. It launched in February 2014 with $40 billion—mostly drawn from Beijing’s bountiful foreign exchange reserves. »

1ère expérimentation :

Dans « Choose your text source »

-J'ai copié/collé dans le logiciel un texte de 87 mots sur « China's Huge 'One Belt, One Road' Initiative Is Sweeping Central Asia » (un texte sur la politique de la Nouvelle Route de la Soie tiré du bimensuel américain The National Interest)

-J’ai choisi l’Anglais comme langue de travail , ce qui va de soi !

-Dans « Maximum number of words to show », j'ai demandé à étudier 87 mots (soit le nombre de mots total de mon texte).

Résultat : « showing top 47 of 47 possible words » (j'en conclus que sur ces 87 mots du texte, ils nont sélectionné les 47 premiers mots les plus importants et en ont fait d'ailleurs un top 47 des mots importants)

-Dans « Minimum frequency », j'ai demandé une fréquence d’apparition de chaque mot présenté.

-J'ai demandé de montrer le nombre de mots fréquents apparus dans le texte ( par exemple, les mots « aim », « foreign », « road », « financial » et « Beijing » sont apparus plus d’une fois sur ce texte, soit deux fois plus que la moyenne des mots cités dans ce corpus)

Contre toute attente, les mots tels que « silk », « One Belt One Road » ou « economic » ne sont apparus qu'une seule fois en terme de fréquence alors qu’a la première lecture ils semblaient determinant.

-J'ai actionné aussi la recherche des mots similaires a travers le bouton « group similar words (puisque le texte est lui-même en anglais),

-Dans « Convert to lowercase » j'ai converti au format « original »car je n’ai as vu l’intérêt de sortir les mots de leurs contexte dans un document aussi court.

2ème expérimentation :

-Il y a toujours le texte avec 87 mots (toujours dans « Maximum number of words to show »

-Une fréquence minimum de 2 mots (et tout d'un coup, il ne reste plus que les quatres mots importants ayant une fréquence de 2 sur les autres mots du texte, à savoir «foreign », « road », « financial » et « beijing ») Par-contre, on ne retrouve pas le mot « aim » pourtant considéré comme un mot important. Pourquoi ?

- « Group similar words » en mode « non ». Je n'ai plus regroupé les groupes de mots similaire en anglais (résultats : au lieu de soutirer 47 mots sur un top 47, on en retrouve 48 sur le top 48, ce qui est tout de même incroyable)

-Dans « Convert to lowercase », je l'ai mis en « lowercase » (ce qui explique pourquoi « beijing » ne prend pas une majuscule avec B puisque ce que c'est en format dit « par défaut »

3ème expérimentation :

-Il y a toujours le texte avec 87 mots dans « Maximum number of words to show »

- Dans « Minimum frequency » : Une fréquence minimum de 2

-« Group similar words » en mode « oui ». J'ai regroupé les groupes de mots similaires en anglais => tout à coup, le mot « aim »est de retour parmi les mots importants du texte, à savoir « beijing » (toujours avec un b minuscule on se demande pourquoi), « foreign », « road », « financial ».

Donc 5 mots importants dans le texte en tout. Retour aussi du top 47.

- « Convert to lowercase » en mode « lowercase » (d'ailleurs, LOWERCASE ne veut-il pas dire « par défaut », allons voir la prochaine expérimentation de ce texte en format « original »)

4ème expérimentation :

- « Convert to lowercase » en mode « original ». J'ai juste mis le texte en version « original »

Resultat : « Beijing » avec un B majuscule, « Road » avec un R majuscule, « financial », « foreign » et « aim » sont sélectionnés.

On l’aura compris, le mode « original » ne fait qu’extraire les mots du texte dans leur forme originale(et le contexte de leur utilisation est respecté).

5ème expérimentation :

-j’utilise « Maximum number of words to show »,et là je limite à 25 le nombte de mots à éffectuer..
Résultat : on me montre bel et bien 25 mots sur les 47 du top 47 du texte.

6ème expérimentation

-Cette fois-ci, j'ai collé dans le logiciel l’URL. http://nationalinterest.org/feature/chinas-huge-one-belt-one-road-initiative-sweeping-central-17150 »

Et j'ai demandé 100 mots principaux dans « Maximun number of words to show »

Parmi les mots les plus importants (du plus fréquent au moins fréquent), nous avons :

-« China » (21 fois)

-« billion » (14 fois)

-« Chinese » (11 fois)

-« Asia » (9 fois)

-« economic », « projects », « roads », « Subscribe », « trade », « buil » (7 fois)

-« Beijing », « America », « central », « global » (6 fois)

-« HSR », « funds », « plans » (5 fois)

-« Bank », « construction », « Fear », « financial », « Kazakhstan », « initial », « OBOR » (« One Belt One Road » policy), « route », « year », « Turkmenistan », « infrastructure », « Topics », « construction » (4 fois)

J'en conclus que TagCrowd m'a fait l'analyse de la page web complète, mais pas forcément l'étude du texte que j'étudiais, à savoir « China's Huge 'One Belt, One Road' Initiative Is Sweeping Central Asia ».

7ème expérimentation :

J'ai téléchargé le texte « China's Huge 'One Belt, One Road' Initiative Is Sweeping Central Asia » en format HTML (format web) afin d'en faire un fichier à part.

Puis j'ai placé ce texte dans « Upload file » (différent de « download » qui veut dire « téléchargé du site Internet vers son propre ordi » en anglais ; ici « Upload » veut dire « télécharger son fichier depuis son ordi pour l'exporter sur le site »)

Résultat : il m'a sorti cet ensemble de mots divers et varié (mais ici, intéressant, je retrouve le nom du site « nationalinterest » (cité 22), sinon tout le reste sont des citations de mots relevant du champ lexical du web, tels que « org » (24 fois), « http » (31 fois) ou « span » (22 fois)

CONCLUSION : TagCrowd est un outil de lexicométrie. Que ce soit pour étudier un artcile en ligne, un blog ou bien un simple site web, cet outils permet d'analyser la fréquence du nombre de mots utilisés dans les documents que l'on cherche.

Le documents que l'on étudie devient une bases de données informatique et quitte la prison de papier sur lequel il était fixé. :

les informations telles que l'usage et la fréquence des mots employés influencent considérablement l'orientation du chercheur.

Pour le chercheur en Master en quête d’informations sur des sujets peu médiatisé, comme « La politique de la nouvelle route de la Soie » TagCrowd, pourra apparaitre arbitraire et hors de propos dans le choix des mots sélectionnés.

Certains mots utilisés (comme « China », « Road ») représentent les « mots-clés »employés sur le Web. Si ces « mots-clés » ne représentent pas les mots de référence à notre recherche, ils sont pourtant sélectionné avec la justification de TagCrowd en tant que mots utilisés.

Par exemple, nous employons moins les mots tels que « developpment » , « gas », « foreign policy », ou « Challenges » car ils sont moins pertinents que « Asia », « Beijing », « Road » ou « billion ».

TagCrowd nous permet de nous échapper du texte étudié pour prendre un peu de hauteur sur le sujet. (le point de vue du web ! Mais il doit être paramétré avec soins afin que sa sélection de mots ne vous fasse pas basculer dans le hors sujet !

Florie HERAUD

Méthodologie de la recherche

Pages

Tuesday, October 25, 2016

Note critique sur l'usage de TagCrowd

No comments:

Post a Comment

Participants

Contact Form