Statistiques

« Moi présidente, les titres de thèses feront moins de 140 caractères. »

J’ai dit ça hier, et du coup, je me suis perdue sur theses.fr, j’ai relancé R et j’ai commencé à faire des stats, et cette nuit j’ai récupéré toutes leurs données. J’ai 100 Mo de métadonnées sur des thèses et je brûle de vous en parler. Alors on m’a dit « tu devrais en faire un article de blog », j’ai dit « t’es fou, je vais pas encore commencer un blog », et puis en fait, bah si.

Autant s’y mettre tout de suite.

Les données analysées sont celles proposées par theses.fr via leur API et concernent 310 187 thèses en français.

La thèse au titre le plus long est en gastronomie moléculaire, une thèse d’Anne Cazor sous la direction d’Hervé This, avec 614 caractères : Etude des solutions obtenues par traitement thermique en phase aqueuse de tissus végétaux (racines de Daucus carota L. ) ou animaux (tissus musculaires, M. Pectoralis major, Gallus domesticus) : recherche des mécanismes responsables de la constitution de ces solutions (<<bouillons>>) par spectroscopie par résonance magnétique nucléaire quantitative du proton (q 1H RMN) et par électrophorèse (SDS-PAGE) : analyse des modifications microstructurales ou chimiques des tissus traités et suivi cinétique des transferts des principales molécules sapides (sucres, protéines, acides aminés et acides organiques) (la notice sur theses.fr)

Le résumé de la thèse est à peine plus long.

Pour le titre le plus court, c’est un peu plus compliqué, car il y a des gens qui ont apparemment vite rempli le formulaire, du coup il y a des titres du genre « ksmdfsd » ou « sldfkh » et j’ai vérifié, ce ne sont pas des acronymes. Du coup, a priori le titre le plus court serait en informatique, sous la plume de Julien Deantoni et sous la direction de Jean-Philippe Babau. Le titre, cette fois, est bien un acronyme, SAIA, pour Sensors Actuators Independent Architecture. ll y a même un résumé en ligne, qui cette fois est franchement plus long que le titre.

Passons maintenant aux choses sérieuses et observons la distribution des thèses en fonction de la longueur de leur titre.

LongueursTitres

On voit assez vite que la grosse majorité (85%, plus précisément) a moins de 150 caractères, et que ça décroît très vite ensuite. Je compte en fait que 80% des titres de thèses font moins de 140 caractères ; si j’étais Présidente, ce sont très exactement 60 935 thèses qui passeraient à la trappe.

Quand j’ai fanfaronné sur la longueur des titres, on m’a tout de suite dit « haha, je parie que les SHS blabla lol ». Mon objectif secret en relançant R était de prouver le contraire, mais d’abord, il nous faut nous faire une idée des disciplines les plus représentées.

Oui, le titre est pas centré, mais venez pas me faire chier.

Oui, le titre est pas centré, mais venez pas me faire chier.

Voyons maintenant les disciplines dont les titres sont les plus longs, en moyenne.

Moyennes

Ah ouais. Pas beaucoup de sciences humaines, hein ? On fait moins les malins, maintenant, hein ?

Avant que vous ne me taxiez de mauvaise foi sous prétexte que je restreindrais le graphique aux 5 premiers, en voilà un peu plus.

Moyennes15Je proclame donc les sciences humaines reines de la concision.

Ce sera tout pour aujourd’hui.

Par défaut