Statistiques

Le réseau disciplinaire des thèses en France

Au cours de sa carrière, on souhaite à un directeur de thèse de suivre les travaux de plusieurs doctorants. La complexité des procédures administratives fait que son domaine de compétence pourra recouvrir des libellés différents, lors de l’inscription du jeune chercheur, en termes de discipline. Ainsi une même personne pourra, sans que cela soit choquant, diriger des travaux à la fois en « sociologie », « sciences sociales », « sciences humaines et sociales » et « sciences de la société » sans que ces différents libellés ne suggèrent un revirement de carrière. On peut considérer les disciplines désignées par ces libellés comme voisines et utiliser cette notion de voisinage pour représenter ces liens entre disciplines par un graphe dont les noeuds sont des libellés de discipline et les liens sont ces voisinages.

Les lectures fidèles de ce blog (qui a deux billets à son actif, ça va, pas trop dur à suivre ?) se souviendront que je m’étais intéressée aux données mises à disposition par theses.fr ; je m’étais concentrée sur les titres de thèses et leurs longueurs. Cette fois j’ai exploré les différentes disciplines liées à un même directeur pour produire une représentation visuelle du graphe évoqué ci-dessus. J’en ai profité pour mettre de l’ordre dans les différents scripts utilisés, ce qui fait que n’importe qui devrait pouvoir, sans trop difficulté, reproduire l’exercice à partir du code que je vais bien finir par mettre à disposition.

Outre la génération des liens, qui prend 3h de bout en bout quand tout se passe bien, il a fallu normaliser légèrement les libellés de disciplines pour éliminer une partie des doublons : normalisation des énumération (« mécanique, génie mécanique et génie civil »), des majuscules, des séparateurs entre énumérations, etc. Je vous épargne les détails de ce travail long et fastidieux dont je pourrai dire plus en commentaire s’il y a des intéressés. L’essentiel est de dire que toutes les opérations ont été systématiques et que je n’ai pas fait de modifications locales à la main ; ainsi le résultat n’est pas parfait mais aucun libellé n’a eu un traitement particulier. La dernière étape a été de couper, assez arbitrairement, dans la longue traîne pour ne représenter que les principaux noeuds (autour de 400 sur 7000 au total). La spatialisation s’est faite avec l’algorithme ForceAtlas de Gephi en utilisant l’ajustement par taille (qui empêche les recouvrements) et l’option »Attraction distribuée » qui tend à pousser les hubs à la périphérie et les autorités au centre.

La taille d’un noeud représente le nombre de thèses menées dans la discipline, tandis que la saturation de la couleur correspond au nombre de voisins. L’épaisseur des liens renvoie au nombre de directeurs qui ont dirigé des travaux dans les deux disciplines qui sont liées. Il faut bien évidemment cliquer sur l’image pour explorer la visualisation qu’il faut vraiment considérer comme une promenade.

22avril

 

 

Ce qui me frappe est la grande lisibilité du graphe, qui confirme les préjugés que l’on peut avoir sur la séparation entre sciences naturelles et sciences humaines, tout en faisant apparaître trois cultures plutôt que deux :

  • un regroupement « physique, informatique et mathématique » ;
  • un regroupement « biologie et médecine » ;
  • un regroupement « sciences humaines et sociales. »

Au sein de chaque regroupement, des disciplines centrales sont bien visibles.

Quelques disciplines ont une (relative) position de pivot, comme les sciences de gestion, la psychologie ou encore la chimie, entre ces trois regroupements. En caricaturant un peu, on retrouve, de droite à gauche, la classification des sciences selon leur niveau de pureté imaginée par Randall Munroe. En étant moins chafouin, on remarque la distance qui sépare certaines disciplines, comme la littérature et l’électronique, est assez vertigineuse ; il est difficile de considérer que le savoir fait un en cette absence totale de recouvrement. Bien sûr, cette distance n’est pas réelle – si tant est qu’une distance entre discipline puisse être « réelle ». C’est celle que donne à voir une certaine représentation, construite à partir d’un répertoire riche mais incomplet de thèses, de la structuration disciplinaire de la recherche. Reste encore à déterminer quelle influence nos préjugés – et ceux de tous les doctorants qui se choisissent une discipline – peuvent avoir dans cette structuration que d’aucuns considéreront comme socialement construite.

 

PS : je n’ai pas voulu me prendre un serveur juste pour ça ; la visualisation est donc hébergée à l’arrache, pour employer un terme technique sur Dropbox. Si vous avez un coin de serveur à me prêter, je suis, ma foi, preneuse.

Par défaut
Statistiques

« Moi présidente, les titres de thèses feront moins de 140 caractères. »

J’ai dit ça hier, et du coup, je me suis perdue sur theses.fr, j’ai relancé R et j’ai commencé à faire des stats, et cette nuit j’ai récupéré toutes leurs données. J’ai 100 Mo de métadonnées sur des thèses et je brûle de vous en parler. Alors on m’a dit « tu devrais en faire un article de blog », j’ai dit « t’es fou, je vais pas encore commencer un blog », et puis en fait, bah si.

Autant s’y mettre tout de suite.

Les données analysées sont celles proposées par theses.fr via leur API et concernent 310 187 thèses en français.

La thèse au titre le plus long est en gastronomie moléculaire, une thèse d’Anne Cazor sous la direction d’Hervé This, avec 614 caractères : Etude des solutions obtenues par traitement thermique en phase aqueuse de tissus végétaux (racines de Daucus carota L. ) ou animaux (tissus musculaires, M. Pectoralis major, Gallus domesticus) : recherche des mécanismes responsables de la constitution de ces solutions (<<bouillons>>) par spectroscopie par résonance magnétique nucléaire quantitative du proton (q 1H RMN) et par électrophorèse (SDS-PAGE) : analyse des modifications microstructurales ou chimiques des tissus traités et suivi cinétique des transferts des principales molécules sapides (sucres, protéines, acides aminés et acides organiques) (la notice sur theses.fr)

Le résumé de la thèse est à peine plus long.

Pour le titre le plus court, c’est un peu plus compliqué, car il y a des gens qui ont apparemment vite rempli le formulaire, du coup il y a des titres du genre « ksmdfsd » ou « sldfkh » et j’ai vérifié, ce ne sont pas des acronymes. Du coup, a priori le titre le plus court serait en informatique, sous la plume de Julien Deantoni et sous la direction de Jean-Philippe Babau. Le titre, cette fois, est bien un acronyme, SAIA, pour Sensors Actuators Independent Architecture. ll y a même un résumé en ligne, qui cette fois est franchement plus long que le titre.

Passons maintenant aux choses sérieuses et observons la distribution des thèses en fonction de la longueur de leur titre.

LongueursTitres

On voit assez vite que la grosse majorité (85%, plus précisément) a moins de 150 caractères, et que ça décroît très vite ensuite. Je compte en fait que 80% des titres de thèses font moins de 140 caractères ; si j’étais Présidente, ce sont très exactement 60 935 thèses qui passeraient à la trappe.

Quand j’ai fanfaronné sur la longueur des titres, on m’a tout de suite dit « haha, je parie que les SHS blabla lol ». Mon objectif secret en relançant R était de prouver le contraire, mais d’abord, il nous faut nous faire une idée des disciplines les plus représentées.

Oui, le titre est pas centré, mais venez pas me faire chier.

Oui, le titre est pas centré, mais venez pas me faire chier.

Voyons maintenant les disciplines dont les titres sont les plus longs, en moyenne.

Moyennes

Ah ouais. Pas beaucoup de sciences humaines, hein ? On fait moins les malins, maintenant, hein ?

Avant que vous ne me taxiez de mauvaise foi sous prétexte que je restreindrais le graphique aux 5 premiers, en voilà un peu plus.

Moyennes15Je proclame donc les sciences humaines reines de la concision.

Ce sera tout pour aujourd’hui.

Par défaut