Statistiques

Le réseau disciplinaire des thèses en France

Au cours de sa carrière, on souhaite à un directeur de thèse de suivre les travaux de plusieurs doctorants. La complexité des procédures administratives fait que son domaine de compétence pourra recouvrir des libellés différents, lors de l’inscription du jeune chercheur, en termes de discipline. Ainsi une même personne pourra, sans que cela soit choquant, diriger des travaux à la fois en « sociologie », « sciences sociales », « sciences humaines et sociales » et « sciences de la société » sans que ces différents libellés ne suggèrent un revirement de carrière. On peut considérer les disciplines désignées par ces libellés comme voisines et utiliser cette notion de voisinage pour représenter ces liens entre disciplines par un graphe dont les noeuds sont des libellés de discipline et les liens sont ces voisinages.

Les lectures fidèles de ce blog (qui a deux billets à son actif, ça va, pas trop dur à suivre ?) se souviendront que je m’étais intéressée aux données mises à disposition par theses.fr ; je m’étais concentrée sur les titres de thèses et leurs longueurs. Cette fois j’ai exploré les différentes disciplines liées à un même directeur pour produire une représentation visuelle du graphe évoqué ci-dessus. J’en ai profité pour mettre de l’ordre dans les différents scripts utilisés, ce qui fait que n’importe qui devrait pouvoir, sans trop difficulté, reproduire l’exercice à partir du code que je vais bien finir par mettre à disposition.

Outre la génération des liens, qui prend 3h de bout en bout quand tout se passe bien, il a fallu normaliser légèrement les libellés de disciplines pour éliminer une partie des doublons : normalisation des énumération (« mécanique, génie mécanique et génie civil »), des majuscules, des séparateurs entre énumérations, etc. Je vous épargne les détails de ce travail long et fastidieux dont je pourrai dire plus en commentaire s’il y a des intéressés. L’essentiel est de dire que toutes les opérations ont été systématiques et que je n’ai pas fait de modifications locales à la main ; ainsi le résultat n’est pas parfait mais aucun libellé n’a eu un traitement particulier. La dernière étape a été de couper, assez arbitrairement, dans la longue traîne pour ne représenter que les principaux noeuds (autour de 400 sur 7000 au total). La spatialisation s’est faite avec l’algorithme ForceAtlas de Gephi en utilisant l’ajustement par taille (qui empêche les recouvrements) et l’option »Attraction distribuée » qui tend à pousser les hubs à la périphérie et les autorités au centre.

La taille d’un noeud représente le nombre de thèses menées dans la discipline, tandis que la saturation de la couleur correspond au nombre de voisins. L’épaisseur des liens renvoie au nombre de directeurs qui ont dirigé des travaux dans les deux disciplines qui sont liées. Il faut bien évidemment cliquer sur l’image pour explorer la visualisation qu’il faut vraiment considérer comme une promenade.

22avril

 

 

Ce qui me frappe est la grande lisibilité du graphe, qui confirme les préjugés que l’on peut avoir sur la séparation entre sciences naturelles et sciences humaines, tout en faisant apparaître trois cultures plutôt que deux :

  • un regroupement « physique, informatique et mathématique » ;
  • un regroupement « biologie et médecine » ;
  • un regroupement « sciences humaines et sociales. »

Au sein de chaque regroupement, des disciplines centrales sont bien visibles.

Quelques disciplines ont une (relative) position de pivot, comme les sciences de gestion, la psychologie ou encore la chimie, entre ces trois regroupements. En caricaturant un peu, on retrouve, de droite à gauche, la classification des sciences selon leur niveau de pureté imaginée par Randall Munroe. En étant moins chafouin, on remarque la distance qui sépare certaines disciplines, comme la littérature et l’électronique, est assez vertigineuse ; il est difficile de considérer que le savoir fait un en cette absence totale de recouvrement. Bien sûr, cette distance n’est pas réelle – si tant est qu’une distance entre discipline puisse être « réelle ». C’est celle que donne à voir une certaine représentation, construite à partir d’un répertoire riche mais incomplet de thèses, de la structuration disciplinaire de la recherche. Reste encore à déterminer quelle influence nos préjugés – et ceux de tous les doctorants qui se choisissent une discipline – peuvent avoir dans cette structuration que d’aucuns considéreront comme socialement construite.

 

PS : je n’ai pas voulu me prendre un serveur juste pour ça ; la visualisation est donc hébergée à l’arrache, pour employer un terme technique sur Dropbox. Si vous avez un coin de serveur à me prêter, je suis, ma foi, preneuse.

Publicités
Par défaut
Métaphysique

Raisonnement tenu lors d’une insomnie sur l’existence du monde hors de moi

Il y a eu un soir où je n’arrivais pas à dormir, et, stimulée par des lectures un peu trop abstraites, je me suis demandée si je pouvais prouver que le monde existe, car, d’idée en idée, je ne voyais plus rien qui m’autorisait à en être certaine. Voici le raisonnement que je me suis tenu sur l’oreiller.

Supposons donc que le monde n’existe pas, et que toutes les perceptions que j’en ai sont en réalité le fruit de mon imagination. Il s’ensuit que je suis en réalité capable de deux formes d’imagination : celle qui est à l’oeuvre lorsque je rêvasse, que je tente d’écrire une histoire, que je cherche une solution à un problème, bref, la faculté par excellence des inventeurs et des poètes, et qui est une faculté familière dont je connais assez bien les limites. Il y aurait, en parallèle de cela, une autre imagination, qui œuvrerait hors de ma conscience et produirait et présenterait à ce que j’appelle ma perception tous les phénomènes que je crois vrais.

Je remarque que cette deuxième imagination est remarquablement plus féconde et capable de simulations infiniment plus complexes. Par exemple, lorsque je revois un ami après une longue période de séparation, elle est capable de me proposer un récit fort détaillé de ce qui lui est arrivé en mon absence, et à laquelle cet ami aura recours durant notre conversation d’une façon qui n’est pas mécanique mais me semble naturelle. Elle me présente également des objets techniques qui augmentent remarquablement les facultés de mon esprit conscient : des rappels de rendez-vous pour les choses que j’avais oubliées, des calculatrices qui dépassent largement, que je sache, mes capacités de calcul mental, des livres où se trouvent des milliers d’histoires que je ne me souviens pas avoir imaginées. Bref, tous les phénomènes que présenterait cette deuxième imagination me semblent largement dépasser les capacités de mon esprit telles que je les connais, et semblent plutôt être le fruit de milliers d’imaginations conscientes semblables à la mienne.

Je ne vois donc que deux solutions : ou bien cette imagination dont je n’ai pas conscience, et remarquablement plus puissante que mon imagination consciente, produit tous ces phénomènes, ou bien ils ont une existence en dehors de moi et de mon imagination consciente. Autrement dit, soit le monde existe hors de moi, soit le monde est en moi et mon inconscient imagine le monde en secret de mon esprit conscient.

Pour mieux poser ce dilemme, je dois mieux définir ce que j’entends par « moi », et considérer qu’il s’agit de la partie consciente de moi-même, dont j’ai connaissance, et qui s’interroge en ce moment même sur l’existence de ce dont je n’ai pas le sentiment d’être la conscience. Hors de cette conscience se trouve, ou bien le monde, ou bien ce vaste inconscient qui contient le monde. Je ne peux absolument pas déterminer si cet inconscient hypothétique fait partie de moi, puisque je n’ai pas conscience qu’il existe. Posée en ces termes, quelle différence y a-t-il fondamentalement entre ces deux alternatives ? Si ce que j’appelle « moi » est ma conscience, alors cet inconscient qui imaginerait le monde ne fait pas partie de moi, mais serait quelque chose qui existe en dehors de moi, c’est-à-dire en dehors de ma conscience, et que je peux fort bien appeler « le monde ». Que je l’aie imaginé sans le savoir, ou qu’il me pré-existe, ne change rien au fait qu’il se produit bien, en dehors de « moi », des événements que je n’ai pas conscience d’imaginer. Et si ce « moi » n’est bien que mon esprit conscient seulement, alors il y a bien quelque chose en dehors de « moi », dont je ne peux déterminer s’il est le fruit d’un inconscient à l’imagination fort féconde ou s’il existe indépendamment d’une quelconque imagination.

Devant ce dilemme finalement indécidable, le fait que je dispose de deux formes d’imagination radicalement inégales par leur fécondité me semble moins probable que l’existence d’autres imaginations semblables à la mienne, et qui auraient produit les récits et les objets techniques dont j’ai parlé ; ainsi j’en conclus que l’existence du monde ne peut être attestée, mais qu’il est plus probable que le monde existe en dehors de moi.

Par défaut
Statistiques

« Moi présidente, les titres de thèses feront moins de 140 caractères. »

J’ai dit ça hier, et du coup, je me suis perdue sur theses.fr, j’ai relancé R et j’ai commencé à faire des stats, et cette nuit j’ai récupéré toutes leurs données. J’ai 100 Mo de métadonnées sur des thèses et je brûle de vous en parler. Alors on m’a dit « tu devrais en faire un article de blog », j’ai dit « t’es fou, je vais pas encore commencer un blog », et puis en fait, bah si.

Autant s’y mettre tout de suite.

Les données analysées sont celles proposées par theses.fr via leur API et concernent 310 187 thèses en français.

La thèse au titre le plus long est en gastronomie moléculaire, une thèse d’Anne Cazor sous la direction d’Hervé This, avec 614 caractères : Etude des solutions obtenues par traitement thermique en phase aqueuse de tissus végétaux (racines de Daucus carota L. ) ou animaux (tissus musculaires, M. Pectoralis major, Gallus domesticus) : recherche des mécanismes responsables de la constitution de ces solutions (<<bouillons>>) par spectroscopie par résonance magnétique nucléaire quantitative du proton (q 1H RMN) et par électrophorèse (SDS-PAGE) : analyse des modifications microstructurales ou chimiques des tissus traités et suivi cinétique des transferts des principales molécules sapides (sucres, protéines, acides aminés et acides organiques) (la notice sur theses.fr)

Le résumé de la thèse est à peine plus long.

Pour le titre le plus court, c’est un peu plus compliqué, car il y a des gens qui ont apparemment vite rempli le formulaire, du coup il y a des titres du genre « ksmdfsd » ou « sldfkh » et j’ai vérifié, ce ne sont pas des acronymes. Du coup, a priori le titre le plus court serait en informatique, sous la plume de Julien Deantoni et sous la direction de Jean-Philippe Babau. Le titre, cette fois, est bien un acronyme, SAIA, pour Sensors Actuators Independent Architecture. ll y a même un résumé en ligne, qui cette fois est franchement plus long que le titre.

Passons maintenant aux choses sérieuses et observons la distribution des thèses en fonction de la longueur de leur titre.

LongueursTitres

On voit assez vite que la grosse majorité (85%, plus précisément) a moins de 150 caractères, et que ça décroît très vite ensuite. Je compte en fait que 80% des titres de thèses font moins de 140 caractères ; si j’étais Présidente, ce sont très exactement 60 935 thèses qui passeraient à la trappe.

Quand j’ai fanfaronné sur la longueur des titres, on m’a tout de suite dit « haha, je parie que les SHS blabla lol ». Mon objectif secret en relançant R était de prouver le contraire, mais d’abord, il nous faut nous faire une idée des disciplines les plus représentées.

Oui, le titre est pas centré, mais venez pas me faire chier.

Oui, le titre est pas centré, mais venez pas me faire chier.

Voyons maintenant les disciplines dont les titres sont les plus longs, en moyenne.

Moyennes

Ah ouais. Pas beaucoup de sciences humaines, hein ? On fait moins les malins, maintenant, hein ?

Avant que vous ne me taxiez de mauvaise foi sous prétexte que je restreindrais le graphique aux 5 premiers, en voilà un peu plus.

Moyennes15Je proclame donc les sciences humaines reines de la concision.

Ce sera tout pour aujourd’hui.

Par défaut