Statistiques

« Moi présidente, les titres de thèses feront moins de 140 caractères. »

J’ai dit ça hier, et du coup, je me suis perdue sur theses.fr, j’ai relancé R et j’ai commencé à faire des stats, et cette nuit j’ai récupéré toutes leurs données. J’ai 100 Mo de métadonnées sur des thèses et je brûle de vous en parler. Alors on m’a dit « tu devrais en faire un article de blog », j’ai dit « t’es fou, je vais pas encore commencer un blog », et puis en fait, bah si.

Autant s’y mettre tout de suite.

Les données analysées sont celles proposées par theses.fr via leur API et concernent 310 187 thèses en français.

La thèse au titre le plus long est en gastronomie moléculaire, une thèse d’Anne Cazor sous la direction d’Hervé This, avec 614 caractères : Etude des solutions obtenues par traitement thermique en phase aqueuse de tissus végétaux (racines de Daucus carota L. ) ou animaux (tissus musculaires, M. Pectoralis major, Gallus domesticus) : recherche des mécanismes responsables de la constitution de ces solutions (<<bouillons>>) par spectroscopie par résonance magnétique nucléaire quantitative du proton (q 1H RMN) et par électrophorèse (SDS-PAGE) : analyse des modifications microstructurales ou chimiques des tissus traités et suivi cinétique des transferts des principales molécules sapides (sucres, protéines, acides aminés et acides organiques) (la notice sur theses.fr)

Le résumé de la thèse est à peine plus long.

Pour le titre le plus court, c’est un peu plus compliqué, car il y a des gens qui ont apparemment vite rempli le formulaire, du coup il y a des titres du genre « ksmdfsd » ou « sldfkh » et j’ai vérifié, ce ne sont pas des acronymes. Du coup, a priori le titre le plus court serait en informatique, sous la plume de Julien Deantoni et sous la direction de Jean-Philippe Babau. Le titre, cette fois, est bien un acronyme, SAIA, pour Sensors Actuators Independent Architecture. ll y a même un résumé en ligne, qui cette fois est franchement plus long que le titre.

Passons maintenant aux choses sérieuses et observons la distribution des thèses en fonction de la longueur de leur titre.

LongueursTitres

On voit assez vite que la grosse majorité (85%, plus précisément) a moins de 150 caractères, et que ça décroît très vite ensuite. Je compte en fait que 80% des titres de thèses font moins de 140 caractères ; si j’étais Présidente, ce sont très exactement 60 935 thèses qui passeraient à la trappe.

Quand j’ai fanfaronné sur la longueur des titres, on m’a tout de suite dit « haha, je parie que les SHS blabla lol ». Mon objectif secret en relançant R était de prouver le contraire, mais d’abord, il nous faut nous faire une idée des disciplines les plus représentées.

Oui, le titre est pas centré, mais venez pas me faire chier.

Oui, le titre est pas centré, mais venez pas me faire chier.

Voyons maintenant les disciplines dont les titres sont les plus longs, en moyenne.

Moyennes

Ah ouais. Pas beaucoup de sciences humaines, hein ? On fait moins les malins, maintenant, hein ?

Avant que vous ne me taxiez de mauvaise foi sous prétexte que je restreindrais le graphique aux 5 premiers, en voilà un peu plus.

Moyennes15Je proclame donc les sciences humaines reines de la concision.

Ce sera tout pour aujourd’hui.

Publicités
Par défaut

28 réflexions sur “« Moi présidente, les titres de thèses feront moins de 140 caractères. »

  1. Ce qui m’épate c’est qu’il a fallu qu’on attende 2007 pour déterminer comment se faisait un bouillon de poule au niveau moléculaire.
    Pour un pays à forte tradition gastronomique, on a pas été rapides.

    • This dit :

      Oui, c’est étonnant que la « cuisine » ait été si délaissée. Et c’est pour cette raison qu’a été créée la gastronomie moléculaire (une science « quantitative », à ne pas confondre avec la « cuisine moléculaire, de la cuisine aux techniques rénovées)

      • This dit :

        « La découverte d’un mets nouveau fait plus pour le bonheur du genre humain que la découverte d’une étoile »

  2. This dit :

    Dans notre groupe, Romain Bouteille vient de passer sa thèse sur la fraîcheur des yaourts. Il y a deux documents, l’un de synthèse, et l’un complémentaire, et l’on atteint 3,2 kilogrammes sans délayage.

  3. LegZ dit :

    J’ai un peu de mal avec la mise en relation de « Titres les plus longs, en moyenne, par discipline » et la conclusion.
    Comment sont déterminées ces moyennes ? Avec les X titres les plus long, par discipline ?

    Et si les Mathématiques appliquées avait en effet quelques titres à rallonge mais 90% des titres de moins de 100 caractères ?
    Et si les SHS n’avaient aucun titre à rallonge mais 90% de ses titres entre 100 et 150 caractères ?
    Il me semble que qu’on aurait en effet ces graphiques, mais pas du tout la même conclusion.

    • Pour déterminer la moyenne des titres, je prends, pour chaque discipline, tous les titres correspondants, et je calcule la moyenne de leur nombre de caractères : je ne favorise pas du tout les n plus longs de chaque disciplines. On pourrait en revanche rétorquer que les résultats sont moins représentatifs pour les disciplines qui ont peu de doctorants, mais après, je pense que ça va être difficile de faire mieux comme échantillon que « tout ce qui est disponible ».

      • LegZ dit :

        Ok, il s’agit donc de la longueur moyenne des titres et non des « Titres les plus longs, en moyenne ».
        Et quid de l’écart type de ces moyennes ? Ça permettrait peut-être de mettre en avant les disciplines qui « trichent » en utilisant des acronymes.

      • Je n’ai pas voulu me lancer dans de l’analyse de variance, déjà parce que je commençais à avoir envie de dormir, et aussi parce que le nombre de thèses par discipline rend la variance par discipline difficilement comparable : entre les dizaines de milliers de thèses en médecine et les quelques thèses de gastronomie moléculaire justement, la variance n’est pas vraiment un critère de comparaison satisfaisant. Enfin, il me semble, après je ne suis pas statisticienne 🙂

        Si tu veux je regarderai la médiane ce soir.

  4. This dit :

    Je prends une seconde parce que je crois que, au dela de l’humour, la question est essentielle (et je vais faire un billet sur mon propre blog :
    1. Pour l’humour, je réponds au commentaire « combien de divisions » : « ego te absolvo »
    2. Plus sérieusement, une thèse est un document qui démontre à l’institution que l’on est capable d’écrire un livre, tout comme la soutenance orale doit démontrer que l’on est capable de « professer » (la thèse est l’accès à l’enseignement supérieur). Donc je suis très opposé à de petites thèse… et je vous assure que l’on est bien honteux, plus tard, quand on a produit un document médiocre.
    Moi président, les thèses se feront sur articles ou bien feront plus de 300000000 signes

    • Je pense que ce que l’on appelle « une petite thèse » (indépendamment du titre) dépend beaucoup de la discipline en question. Il est difficile de faire court en histoire ; après il me semble qu’en philosophie on rencontre un certain nombre de manuscrits de 600 pages qui ressemblent beaucoup à du remplissage et qu’on pourrait faire plus succinct sans que l’importance de la contribution du manuscrit ne diminue. Je ne sais pas comment cela se passe en gastronomie moléculaire. Après je suis d’accord sur le fait que le travail doit être conséquent ; c’est la définition de « conséquent » qui n’est pas évidente !

    • La question du « volume » des thèses est toujours un sujet de disputes, surtout quand on commence à essayer de fixer des canevas communs à plusieurs disciplines.
      J’aurai personnellement tendance à penser, pour lutter contre certaines tentatives d’inflations que je trouve parfois excessives, que la bonne mesure est de se référer à la durée : une thèse de doctorat dure normalement 3 années, il serait donc dans ce cas pertinent d’attendre un volume de travail sur le sujet donné correspondant à ce qu’un doctorant peut raisonnablement fournir dans ce laps de temps.

      Cela veut effectivement dire que bien souvent le doctorant ne fera pas complètement le tour de la question. Mais je ne pense pas que ce soit un mal en soit : la thèse n’est pas juste un élément de recherche entier et indépendant, elle peut tout à fait être considérée comme un travail d’ouverture sur une vie de travaux plus vastes. Charge au docteur de poursuivre ses travaux et de présenter plus tard une HDR plus complète et volumineuse.

  5. Je rejoins David sur l’étonnement sur « Gastronomie moléculaire ».
    Mais surtout, il me semblait que les disciplines étaient normalisées. Perso, pour soutenir la mienne, j’avais le choix entre « Informatique » et « Mathématiques Appliquées », mais pas « Géométrie algorithmique » par exemple.
    Ce n’est plus le cas ?

    • J’ai utilisé la discipline telle que fournie par theses.fr ; on pourrait évidemment proposer une autre taxinomie (et j’aurais bien aimé avoir les hyperonymes, notamment, pour faire quelque chose de plus synthétique) mais en l’occurrence ça va être compliqué avec mes maigres compétences et le volume de données.

  6. Martin dit :

    Pour les Sciences humaines il faudrait se pencher sur le cas de la psycho. J’ai pour ma part gardé comme un trauma le titre de mon propre master propédeutique à une inscription en doctorat à l’université Laval de Québec en 1979: « Evaluation de l’effet de l’auto-enregistrement dans le traitement par bio-feedback (rétroaction biologique) de la douleur de patients atteints d’arthrite rhumatoïde ». Oui je sais petit joueur mais tout de même. On comprendra que j’ai décidé l’année suivante de quitter cette discipline ingrate pour devenir sociologue.

      • C’est surtout « sciences exactes » qu’il faut bannir à mon sens, comme s’il y avait quoi que ce soit d’exact dans le savoir constitué.

      • Cela ne me semble pas forcément judicieux : la sociologie, la psychologie, ont des méthodes quantitatives, d’une façon qui n’a rien d’anecdotique. Je trouve que les expressions « sciences de la nature et de la technique » d’un côté, « sciences humaines et sociales » de l’autre, font assez bien le boulot.

        Mais on pourrait envisager d’autres couples : nature/culture, matière/esprit… Le tout est de montrer leur complémentarité !

  7. teymour dit :

    Vu que les données sont fournies par theses.fr sous Licence Ouverte, ca serait vraiment super si les métadonnées que tu as récupérées était également téléchargeables, par exemple depuis ce blog !

    Elles permettront ainsi peut être aux tenants des sciences humaines de réfuter de manière factuelle les critiques faites à propos de leur concision 😉

    • Les données (et leurs métadonnées) ont été téléchargées avec l’API de theses.fr (ce que la licence autorise, pour répondre à la question du droit) avec des compétences minimalistes en programmation. Je regarderai si je peux mettre ce gros fichier en ligne sur la plateforme WordPress pour ceux dont les compétences sont moins que minimalistes. 🙂

  8. Alors, j’avais supprimé les données donc je les ai re-téléchargées cette nuit. Ça fait 2Go au total tout de même, pas quelque chose que je peux mettre en ligne. Mais c’est vraiment pas compliqué à récupérer.

  9. Pingback: Baptiste Coulmont » Les amis de mes amis sont directeurs de thèse

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s