Charles's avatar

Media Coverage in fnrs.news

I was recently interviewed for an article in the fnrs.news about the lab’s work on digital humanities, which has been funded for the last three years on a MIS (Mandat d’Impulsion Scientifique) by the FNRS, the Wallonian funding agency for scientific projects. Read on for the interview! The original was published in French, and I’ve also (much too quickly) translated it below.

My many thanks to Adrian Dewer, author for the magazine who patiently interviewed me despite my poor French, and produced a really lovely article at the end of the process! You can also find a PDF file of the original magazine article (in French) here.

L’analyse statistique au service du patrimoine scientifique

Au fil du temps, des désaccords se font jour au sein de la communauté scientifique ou de la société en général. Notamment sur la signification de certains mots, certains termes, qui au cours de l’histoire a évolué, changé. Pour évaluer ces désaccords concernant une part du patrimoine scientifique, la recherche philosophique s’essaye à une nouvelle discipline : l’analyse statistique.

Le développement des sciences s’est accompagné d’une production croissante d’articles scientifiques, particulièrement depuis le XIXe siècle. « Si on prend la seule revue Nature qui a commencé son activité en 1869, précise Charles Pence, Chargé de cours à l’UCLouvain et bénéficiaire d’un Mandat d’Impulsion Scientifique FNRS, il faudrait lire 10 articles par jour durant une centaine d’années pour obtenir une connaissance complète de ses archives ! Face à ce problème, nous avons imaginé, avec mon promoteur de thèse, une méthode de recherche alternative à la méthode “classique”. »

Rassembler de grandes quantités de d’articles

Pour travailler à la signification du concept de « valeur sélective » au sein du débat sur l’évolution des espèces de Charles Darwin, Charles Pence s’est attelé à rassembler le plus d’articles scientifiques possibles liés aux débats scientifiques au tournant du XIXe et du XXe siècle. « Au début, les revues étaient réticentes à octroyer un accès à leur publication. Il fallait passer des contrats très pointus et le service juridique de l’université a été mis à contribution maintes fois. C’était le début de ce type de recherche, aujourd’hui les revues sont plus enclines à proposer un accès. » Les contrats signés, Charles Pence finit par disposer d’une impressionnante base de 300.000 articles, dont ceux de la revue Nature. Restait à analyser le contenu de ce patrimoine…

« J’ai d’abord tenté de faire des recherches via de grands tableaux Excel, mais cela s’est rapidement soldé par un échec, avoue le philosophe des sciences. Comme j’aime la programmation depuis l’enfance, j’ai fini par développer un outil informatique permettant d’effectuer des recherches dans le corps des articles. Les recherches simples via des dates ou des auteurs ne posent pas beaucoup de difficultés. Le challenge, par contre, résidait à trouver des informations sur la signification de termes particuliers. Afin de suivre l’évolution du terme dans le temps ou ses connexions avec un terme d’intérêt et ainsi analyser comment ce concept est utilisé. »

Préparer les données

Évidemment, la méthode de Charles Pence n’est pas sans risque. À l’instar du data mining, « une grande partie du travail consiste à préparer les données, les nettoyer et s’assurer d’avoir un ensemble d’informations qui permet de formuler une hypothèse et de la tester, souligne-t-il. En outre, un grand nombre de données ne s’apparente pas à de l’objectivité. Nous ne disposons jamais de tous les articles mais bien d’une sélection, aussi large soit-elle, qui suppose donc un biais. Il faut prendre garde à ne pas faire un travail qui ne sert qu’à confirmer une hypothèse de départ ».

Si cette approche statistique nouvelle ne vise pas à remplacer celle de lire un plus petit ensemble de textes sur un nombre plus limité d’auteurs voire un concept spécifique, « elle permet de formuler de nouvelles hypothèses et de les tester en parallèle d’une méthode plus conventionnelle », assure son concepteur.

Cette approche permet, par exemple, d’évaluer les désaccords qui se font jour au sein de la communauté scientifique ou de la société en général. « Le concept d’“espèce” est un excellent exemple de désaccord, note Charles Pence. Il remonte à Aristote, mais la science a évolué depuis lors et a connu de grands bouleversements, notamment avec le séquençage ADN. Comment rassembler à la fois des oiseaux et des bactéries sous ce concept d’espèce afin qu’il soit opérant ? Dans ce cas, c’est certain, ils sont trop différents pour que le concept fonctionne ! »

La classification du vivant par classes, ordres, familles, etc., et la quantification de sa diversité reposent en effet sur des termes aux acceptions anciennes. « Nous nous retrouvons souvent avec des mots qui ont une histoire très longue et dont la signification est devenue brouillée par les découvertes scientifiques. Par exemple, au sein de la communauté scientifique, certains soutiennent qu’il faut abandonner le concept de biodiversité tandis que d’autres militent pour son maintien. Il existe aujourd’hui une dizaine de définitions différentes du terme « espèce ». Notre approche statistique permet d’avoir un regard sur la distribution dans le temps de ces désaccords sur les différentes significations attachées à un concept. » Voire même de réaliser une cartographie d’un terme avec les associations les plus courantes ou pertinentes !

Avoir un rôle dans le débat scientifique et sociétal

« Ces concepts sont au cœur de débats et d’enjeux sociétaux. La biodiversité en est un bel exemple. La mesure classique de la biodiversité, à lier avec les problèmes écologiques que nous connaissons, se base sur le nombre d’espèces. Mais cela ne suffit pas à définir la biodiversité ! Il faudrait ajouter les liens phylogénétiques entre espèces, voire les clades ou les familles. »

L’approche statistique au sein de la philosophie permettra, espère Charles Pence, d’élargir le rôle du philosophe autant au sein de la communauté scientifique que dans la société. « Aujourd’hui, la philosophie des sciences peut jouer un rôle descriptif et aussi normatif. Cette dernière approche est notre challenge pour les prochaines années : comment intervenir dans la démarche scientifique ? Le scientifique est plus absorbé par sa recherche et ses résultats que par des problèmes de définition. C’est là où se situe l’intérêt de notre démarche et le rôle du philosophe. La recherche sur le sens et l’histoire de certains termes nous permet de clarifier le sens des concepts qui sont utilisés par les chercheurs. En standardisant certains de nos résultats – c’est le travail que va commencer un postdoctorant d’ici peu –, nous pourrons jouer un rôle concret au sein de la recherche scientifique. Tout en ayant un impact dans les débats et les questions sociétales autour de la biodiversité. »


Statistical Analysis in the Service of Our Scientific Heritage

Over the course of time, disagreements appear in the scientific community or in society in general. Notably, this includes those around the meaning of certain words, certain terms, which have evolved, changed over the course of history. To evaluate these disagreements concerning part of our scientific heritage, philosophical research is trying its hand at a new discipline: statistical analysis.

The development of science has been accompanied by an increasing production of scientific articles. “If you take only the journal Nature which started publication in 1869,” as points out Charles Pence, Chargé de cours at UCLouvain and beneficiary of an FNRS Mandat d’Impulsion Scientifique, “you would have to read ten articles a day for a hundred years to get a complete knowledge of these archives! Faced with this problem, we’ve imagined, with my former doctoral advisor, an alternative method to the ‘traditional’ one.”

Gathering Large Quantities of Articles

To work on the meaning of the concept of “fitness” at the heart of debates concerning Darwin’s theory of evolution, Charles Pence set about assembling as many scientific articles as possible connected to scientific debates at the turn of the 19th and 20th centuries. “At first, the journals were reticent to give us access to their publications. We had to enter into very precise contracts and we worked closely with the general counsel of the university many times. It was the start of this kind of research; today the journals are more inclined to offer access.” The contracts signed, Charles Pence ended by having at his disposal an impressive database of 300,000 articles [misunderstanding in the interview, today it nears 1.5M], including those from the journal Nature. Now all that was left was to analyze the content of this heritage…

“I first tried to do this research with huge Excel spreadsheets, which quickly failed,” admits the philosopher of science. “As I liked programming since I was a kid, I ended up developping a digital tool enabling us to perform searches in the text of the articles. Simple searches via dates or authors aren’t very difficult. The challenge, however, remains in finding information about the meaning of particular terms – in order to follow the evolution of a term over time or its connections with a term of interest, and thus to analyze how it is used.

Preparing the Data

Obviously, Pence’s method is not without risks. At the start of a data mining project, “a large part of the work consists in preparing the data, cleaning them, and being sure that we have a set of information that permits us to formulate and test a hypothesis,” he emphasizes. “Further, a large number of data don’t necessarily result in objectivity. We never have all of the articles, but only a selection, however large it might be, which thus entails a bias. We have to be careful not to do work that does nothing but confirm the hypothesis that we started with.”

If this new statistical approach doesn’t aim to replace that of reading a smaller number of texts by a more limited number of authors or even around a specific concept, “it permits to formulate new hypotheses and to test them in parallel with a more conventional method,” assures its inventor.

This approach allows us, for example, to evaluate the disagreements that appear in the scientific community or in society at large. “The concept of ‘species’ is an excellent example of this disagreement,” Pence notes. “It goes back to Aristotle, but science has of course evolved since then and known radical changes, in particular after the development of DNA sequencing. How to combine at the same time birds and bacteria under a single concept of species that still works? In this case, certainly, they’re too different for the concept to work!”

The classification of life into classes, orders, families, etc., and the quantification of its diversity rests indeed on these terms with old meanings. “We find ourselves often with words that have a very long history and for which the meanings have become obscure as a result of scientific discoveries. For instance, in the scientific community, some argue that we should abandon the concept of biodiversity while others argue in its favor. There’s a dozen different definitions of the term ‘species’ today. Our statistical approach can let us have a view of the distribution of these different meanings attached to a concept.” Or even to build a cartography of a term with its most common or relevant associations!

Playing a Role in Scientific and Societal Debate

“These concepts are at the heart of debates and social problems. Biodiversity is a nice example. The classic measure of biodiversity, as we know related to so many ecological problems, is based on the number of species. But that’s not enough! We have to add phylogenetic links between species, or even clades or families.”

A statistical approach in philosophy will permit, Pence hopes, to enlarge the role of the philosopher in the scientific community as well as in society. “Today, philosophy of science can play a descriptive and a normative role. This last approach is our challenge in the coming years: how to intervene in the scientific process? The scientist is more concerned with her research and its results than with problems of definition. It’s there where our work can be most interesting and where we can find a role as philosophers. Research on the meaning and history of certain terms can permits us to clarify the sense of concepts which have been used by researchers. In standardizing some of our results – this is work which will be started by a postdoc quite soon – we could play a concrete role in scientific practice. All that while having an impact in debates and social questions around biodiversity.”