Du versionnage des publications scientifiques

2022-11-16

Alors que le CCSD vient d’annoncer que HAL adoptera bientôt une nouvelle interface, mon collègue Ugo Verdi m’a rapporté une observation qui m’a intrigué : certaines personnes auraient des réticences à utiliser HAL en raison du caractère définitif des dépôts. Elles préféreraient pouvoir supprimer un dépôt, notamment pour le remplacer par une version plus avancée ; il s’agirait par exemple de substituer la version finale d’un article à une version prépubliée.

Il me semble que cette attitude est en contradiction avec le principe de la prépublication. Or une partie du problème réside probablement dans le mot « prépublication » lui-même…

Une prépublication est une publication

En anglais, on parle d’eprint, littéralement « imprimé électronique », pour désigner la version numérique d’un travail de recherche. C’est le terme employé notamment par arXiv, historiquement le premier serveur d’eprints. On distingue alors deux catégories d’eprints : les preprints, des travaux publiés avant l’évaluation par les pairs, et les postprints, qui sont publiés après.

Rien qu’ici, il y a déjà beaucoup d’ambiguïté. Postprint signifie littéralement « post-impression », alors qu’il s’agit en fait d’une version post-évaluation mais pré-impression. Et en fait d’« impression », il faut plutôt comprendre le terme print comme désignant le stade de la publication du texte par l’éditeur, que ce soit sous forme imprimée ou numérique. La chronologie est donc paradoxalement preprint, postprint, print. Si l’auteur publie le postprint après que l’éditeur publie le print, cela ne change rien. En effet, les préfixes pre et post ne se rapportent pas aux dates de publication mais à la chronologie des modifications : postprint signifie post-correctionsÉtienne Nadji me fait préciser à juste titre qu’il s’agit des corrections scientifiques : les textes validés scientifiquement peuvent encore faire l’objet de corrections éditoriales.
mais pré-pagination, tandis que print est post-pagination !

Lorsqu’on passe au français, l’ambiguïté augmente encore. On trouve parfois l’anglicisme « préprint » mais on parle généralement de prépublicationLe terme a une histoire avant son usage dans l’édition scientifique : pensez par exemple aux romans ou aux BD prépubliées sous forme épisodique dans des magazines avant leur parution sous la forme d’une édition unique.
. Je trouve cette traduction particulièrement malheureuse. Le fait que preprint signifie pré-évaluation est déjà ambigu en soit. Parler de prépublication introduit une confusion supplémentaire, puisque le terme suggère que les preprints ne sont pas vraiment des publications mais quelque chose qui précède la publication (sous entendu, la vraie publication).

Une conséquence de ces ambiguïtés est la position que je rapportais au début du billet : le fait de considérer qu’un preprint (une prépublication) n’a pas vocation à être publié définitivement, et devrait être dépublié en faveur du postprint ou du print. Or cela n’est pas acceptable, pour au moins deux grandes raisons.

La première raison est très simple : à partir du moment où un travail de recherche est publié, il peut être cité. Dès lors, il doit rester accessible. Il en va de la traçabilité de la recherche. La documentation d’arXiv évoque clairement ce point :

“Once made public, each version of a work is considered a permanent part of the scientific record and may not be removed. If an author needs to update the article after announcement, they may replace or withdraw the article, which creates a new version […] Making previous versions of submitted papers publicly available archives the historical record of research work. As such, it is a useful aid to peer review and verification of intellectual priority.”« À partir du moment où elle est rendue publique, chaque version d’une œuvre doit être considérée comme un élément permanent du corpus scientifique et ne peut être supprimée. Si un auteur a besoin de mettre à jour son texte après cette publication initiale, il peut le remplacer ou le retirer, ce qui crée une nouvelle version […] La mise à disposition des versions successives des travaux de recherche permet d’archiver publiquement leur évolution. Ceci facilite l’évaluation par les pairs mais aussi la vérification de la paternité des idéesSource : arXiv.
 ».

À la traçabilité, il faut ajouter la question de l’accès. Imaginons un article A, publié sous forme de preprint en 2020. Il est envoyé à une revue R, qui engage un processus d’évaluation. Pendant ce temps, le preprint est lu et cité dans plusieurs travaux X, Y, Z, publiés la même année. En 2021, l’article paraît dans la revue avec des corrections et une pagination différente du preprint. L’accès à la revue est payant et les auteurs ne publient pas de postprint (pour rappel : version post-évaluation mais pré-publication par l’éditeur). En 2022, un chercheur C tombe sur les travaux X, Y, Z de 2020 qui citent l’article A en version preprint. Ce chercheur n’a pas accès à la revue R. Il cite alors le preprint. Dans cette configuration, si les auteurs avaient dépublié le preprint sous prétexte qu’il était rendu obsolète par la parution dans la revue R, le chercheur C n’aurait pas pu le lire ni le citer.

La deuxième raison pour laquelle il faut considérer les prépublications comme des publications est plus théorique. Comme je l’ai écrit plus haut, print ne signifie pas juste « publication » mais publication par un éditeur. La nuance est importante, parce qu’elle souligne qu’il y a plusieurs types de publications possibles.

L’édition est un processus de médiation qui remplit trois fonctions : choix et production, légitimation, diffusionEpron et Vitali-Rosati, L’édition à l’ère numérique, 2018, p. 5‑6.
. À bien y regarder, la mise en ligne d’un preprint sur arXiv ou HAL met en jeu des fonctions similaires. Il y a une sélection à l’entrée (les dépôts sont modérés) ; la plateforme n’intervient pas dans la production du document mais en revanche elle produit des métadonnées (notamment les identifiants des dépôts). Les travaux sont indéniablement légitimés par le processus ; ils vont attirer l’attention des pairs, voire susciter des formes d’évaluation publique. Et l’expression « serveurs de préprints » traduit bien la fonction de stockage et de diffusion prise en charge par ce type de plateforme. On peut donc bien parler d’un processus éditorial, et de publications.

Ceci étant posé, il faut reconnaître que les prépublications ne sont pas des publications comme les autres. C’est ici qu’intervient la notion de version.

Les prépublications sont des versions

D’abord, si on peut parler des preprints et postprints comme de versions d’un travail de recherche, c’est précisément parce que ce sont des publications : en effet, dans le contexte de l’édition, c’est l’acte de publication qui fixe ce qu’est une versionFauchié, « Version : concept », 2020.
.

Ensuite, et pour reprendre les termes du modèle IFLA-LRM, étant donné que chaque version implique potentiellement « un degré significatif de recherche intellectuelle particulièreIFLA LRM : un modèle conceptuel pour l’information bibliographique, 2021, p. 23.
 », il me semble qu’une version est plus qu’une nouvelle expression de la même œuvre ‌(work) et constitue plutôt une œuvre à part entière. Ce sont toutefois des œuvres particulières, définies par le fait qu’elles entretiennent des relations généalogiques à d’autres œuvres.

La plupart des plateformes d’archivage intègrent des fonctionnalités qui permettent de gérer cette dimension généalogique des publications – autrement dit, de faire du « versionnageTraduction consacrée de l’anglicisme versioning. Source : Wiktionnaire.
 ». C’est le cas pour arXiv et pour HAL par exemple. Leur fonctionnement est d’ailleurs identique : elles attribuent un identifiant à l’œuvre et un identifiant par version ; un lien basé sur l’identifiant d’une œuvre pointe automatiquement vers la version la plus récente.

Exemple d’identifiants sur arXiv et HAL pour deux dépôts.
Identifiant de l’œuvre Identifiant de la v1 Identifiant de la v2
hal-02358067 hal-02358067v1 hal-02358067v2
arXiv:1707.04393 arXiv:1707.04393v1 arXiv:1707.04393v2

Côté interface, chaque plateforme permet de naviguer dans les versions successives. Il est même possible de lier deux dépôts de types différentsVoir « Comment lier plusieurs dépôts » dans la documentation de HAL.
, par exemple une communication dans un congrès et un article de revue, en indiquant que la première est une version antérieure du second. Qui a dit « Web sémantique » ?


Rien n’oblige à versionner ses publications. En revanche, à partir du moment où on adopte la pratique des preprints et postprints, on doit assumer leur statut de publication, et intégrer la logique des versions comme forme de publication spécifique. Mais réciproquement, du côté des plateformes et des institutions, il faudrait peut-être parler un peu moins d’auto-archivage et dire plus explicitement qu’un dépôt est un processus éditorial. Étant donné la complexité croissante de l’édition scientifiqueJe me suis un peu amusé dans ce billet avec tous les « pré-ceci » et « post-cela » mais c’est plutôt simple comparé aux différents types d’open access
, tout ce qui peut contribuer à plus de clarté est bon à prendre.

Références

Epron, Benoît et Vitali-Rosati, Marcello. L’édition à l’ère numérique. La Découverte, 2018. Collection Repères. 978-2-7071-9935-5.
Fauchié, Antoine. « Version : concept ». Dans : quaternum.net. 2020. https://www.quaternum.net/2020/01/09/version-concept/.
IFLA, Functional Requirements for Bibliographic Records (FRBR) Review Group. IFLA LRM : un modèle conceptuel pour l’information bibliographique. International Federation of Library Associations, 2021. https://repository.ifla.org/handle/123456789/1703.