Fusion de notices CDI

Introduction

Le contenu du Central Discovery Index (CDI) provient de différentes source, fournies par des éditeurs, d’agrégateurs de contenu, d’archives ouvertes, etc. Au total, Ex Libris intègre des contenus provenant de plus de 2 000 sources. Il arrive ainsi souvent qu’il existe plus d’une notice pour une référence donnée, un article scientifique pouvant ainsi être référencé dans plusieurs sources). L’affichage distinct de toutes ces notices peut s’avérer déroutant pour les utilisateurs.

En outre, il y a aussi la volonté de présenter à l’usager les métadonnées les plus détaillées et les plus complètes et de la meilleure qualité possible. Aussi, afin d’exploiter autant que possible les métadonnées disponibles, tout en veillant à minimiser les doublons et l’ambiguïté des résultats, Ex Libris utilise un processus appelé Match & Merge.

Match & Merge est essentiellement un ensemble de critères qui contrôlent quelles notices (« notices réelles », notices telles que fournies par les fournisseurs) peuvent ou ne peuvent pas être combinées en notices composites que l’on pourrait appeler « notices logiques ». Dans ces notices logiques, les métadonnées disponibles à partir des notices réelles à disposition sont synthétisées de telle sorte qu’une seule notice enrichie et plus complète peut être présentée à l’utilisateur.

Illustration du regroupement de notices réelles, avec des métadonnées différentes, vers une notice logique enrichie

Règles de fusion

Le processus de Match & Merge se base sur différents types d’identifiants : si deux ou plusieurs notices partagent le même identifiant, elles peuvent être fusionnées (dédoublonnées) à condition qu’elles satisfassent à d’autres critères (en fonction de la nature de l’identifiant). Si la plupart des types de contenu sont susceptibles d’être traités par le Match & Merge, certains types en sont exclus dans certains cas et d’autres totalement exclus (voir la section « Filtres » ci-dessous).

Scénarios

Dans les exemples ci-dessous, l’expression « correspondance de titre floue » (fuzzy title match) est une comparaison des champs combinés DocumentTitle et DocumentSubtitle de deux notices, sans tenir compte de la casse, des espaces, de la ponctuation, des signes diacritiques et d’autres caractères spéciaux.

Identifiants externes :

  • DOI – nécessite en plus une correspondance de titre floue ; ne s’applique pas au type Journal
  • PMID – nécessite en plus une correspondance de titre floue ; ne s’applique pas au type Journal
  • ISBN / EISBN – nécessite en plus une correspondance de titre floue ; les années de publication doivent être espacées de moins d’un an
  • ISSN / EISSNPublicationPlace ou année de publication doit également correspondre ; s’applique uniquement au type Journal
  • LCCN – pour le type Journal, PublicationPlace ou l’année de publication doivent également correspondre ; pour les types Book, Dissertation et Government Document, une correspondance approximative du titre est requise et l’année de publication doit également correspondre
  • OCLC – mêmes règles que pour le LCCN

Identifiants internes :

Les notices avec un ISSN, EISSN, ISBN ou EISBN se voient attribuer un autre identifiant, interne à Ex Libris, qui correspond au titre concerné. Le processus Match & Merge se réalise sur base de cet identifiant dans différentes circonstances. Pour les notices de niveau supérieur (titel-level, publication-level), le processus se passe différemment :

  • Niveau Titre/Publication : s’applique aux types Newspaper, Magazine, Journal et Book. Nécessite uniquement la correspondance des identifiants au niveau du titre.
  • Niveau Article : s’applique aux types Journal Article, Magazine Article, Newspaper Article, Trade Publication, Book Review et Conference Proceeding. En plus de l’identifiant au niveau du titre, le DocumentTitle, l’année de publication, le volume, le numéro et la page de début doivent tous correspondre.

Autres scénarios

  • Les notices relatives à un document de type Reference (entrées d’encyclopédies…) peuvent être fusionnées sur base uniquement d’une correspondance de titre floue
  • Les notices de type Dissertation peuvent être fusionnées uniquement sur base d’une URI (lien direct) dans les métadonnées

Filtres

Les filtres fonctionnent essentiellement à l’inverse des règles : ils déterminent les circonstances dans lesquelles les notices ne peuvent pas être fusionnées. Dans les cas où règles et filtres peuvent potentiellement être appliqués, les filtres ont la préséance sur les règles.

Métadonnées non concordantes

Si l’un des éléments suivants ne correspond pas, les notices ne fusionneront pas :

  • DOI
  • PMID
  • URI (si les notices proviennent du même jeu de contenu, du même fournisseur)
  • Langue (peut être affectée par les spécifications de langue dans les métadonnées source de la notice ou par la langue des métadonnées de la notice détectée par le système)

Types de notices CDI exclues

  • Archival Material
  • Image
  • Microform
  • Music Recording
  • Patent
  • Report
  • Technical Report
  • Standard
  • Video Recording

Autres filtres

  • Les notices identifiées comme provenant d’une archive ouverte ne seront jamais fusionnées.
  • Les notices de type Newspaper Article avec une date de publication antérieure au 1er janvier 2000 ne seront jamais fusionnées.
  • Indicateur d’exclusion : Ex Libris peut marquer des notices spécifiques afin de les exclure du processus Match & Merge. Cela se fait généralement à la demande expresse du fournisseur de contenu ou d’une bibliothèque cliente.
  • « Mauvais candidats » : Ex Libris maintient en parallèle une liste interne de titres particulièrement courts et génériques qu’ils ne souhaitent pas fusionner en raison de la forte probabilité d’erreur qu’une fusion engendrerait.
  • Surreprésentation : Toute notice ayant un titre qui apparaît dans plus de 4000 notices dans CDI ne sera pas fusionnée.

Fusion par alignement

Une « fusion par alignement » (transitive merge) est un scénario dans lequel trois notices ou plus sont fusionnées et où au moins deux des notices ne pourraient pas fusionner de leur côté. Par exemple, dans le diagramme ci-dessous, la notice A peut fusionner avec la notice B et la notice B peut fusionner avec la notice C, mais la notice A ne serait par contre pas en mesure de fusionner avec la notice C. Grâce aux points communs que les notices A et C partagent avec la notice B, les trois notices réelles peuvent être fusionnées dans une même notice logique.

CDI_TransitiveMerge.png
Illustration de la fusion par alignement

Dernières remarques

  • Les notices des source locales (Alma, ORBi, MatheO, DONum…) ne peuvent pas fusionner avec des notices CDI.
  • Le processus Match & Merge est neutre et ne favorise aucun fournisseur de données (vendor-neutral).
  • Des notices de type différent (ex. Journal Article et Conference Proceeding) peuvent être fusionnées si cela ne rentre pas en conflit avec les filtres applicables.

Source : Match and Merge in CDI