Dédoublonnement et FRBR

L’ensemble des sources locales (Alma + répertoires externes moissonnés) est soumis aux processus de dédoublonnement et de frbrisation.

Cela signifie qu’une notice ORBi peut être dédoublonnée ou frbrisée avec une notice Alma dans un résultat de recherche ou que plusieurs notices issues de répertoires institutionnels différents, moissonnés séparément, peuvent être regroupées dans un même groupe FRBR. Par contre, une notice provenant de Primo Central Index (PCI) ne peut (toujours) pas être dédoublonnée ou frbrisée avec une notice d’une source locale (Alma ou un répertoire externe moissonné).

Par exemple, le groupe FRBR illustré ici comprend 2 notices provenant des archives ouvertes de Gand et de la KU Leuven :

Et le groupe FRBR suivant montre la frbrisation d’une notice issue d’ORBi avec des notices décrivant les documents physiques dans Alma :

Empêcher le dédoublonnement ou le dédoublonnement et la frbrisation

Il est possible d’exclure de l’un et/ou l’autre de ces processus certains ensembles de données. Sont actuellement exclus :

  • les notices du fonds patrimonial (présence de la zone 940 ou 941)
    • mais avec des notices plus complètes, la frbrisation devrait pouvoir être appliquée en partie.
  • les notices des sets DONum moissonnés
  • les notices des documents cartographiques (Dedup exclu uniquement)

Détection des doublons et vecteurs FRBR

Les membres potentiels d’un groupe Dedup ou FRBR sont calculés durant l’indexation.

Le système identifie d’abord les doublons, puis les groupes FRBR.

Le groupe lui-même est créé dynamiquement au moment de la requête. Cela signifie qu’il n’y a pas de notice de type ‘dedupmrg’ créée dans la base de données.

Dans les résultats de recherche, les notices marquées comme ‘doubles’ sont affichées sous une notice unique. Les métadonnées affichées sont celle de la première notice dans la base qui rencontre le mieux les termes de la requête. De même, les notices qui partagent le même ID FRBR sont regroupées au moment où s’affiche le résultat de recherche.

La notice PNX de Primo VE ne contient pas de sections « Dedup » ni « FRBR ». Les utilisateurs professionnels ne sont donc pas en mesure d’identifier facilement les problèmes de dédoublonnement/frbrisation. En outre, l’outil de recherche de correspondance / comparaison de notices est réservé aux administrateurs du Discovery.

DEDUP

Chaque notice se voit attribuer les vecteurs qui vont permettre à l’algorithme de détection de doublon de fonctionner. Les vecteurs comprennent une ou plusieurs clés qui identifient la notice. Les clés sont basées sur les métadonnées de la notice.

Le calcul est basé sur le matching entre clés uniquement, et non plus sur un nombre de points comme dans un Primo via une interface administrative propre.

Dans l’exemple ci-dessous, l’association des clés sur l’ISSN en 022 et l’ISSN en 776 (F3) et sur le titre court en 245 $a (F8) => (match F3+F8) permet le matching : les 2 notices apparaissent donc dédoublonnées.

DEDUP pour MMS ID 9919283100402321 (electronic) et MMS ID 990000877900502321 (print)

Le dédoublonnement peut se faire sur base d’autres critères que les identifiants ISSN et ISBN : par exemple ISBN/Titre court/Date, pour les ‘non-périodiques’ ; ou Titre complet/Vedette principale/Date/Pagination. Il suffit qu’une clé de correspondance soit trouvée pour que les notices soient dédoublonnées.

Dans ce second exemple, les notices ne sont pas dédoublonnées :

MMS ID 990015565600502321 (print) et MMS ID 9919290042302321 (electronic)
Pas de matching car le 245 a contient « BMJ » dans la notice de la ressource en ligne.

FRBR

Les zones des notices bibliographiques sont mappées dans Primo VE comme clés pour la FRBRisation. Les clés K1, K2 et K3 sont construites à partir de zones Auteur (100, 110, 700…), Titre uniforme (130) et Titres (240, 245, 246, 740…).

MMS ID 9919523686202321 (electronic) et MMS ID 9919522362102321 (print)
K3 = 240, 245 ou 740

Ici, le groupe FRBR contient 2 notices d’e-journaux dédoublonnées et 1 notice de version papier.

MMS ID 99954926939709,9919287621202321 (electronic) et MMS ID 990015504110502321

Le regroupement FRBR s’opère sur les clés K1 et K3 (auteur et titre), mais dans ce cas, on souhaiterait voir les notices des deux versions print et electronic dédoublonnées plutôt que frbrisées.

L’outil de test pour le dédoublonnement nous montre ceci pour la comparaison entre la notice print et une des deux versions de la ressource électronique :

ce qui indique que les notices devraient en effet apparaître comme dédoublonnées dans la base de données. Ceci peut survenir lorsqu’une modification est effectuée dans une notice mais que la notice n’est pas réindexée ou lorsqu’une des notices appartient déjà à un autre groupe.

Ici, la comparaison entre la notice du print et la deuxième notice électronique est nulle : il n’y a pas de correspondance. Et c’est cela qui explique que les notices print/electronic n’apparaissent pas dédoublonnées au final.

Des adaptations à nos notices Marc21 sont nécessaires dans de nombreux cas où des notices ne sont pas dédoublonnées dans Primo : par exemple, si une notice d’e-ressource dans la CZ Alma contient bien une zone 776 permettant de faire le lien avec la version imprimée, il est possible que le titre propre soit différent. Il revient alors au catalogueur de réviser la notice dans la zone Institution pour commencer, dans la CZ s’il y constate un traitement bibliographique incorrect.

Pour favoriser les regroupements FRBR, le contrôle des points d’accès et l’utilisation de la zone 240, en fonction des consignes, sont préconisés.

Pour le détail des processus DEDUP et FRBR, voir sur le Knowledge Center d’Ex Libris le document Understanding the Dedup and FRBR Processes (Primo VE)