Classement des résultats par pertinence (Relevance Ranking)

Le classement par pertinence (Relevance Ranking) s’applique lors de toute recherche sur l’ensemble des collections (blended) incluant les références issues du Central Discovery Index (CDI) et les références issues des sources locales (Alma et sources moissonnées par Primo VE).

Les résultats de recherche sont classés selon l’algorithme de classement par pertinence (relevance ranking) propre à chacun des index, CDI et local, puis mélangés (blended) pour proposer à l’utilisateur le résultat de recherche final.

Classement par pertinence dans CDI

Le classement par pertinence des résultats de recherche dans CDI repose sur deux types de classement :

  • un classement dynamique
    • basé sur un ensemble de facteurs représentatifs de la façon dont la requête rencontre chaque notice dans l’index
  • un classement statique
    • basé sur des facteurs représentatifs de la valeur, ou importance, de chaque notice

Classement dynamique

  • Importance du champ : un score est généré lorsque le terme de recherche rencontre un champ spécifique dans la notice
    • les champs titre, sous-titre et sujets sont les champs les mieux classés
    • viennent ensuite les champs auteur et résumé, puis les autres champs de métadonnées
  • Importance du terme recherché
    • un terme plus rare a plus de poids qu’un terme courant
  • Fréquence du terme et longueur du champ dans lequel le terme apparaît
    • si le terme recherché apparaît 5 fois dans un abstract, cela fait plus de poids que le même terme qui n’apparaît qu’1 fois dans un abstract de même longueur
  • Importance de la correspondance mot à mot (verbatim)
    • si le terme recherché rencontre sa correspondance exact dans l’index, le classement est meilleur que si les résultats proviennent d’autres fonctionnalités de recherche comme la recherche de synonymes ou la racinisation
  • Boost pour les requêtes de type phrase et proximité des termes
    • lorsqu’une requête qui contient plusieurs mots est formulée sans l’usage des guillemets  » « , la phrase, par exemple deux termes juxtaposés, a plus de poids que la proximité, c’est-à-dire les mêmes termes séparés par troisième terme ; les termes en proximité ont eux-mêmes plus de poids que s’ils apparaissent dans des champs différents.
  • Boost sur le titre exact ou l’ensemble titre + sous-titre
    • facilite aussi le boost dans le cas d’une requête known item
  • Boost d’une requête known item, ou quand l’utilisateur sait ce qu’il cherche
    • par exemple, la requête est constituée d’un auteur et d’un titre, à l’inverse d’une requête thématique générale (broad-topic search).

Classement statique

Le classement statique est tout à fait indépendant de la requête. Il est par contre directement lié à chaque ressource.

Les facteurs sont les suivants :

  • le type de ressource
    • par exemple, les livres ont plus de valeur que les chapitres de livres
  • la date de publication de la ressource
    • les ressources les plus récentes sont mieux classées que les ressources plus anciennes
  • les facteurs liés à l’importance académique de la ressource
    • caractère académique et peer-reviewing
    • nombre de citations
    • classement de la revue dans les classements académiques
  • auteurs anonymes
    • les ressources dont l’auteur est anonyme sont écartées

Le score de chaque notice est calculé en combinant les différents facteurs

Combinaison du classement dynamique et du classement statique

La combinaison des deux scores permet de déterminer le score de pertinence de chaque notice par rapport à la requête effectuée.

La classement des résultats de recherche est ensuite fixé par le score de pertinence final de chaque notice dans le jeu de résultats.

Mettre en avant les notices des sources locales

Si les clients n’ont pas la main sur les facteurs de pertinence calculés dans CDI ni sur le classement final des résultats, ils peuvent néanmoins pousser dans le jeu de résultats leurs sources locales et influer sur leur ordre.

Nous n’avons pas modifié la configuration proposée par Ex Libris, ce qui n’est pas conseillé au risque de perturber le fonctionnement correct du classement par pertinence.
La configuration prend en compte les zones Primo VE suivantes :

  • title
  • creator
  • subject
  • TOC
  • isbn
  • language
  • additional title

(Pour le détail des zones Marc21 et Dublin Core concernées, voir la section « Search » du Mapping to the Display, Facets, and Search sections in the Primo VE record.)

Satisfaire l’expérience de recherche

L’algorithme de classement par pertinence de CDI est conçu pour que l’utilisateur obtienne des résultats satisfaisant, lorsqu’il sait ce qu’il cherche (known item search) et lorsqu’il effectue d’autres types de recherches (par thème, par sujet, par nom propre simple…(broad-topic search)).

En outre, tous les types d’utilisateurs sont pris en compte. Par exemple, un utilisateur novice aura tendance à effectuer des recherches simples, formulées les plus courtes possibles en un terme ou concept : le résultat mettra en avant plus de références de type « livre », « périodique »… alors qu’un utilisateur qui introduit des requêtes plus longues mais plus précises et plus ciblées ramènera dans son jeu de résultats plus d’articles.

Remarque : le principe de classement par pertinence est commun à tous les clients CDI, et n’est pas personnalisable par chaque institution. Les administrateurs Primo ne peuvent donc pas modifier au cas par cas l’ordre des résultats d’une recherche si celui-ci ne convient pas à un utilisateur.


Pour en savoir plus :