Web sémantique et modèle de données

Informations sur la dernière version des données en RDF


Sommaire :

Le web sémantique dans le projet data.bnf.fr


Le projet data.bnf.fr s'inscrit dans une démarche d'ouverture des données sur le web, y compris hors de la communauté des bibliothèques.

Afin d’encourager la réutilisation des données brutes, cette ouverture a deux aspects :

  • technique : respect des standards du web sémantique et ouverture sur le web de données définis par le W3C : linked data.
  • juridique : les données sont placées sous Licence ouverte de l’État autorisant la réutilisation libre, y compris commerciale, avec mention de la source.

Les outils du web de données répondent à des problèmes anciens des bibliothèques, en particulier autour de la gestion de formats divers et de l’échange de données.
Ils offrent une présence nouvelle de ces ressources sur le web en les rendant plus facilement accessibles et réutilisables et en les liant à des ressources complémentaires.

Le projet data.bnf.fr utilise des données produites dans des formats divers, notamment Intermarc pour les catalogues de livres, XML-EAD pour les inventaires d'archives, et Dublin Core pour la bibliothèque numérique.
Ces données sont modélisées, et regroupées par des traitements automatiques et publiées selon les standards du web sémantique.

logo Stanford

Data.bnf.fr et Gallica ont reçu le Stanford Prize for Innovation in Research Libraries (SPIRL). Voir le rapport complet.

En savoir plus sur data.bnf.fr.

La Bibliothèque nationale de France fournit

  • Une exposition RDF en pour les données de data.bnf.fr, disponible pour chaque page (par négociation de contenu) et pour toute la base.

Le logiciel utilisé : CubicWeb


CubicWeb est une plateforme open source de développement d'applications web sémantique, publiée sous la licence LGPL.
logo cubicweb

CubicWeb est lauréat du concours Dataconnexions 2013, organisé par Etalab, la mission sous l’autorité du premier ministre pour l’ouverture des données publiques.

Récupérer les données de data.bnf.fr


Les données sont disponibles sur ce site, selon plusieurs syntaxes de RDF (Resource description framework), soit RDF-XML, RDF-N3, et RDF-NT, ainsi qu’en JSON.

Vous pouvez les récupérer et les interroger :

  • en cliquant sur l'icône "RDF" en bas des pages ;
  • en ajoutant un des suffixes suivants à l'URL : /rdf.xml, /rdf.nt, /rdf.n3, /json selon le format souhaité, par exemple : http://data.bnf.fr/11928016/jules_verne/rdf.xml/.
  • par négociation de contenu en utilisant un navigateur RDF à partir des URL.

Un dump de l'intégralité des données RDF est également disponible sur notre serveur FTP : hôte : echanges.bnf.fr, port : 21
login : databnf, mot de passe : databnf
et via HTTP: dump rdf complet (rdf/xml)

Des dumps par types de données sont également disponibles :

La licence d'utilisation de ces données est disponible ici.

Dernière mise à jour : avril 2015

Liens vers des sites et répertoires externes

Les données de data.bnf.fr sont liées (alignées) aux pages équivalentes dans d’autres répertoires de données.

Les sujets RAMEAU sont alignés avec :

Un alignement a été réalisé entre le référentiel RAMEAU et les principaux domaines de la classification Dewey (http://dewey.info).

Les données sur les auteurs sont aussi liées à :

  • VIAF, Virtual International Authority File
  • les numéros identifiants International Standard Name Identifiers (ISNI). L’ISNI est un code international normalisé servant à identifier de manière univoque, sur le long terme et à l’échelle internationale, les personnes et les organismes. Actuellement vous retrouverez les numéros ISNI depuis les dumps et les pages auteurs de data.bnf.fr.
  • IdRef, référentiel des auteurs des bibliothèques de l’enseignement supérieur, réalisé par l’ABES.
  • DBpedia et Wikipedia

URI et identifiants ARK

La BnF identifie les descriptions bibliographiques et les notices d’autorité ainsi que les documents numériques avec des identifiants ARK.

Les notices géographiques sont alignées avec les référentiels RAMEAU de la BnF, Geonames et le référentiel INSEE.

L'identifiant ARK (Archival Resource Key) est construit de la façon suivante (exemple sur une notice du catalogue général):

L’identifiant de la notice est aussi utilisé pour lier les différentes notices du catalogue général et éventuellement les différentes bases de la BnF entre elles.
Exemple :
La notice http://catalogue.bnf.fr/ark:/12148/cb30625225, est liée à la notice de Victor Hugo
100 $311907966 $w.0..b.....$aHugo$mVictor$d1802-1885$40070

Dans data.bnf.fr, les URI des unités documentaires sont établis à partir de l’identifiant ARK des notices d’autorité du catalogue général. Ils identifient les concepts décrits dans la classe skos:Concept de notre modèle.

Exemple :
la notice d'autorité de Victor Hugo dans le catalogue général http://catalogue.bnf.fr/ark:/12148/cb11907966z et le "concept" de Victor Hugo dans data.bnf.fr http://data.bnf.fr/ark:/12148/cb11907966z sont construits sur le même identifiant ark.
Ce sont des identifiants pérennes, utilisables au sein d'une URI HTTP actionnable, qui permettent la publication des unités documentaires de data.bnf.fr sur le web sémantique.

La négociation de contenu

Afin de faciliter l’indexation des pages par les moteurs de recherche, les URL comprennent des libellés explicites.
L’URL des pages œuvre, auteur, thème est formée suivant le principe : http://data.bnf.fr/ID/libellé

Exemple : http://data.bnf.fr/11907966/victor_hugo/

Un mécanisme de redirection HTTP depuis les identifiants simples et les identifiants ARK vers les URL a été mis en place :


http://data.bnf.fr/ark:/12148/cb11907966z redirige via HTTP 303 vers http://data.bnf.fr/11907966/victor_hugo/
http://data.bnf.fr/11907966 redirige via HTTP 303 vers http://data.bnf.fr/11907966/victor_hugo/
http://data.bnf.fr/11907966/victor_hugo redirige via HTTP 301 vers http://data.bnf.fr/11907966/victor_hugo/

Le système de négociation de contenu est le suivant : http://data.bnf.fr/11907966/victor_hugo/ retourne une représentation du document générique qui est fonction de la négociation de contenu et donc des en-têtes de la requête HTTP. Dans la réponse, l'en-tête « Content-location » est positionné à « data »/ « id-pivot »/description-lisible/ « lang ». « extension-mime »
On peut avoir par exemple :
http://data.bnf.fr/11907966/victor_hugo/fr.html
http://data.bnf.fr/11907966/victor_hugo/en.html
http://data.bnf.fr/11907966/victor_hugo/rdf.xml
http://data.bnf.fr/11907966/victor_hugo/rdf.n3
http://data.bnf.fr/11907966/victor_hugo/fr.pdf
http://data.bnf.fr/11907966/victor_hugo/en.pdf >
Il n'y a pas de langue pour les fichiers RDF.

Modèle de données RDF


Le schéma ci-dessous présente l'organisation générale des données dans data.bnf.fr. Consulter le schéma simple du modèle de données

Consultez aussi le modèle des pages de lieux

Ce modèle est fondé sur le modèle FRBR (Functional requirements for Bibliographic Records) élaboré par l’IFLA. Ce modèle comprend trois groupes d'entités liées par des relations : les informations sur les documents, les personnes physiques ou morales, et les sujets ou thèmes.

Le modèle FRBR dans data.bnf.fr

  • Les pages « œuvres »

Le premier groupe du modèle FRBR décrit les différents aspects d’une production intellectuelle ou artistique, à travers 4 niveaux : l’œuvre, l’expression, la manifestation et l’item.
Le niveau de l'œuvre est celui de la création intellectuelle ou artistique. Exemple : Le colonel Chabert d'Honoré de Balzac. Les pages « œuvres » de data.bnf.fr sont créées à partir des notices d'autorité correspondantes de la BnF : http://catalogue.bnf.fr/ark:/12148/cb12006825f
Le niveau de l’expression est caractérisé dans data.bnf.fr par la langue (dcterms :language), le type de document (dcterms :type) et les liens de contributions (préfacier, illustrateur, traducteurs…) (dcterms :contributor, marcrel, bnfroles). Exemple : http://data.bnf.fr/ark:/12148/cb313699180#frbr:Expression.
Le niveau de la manifestation est celui de la matérialisation d'une expression. Exemple : une édition des Misérables comme « Nouvelle impression illustrée. 1879-1882. Paris. E. Hugues ». Les manifestations d’une œuvre sont listées dans la page « œuvre » et regroupées dans la section « Vie et éditions de l’œuvre ». Ce niveau correspond à la notice bibliographique dans le catalogue général de la BnF ou, dans le catalogue BnF-Archives et manuscrits, à un niveau de description identifié par une cote.
Le niveau de l'item est celui de l'exemplaire physique. Il est accessible par le lien vers la notice dans le Catalogue général de la BnF ou dans BnF-Archives et manuscrits, ou vers l'exemplaire numérisé dans la bibliothèque numérique Gallica.

Notons que des relations de tout à partie peuvent exister entre une œuvre et une autre œuvre. Par exemple : Le Père Goriot, d'Honoré de Balzac, est contenu dans Les Scènes de la vie privée du même auteur, et tous deux ont le statut d'œuvre et sont dotés d’une page data.bnf fr. ( http://data.bnf.fr/ark:/12148/cb427567440).

  • Les pages « auteurs »

Une personne peut être auteur d'une œuvre (un lien existe alors entre la page « auteur » et la page « œuvre » correspondante) ou contributeur d'une expression (préfacier, traducteur, librettiste...). Cependant, le niveau de l'expression n’étant pas distinct de celui de la manifestation dans les pages html de data.bnf.fr, les contributeurs apparaissent au niveau de la manifestation.
Les différents rôles de création ou de contribution d’une personne font l'objet d'un référentiel dans le format Intermarc adopté par la BnF, ainsi que de la part de la bibliothèque du Congrès .

  • Les pages « thèmes »

Elles sont construites à partir des sujets RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique unifié) de la BnF, converties dans le langage RDF SKOS (Simple Kowledge Organisation). Ce référentiel est maintenu à jour sur data.bnf.fr avec la base de données totale et actualisée de la BnF.
Les manifestations, ayant pour sujet un terme RAMEAU, sont rattachées à la page « Thème » correspondante.
Enfin, vous trouverez aussi des études (œuvres et manifestations) au sujet d'une œuvre ou d'un auteur. Exemple : http://data.bnf.fr/11918316/ovide/studies.

Distinction entre le concept et la ressource décrite

Toutes les entités (sujets, auteurs, œuvres, lieux) sont décrites en tant que notice d’une référentiel d’autorité de bibliothèque, avec la classe : skos :Concept. La description précise alors : la forme préférée, les autres formes, les sources utilisées pour la notice, les termes plus larges, plus précis, les termes associés, les alignements avec d’autres jeux de données, par exemple. Par ailleurs, les auteurs, les œuvres, les lieux sont décrite avec des vocabulaires spécifiques : foaf :Person, foaf :Organization, frbr-rda :Work, wgs84 :SpatialThing.

Le concept et la ressource sont liés par une propriété foaf :focus.
Exemple : 〈http://data.bnf.fr/ark:/12148/cb123194593〉 foaf:focus 〈http://data.bnf.fr/ark:/12148/cb123194593#foaf:Person〉

Ontologies et vocabulaires


La réutilisation de vocabulaires existants a été privilégiée pour favoriser l'interopérabilité, en particulier :

PrefixURI
bibohttp://purl.org/ontology/bibo/
biohttp://vocab.org/bio/0.1/
dchttp://purl.org/dc/elements/1.1/
dcmi-boxhttp://dublincore.org/documents/dcmi-box/
dctermshttp://purl.org/dc/terms/
foafhttp://xmlns.com/foaf/0.1/
frbr-rdahttp://rdvocab.info/uri/schema/FRBRentitiesRDA/
geohttp://www.w3.org/2003/01/geo/wgs84_pos#
geonameshttp://www.geonames.org/ontology#
ignhttp://data.ign.fr/ontology/topo.owl#
inseehttp://rdf.insee.fr/geo/
isnihttp://isni.org/ontology#
marcrelhttp://id.loc.gov/vocabulary/relators/
mohttp://musicontology.com/
orehttp://www.openarchives.org/ore/terms/
owlhttp://www.w3.org/2002/07/owl#
rdagroup1elementshttp://rdvocab.info/Elements/
rdagroup2elementshttp://RDVocab.info/ElementsGr2/
rdarelationshipshttp://rdvocab.info/RDARelationshipsWEMI/
rdfshttp://www.w3.org/2000/01/rdf-schema#
skoshttp://www.w3.org/2004/02/skos/core#

Vocabulaires BnF

Les référentiels spécifiques de la BnF sont déclarés à l’adresse suivante : http://data.bnf.fr/vocabulary : codes de pays, codes de rôles, types de sujets RAMEAU, codes de classement géographique, genres musicaux.

Présentation de l’ontologie BnF : bnf-onto

Pour publier ses ontologies, la BnF a choisi un espace de nommage homogène, de forme http://data.bnf.fr/ontology.

L’ontologie bnf-onto est déclarée à l’adresse suivante : http://data.bnf.fr/ontology/bnf-onto/.

Données embarquées dans le HTML : Schema.org et Opengraph Protocol


Les pages web de data.bnf.fr sont ouvertes sur le web et accessibles directement par les internautes depuis les moteurs de recherche. C'est pourquoi, outre les méthodes traditionnelles d'indexation de la page d'accueil, nous avons choisi d’embarquer deux types de données pour structurer les pages html :

Ce dernier fournit un vocabulaire pour ajouter de l'information au contenu HTML avec un format de microdonnées, favorisant le référencement par les grands moteurs de recherche.

Nous avons utilisé en particulier : http://schema.org/Person, http://schema.org/Organization, http://schema.org/Book,http://schema.org/Place, et http://schema.org/TheaterEvent.

  • Opengraph Protocol (OG) qui permet aux pages d'être représentées dans les réseaux sociaux :

C'est un vocabulaire mis en place pour encoder en RDFa quelques métadonnées qui seront récupérées lorsque l'utilisateur ajoutera la ressource à son profil Facebook.

Conversion MARC et EAD vers RDF


Pour connaître le détail des éléments décrits en RDF dans data.bnf.fr, consultez le tableau de conversion Intermarc/EAD vers RDF

data.bnf.fr s’appuie sur des données bibliographiques structurées et liées pour construire ses pages en particulier :

  • Structure : les zones et sous-zones du format MARC.

Par exemple, la page regroupant tous les documents au sujet d’un auteur ou d’une œuvre, est constituée en retrouvant automatiquement toutes les notices bibliographiques liées en zone 6XX (zone d’indexation sujet) à la notice d’autorité personne ou œuvre.
  • Liens : entre notices bibliographiques ou instruments de recherche et notices d’autorité.

Les liens aux données d’autorité personne et œuvre réalisés dans les descriptions bibliographiques des documents permettent de les regrouper dans des pages auteur ou œuvre de manière fiable.
Exemple : la description de l’édition « l’Alchimiste » (http://catalogue.bnf.fr/ark:/12148/cb31009441) d’Alexandre Dumas est rattaché à la notice d’autorité « Alexandre Dumas » (http://catalogue.bnf.fr/ark:/12148/cb119010630), en zone 100 $3 (Intermarc).
En Intermarc : 100 $311901063 $w.0.2b.....$aDumas$mAlexandre$d1802-1870$40070
  • Codes de fonctions associés à ces liens

Les différentes activités dans les pages auteurs correspondent aux différents types de contributions des auteurs sur des documents (traducteur, préfacier, compositeur…).
Elles sont retrouvées automatiquement grâce aux codes de fonctions associés au lien entre la notice bibliographique et la notice d’autorité titre correspondante.
Ces codes de fonctions sont répertoriés ici : http://data.bnf.fr/vocabulary/roles.
Exemple : Baudelaire est traducteur de « Dix contes d'Edgar Poe » (http://catalogue.bnf.fr/ark:/12148/cb311263053).
La notice bibliographique du document est liée à la notice d’autorité de l’auteur « Charles Baudelaire » avec un code de fonction 0680 qui correspond au rôle de traducteur. Exemple en Intermarc : 700 $311890582 $w 0 b.....$aBaudelaire$mCharles$d1821-1867$40680