sian:2022:oai_pmh

TP découverte de l'API OAI-PMH

OAI-PMH est un protocole d'interrogation de données documentaires. Il permet l'interrogation d'un entrepôt via une API WEB. Il y a plusieurs interrogations possibles (les verb)

  • ListSets pour obtenir la liste des ensembles de documents
  • ListRecords pour obtenir les métadonnées de documents

Voir des explication détaillées ici la description ici ou à la BFN

Le résultat d'une intérrogation est sous la forme de XML. Le forma de description des document peut parfois être choisi, les plus utilisés sont lom (le plus complet) ou oai_dc ou Dublin Core (le plus courant).

Vous allez testez l'api de openedition ici

  • Suivez les liens Lister les enregistrements et Lister les sets. En regardant l'URL, comment choisit-on ce qui est demandé ?
  • Combien y a-t-il d'enregistrements ? Comment faire pour avoir les suivant ? Faites la requête pour avoir la seconde page.
  • Listez les enregistrements du premier journal présenté dans les sets.

Il est possible de lire directement les résultats du dépots OAI_PMH mais cela suppose de traiter le XML ce qui n'est pas simple. C'est pourquoi, nous allons utiliser la librairie sickle qui permet l'interrogation et le traitement des données Dublin Core

  • Installez la librairie via pip
  • Utilisez la librairie pour afficher les titres des 20 premiers documents du dépôt.
  • Interrogez openedition pour avoir la liste des documents de cette année. Combien y en a-t-il ?

Vous devez faire un script python qui récupère tous les articles de la revue XVII-XVIII “revue de la société d’études anglo-américaines des XVIIe et XVIIIe siècles”. Qui compte le nombre d'article par an et le nombre d'article en accès ouvert.

Pour vous aider:

  • les dates de parution peuvent se lire dans le champ datestamp de l'entête,
  • l'accès de l'article est dans le champs dc:rights des métadonnées.
  • sian/2022/oai_pmh.txt
  • Dernière modification : 2022/11/24 10:19
  • de fabien.rico