Skip to content

Pipeline de préparation des documents à importer dans la collection Medecine\Sciences d'iPubli

Notifications You must be signed in to change notification settings

Inserm-IST/PipelineMS

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

62 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PipelineMS

Pipeline de programmes python visant à une préparation facilitée des documents à importer dans la collection Medecine\Sciences d'iPubli, l'archive ouverte institutionnelle de l'Inserm, gérée par le service de l'Information Scientifique et Technique.

Guide d'utilisation

  1. Récupération des lots fournis par EDP Sciences, éditeur de la revue Medecine\Sciences. Pour chaque magazine, ils contiennent un dossier par article composé d'un PDF de l'article, un XML du texte et des images présentées dans le texte.

Dans Anaconda Prompt (pour un utilisateur Windows):

  1. Navigation dans le bureau: cd Users\[nom]\Desktop\

  2. Téléchargement du dépôt github: git clone https://github.com/Inserm-IST/PipelineMS.git et navigation dedans: cd PipelineMS

  3. Ajout manuel du dossier de lots téléchargés dans le 1 dans le dossier PipelineMS tout juste créé

  4. Lancement du programme MS_automate_XML.py qui nettoie et alimente le XML de chaque article:
    python 1_PrepaXML\MS_automate_XML.py [nom_du_dossier_à_traiter]
    Pour plus d'informations: 1_PrepaXML

  5. Lancement du programme MS_automate_file.py qui organise automatiquement la structure des dossiers (renommage, suppression et création automatique de fichiers):
    python 2_PrepaFichiers\MS_automate_file.py [nom_du_dossier_à_traiter] [Année_du_magazine] [mois_du_magazine]
    Les mois et années doivent être notés en chiffres.
    Pour plus d'informations: 2_PrepaFichiers

  6. Ajout des lots avec le programme d'import

  7. Création du sommaire html du magazine: - Dans la nouvelle page du magazine ajouté, Contexte>exporter les métadonnées et télécharger le csv dans le dossier PipelineMS - Lancement du programme MS_automate_sommaire.py:
    python 3_Sommaire_creation\MS_automate_sommaire.py [nom_du_csv]
    Pour plus d'informations: 3_Sommaire_creation

Crédits

Ce projet a été réalisé par le DISC-IST.

  • Michel Pohl: Directeur adjoint du service de l'Information Scientifique et Technique de l'Inserm
  • Juliette Janes: Responsable informatique du projet
  • Charlotte Iizuka: Responsable éditoriale du projet
  • Anna Marenelly, Julien Bacquart: Soutien informatique

Conditions d'utilisation

68747470733a2f2f692e6372656174697665636f6d6d6f6e732e6f72672f6c2f62792f322e302f38387833312e706e67

Contacts

Pour toute question, contactez l'adresse générique du projet iPubli: [email protected]

About

Pipeline de préparation des documents à importer dans la collection Medecine\Sciences d'iPubli

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published