Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Fetch stored HTML code from a corpus or a web entity. #446

Open
g-arcas opened this issue Mar 16, 2022 · 2 comments
Open

Fetch stored HTML code from a corpus or a web entity. #446

g-arcas opened this issue Mar 16, 2022 · 2 comments

Comments

@g-arcas
Copy link

g-arcas commented Mar 16, 2022

Bonjour.

Est-il possible (et si oui, comment) d'extraire le code HTML des pages crawlées par Hyphe, que ce soit celui d'une page en particulier, d'une web entity ou, soyons fous, de tout un corpus ?

@Yomguithereal
Copy link
Member

Alors cela dépend de si Hyphe était configuré au début pour conserver le HTML des pages crawlées (par défaut ce n'est pas le cas il me semble pour des raisons de stockage/performance): https://github.com/medialab/hyphe/blob/master/config-backend.env.example#L6

Si cette option est activée, le HTML des pages est stocké gzippé dans la mongodb de Hyphe et il est possible de les extraire facilement avec minet hyphe dump.

Sinon il est toujours possible d'utiliser la même commande minet pour récupérer les urls crawlées, et les retélécharger rapidement avec minet fetch, avec les évidents problèmes méthodologiques que cela comporte vu que les pages ont pu changer depuis le crawl Hyphe.

@g-arcas
Copy link
Author

g-arcas commented Mar 16, 2022

Merci pour la réponse !

Je vais voir si oui ou non Hyphe est configuré pour stocker le code HTML mais de tête je dirais non.
L'option minet me semble parfaite (j'avais envisagé de créer une liste d'URL à passer à wget sinon).

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants