Skip to content

IIMunchII/retsinformation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

73 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scraping og NLP af Retsinformation

Et lille projekt der går ud på Scraping & NLP af retsinformation.dk Det lader til, at retsinformation.dk har et lille API hvor alle dokumenter kan hentes fra.

Introduktion

Der er nu opsat et lille Django projekt med en database og tabel til at lagre retursvaret fra API-et.

  • Scrapy sørger for at kalde API-et asynkront og parser retursvaret på en effektiv måde
  • Django Models integeres med Scrapy Items.
  • Scrapy sørger for at mappe keys fra JSON responset til felter i django models.
  • Django gemmer i sqlite3 databasen.

1 - Opsæt database og Django

Når du står i /retsinformation/retsinfo_app/ (samme folder som manage.py ligger i) Så kør nedenstående.

python manage.py migrate

2 - Kør Crawler

Kig i retsinfo.py

Kør med kommandoen når du står i folderen /retsinfo_scraper/ (der hvor settings.py også er).

/retsinformation/

scrapy crawl retsinfo

3 - Resultatet

Hvis man er interesseret i at se resultatet kan man enten dykke ned i databasen med et selvvalgt interface eller bruge Django's shell.

python manage.py shell

Og dernæst køres

from scrapers.models import RetsinfoDocument
docs = RetsinfoDocument.objects.all()

objektet docsindeholder nu alle de dokumenter der kom ned via API-et da crawleren blev kørt.

About

Scraping & NLP project

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published