Regioplan
Grootschalig crawlen: bestuursdocumenten in het onderwijs
In het onderwijs liggen waardevolle bestuurlijke gegevens verspreid over honderden websites. Voor Regioplan ontwikkelden we een manier om deze informatie snel en zorgvuldig te verzamelen.
De uitdaging
Van handmatig zoekwerk naar grootschalig crawlen
In het onderwijs ligt veel belangrijke bestuurlijke informatie vast in managementstatuten. Voor een onderzoek wilde Regioplan nagaan of circa 1000 scholen hun managementstatuut op hun website hebben staan. Wanneer zo’n document beschikbaar is, moet het worden gedownload voor verdere analyse. Handmatig elke schoolwebsite doorzoeken en documenten downloaden zou echter enorm tijdrovend zijn en het risico vergroten dat bepaalde websites of bestanden over het hoofd worden gezien.
De oplossing
Slimme crawler voor grootschalig documentonderzoek
We ontwikkelden een gespecialiseerde crawler op basis van een open-source oplossing, die we uitgebreid hebben met maatwerkfunctionaliteiten om optimaal te werken met de uiteenlopende structuren van scholenwebsites.
- De crawler kan op grote schaal bestanden opsporen en downloaden op basis van specifieke kenmerken, zoals bestandsnamen of trefwoorden (bijvoorbeeld “managementstatuut”).
- Op basis van een lijst met bijna 1000 URL’s heeft de crawler de managementstatuten automatisch opgespoord en, waar beschikbaar, gedownload.
- Elk gevonden document is volledig herleidbaar naar de bron, waardoor exact duidelijk is op welke website het is gevonden.
Alle voordelen op een rij
Efficiënt en nauwkeurig bestuursinformatie crawlen
De crawler maakt het mogelijk om op grote schaal en met hoge nauwkeurigheid documenten van scholenwebsites te verzamelen. Door het proces te automatiseren, wordt het handmatige zoekwerk vervangen door een snelle, herhaalbare aanpak, waarbij geen school of document over het hoofd wordt gezien.
- Tijdbesparing en efficiëntie: De crawler neemt het arbeidsintensieve handwerk volledig uit handen door automatisch honderden scholenwebsites te doorzoeken en relevante documenten te downloaden. Dit bespaart onderzoekers veel tijd en energie.
- Hoge nauwkeurigheid: Doordat elke URL systematisch wordt verwerkt en elk document herleidbaar is tot de bron, wordt de kans geminimaliseerd dat scholen of documenten onopgemerkt blijven.
- Flexibel en uitbreidbaar: De oplossing kan eenvoudig worden aangepast om andere soorten documenten of informatie op openbare websites te vinden en te analyseren, ook buiten het onderwijs.
- Krachtige basis door open source: De crawler is gebouwd op een robuuste open-source basis, die we hebben uitgebreid en verfijnd voor de specifieke uitdagingen van dit project. Dat maakt het zowel betrouwbaar als kostenefficiënt, zonder in te leveren op maatwerk.
- Betrouwbare onderzoeksresultaten: Hoewel de crawler zeer precies werkt, is er altijd ruimte voor menselijke controle. Regioplan controleerde daarom steekproefsgewijs de resultaten om de kwaliteit van de dataset te waarborgen.