Datenqualität
Um den Fortschritt und die Datenqualität des Scrapers zu bestimmen, hier verschiedene Kategorien an denen man die Qualität der Daten zwischen den verschiedenen Runs/Versionen beurteilen kann.
📁 Allgemeine Übersicht
- Anzahl der Einträge insgesamt
- Anzahl einzigartiger URLs
- Anzahl pro Subdomain
- Anzahl pro
type
: html, pdf, ical - Neue vs. entfernte URLs zwischen zwei Runs
🧹 Textqualität
- Durchschnittliche Textlänge (Zeichen oder Wörter)
- Median und maximale Textlänge
- Anzahl leerer oder sehr kurzer Texte (z. B. < 20 Zeichen)
- Duplikate im Textinhalt (gleiche Texte bei verschiedenen URLs)
🏷️ Metadatenqualität
- Anteil der Einträge mit leerem oder fehlendem
title
- Anteil der Einträge mit fehlendem
date_updated
- Anteil der Einträge mit gültigem
date_updated
-Format (ISO 8601)
🔁 Veränderungen im Vergleich
- Mehr oder weniger gefundene Seiten?
- Hat sich die Textlänge verbessert (länger = oft besser)?
- Hat sich die Anzahl erkannter Datumsfelder verbessert?
- Gibt es neue Duplikate oder wurden welche entfernt?
✅ Nutzung
# Einzelnen Run analysieren
python3 compare_scraping_result.py run.json
# Zwei Runs vergleichen
python3 compare_scraping_result.py run1.json run2.json
# Mit Änderungsanzeige (kompakt)
python3 compare_scraping_result.py run1.json run2.json -v
# Mit Änderungsanzeige (detailliert)
python3 compare_scraping_result.py run1.json run2.json -vv