Skip to content

Datenqualität

Um den Fortschritt und die Datenqualität des Scrapers zu bestimmen, hier verschiedene Kategorien an denen man die Qualität der Daten zwischen den verschiedenen Runs/Versionen beurteilen kann.

📁 Allgemeine Übersicht

  • Anzahl der Einträge insgesamt
  • Anzahl einzigartiger URLs
  • Anzahl pro Subdomain
  • Anzahl pro type: html, pdf, ical
  • Neue vs. entfernte URLs zwischen zwei Runs

🧹 Textqualität

  • Durchschnittliche Textlänge (Zeichen oder Wörter)
  • Median und maximale Textlänge
  • Anzahl leerer oder sehr kurzer Texte (z. B. < 20 Zeichen)
  • Duplikate im Textinhalt (gleiche Texte bei verschiedenen URLs)

🏷️ Metadatenqualität

  • Anteil der Einträge mit leerem oder fehlendem title
  • Anteil der Einträge mit fehlendem date_updated
  • Anteil der Einträge mit gültigem date_updated-Format (ISO 8601)

🔁 Veränderungen im Vergleich

  • Mehr oder weniger gefundene Seiten?
  • Hat sich die Textlänge verbessert (länger = oft besser)?
  • Hat sich die Anzahl erkannter Datumsfelder verbessert?
  • Gibt es neue Duplikate oder wurden welche entfernt?

✅ Nutzung

# Einzelnen Run analysieren
python3 compare_scraping_result.py run.json

# Zwei Runs vergleichen
python3 compare_scraping_result.py run1.json run2.json

# Mit Änderungsanzeige (kompakt)
python3 compare_scraping_result.py run1.json run2.json -v

# Mit Änderungsanzeige (detailliert)
python3 compare_scraping_result.py run1.json run2.json -vv