Was ist Scraping?
Beim Scraping handelt es sich um das automatische (oder manuelle) Auslesen und Extrahieren von Daten. Es ist auch unter „Screen Scraping“ oder „Web Scraping“ bekannt. Meistens ist dabei das Web Scraping gemeint, denn es wird hauptsächlich zum Auslesen von Websites bzw. deren Inhalte und Daten verwendet.
Wofür wird Scraping verwendet?
Ein Anwendungsfall wäre bei (Preis-)Vergleichsportalen, um die Preise oder Angebote von verschiedenen Websites/Anbietern zu erhalten. Ebenfalls beliebt, ist das Abrufen von Wetterdaten oder Kontaktdaten.
Google nutzt ebenfalls das Scraping um so ihre Suchergebnisse noch besser aufzubereiten und anreichern zu können.
Es kann jedoch auch für Spam-Zwecke missbraucht werden, in dem beispielsweise E-Mail-Adressen automatisiert extrahiert werden, um an diese Adressen Spam-Mails zu schicken.
Probleme von Scraping
Es kommt häufig vor, dass dabei Urheberrechte oder Nutzungsbedingungen der gescrapten Websites missachtet werden.
Gerade bei textlichen Inhalten kann es zu Duplicate Content führen, wenn die extrahierten Texte 1:1 auf einer anderen Website veröffentlicht werden.
Da das Scrapen vor allem automatisch durch Scraper, also Software, geschieht, kann dies auch eine hohe Last auf dem Server der betroffenen Website erzeugen, wenn dabei mehrere Seiten pro Sekunde aufgerufen werden.