Zurück
Zurück zur
Blog-Übersicht
January 30, 2024

Scraping, Data-Mining, Crawling - ist das zulässig?

Scraping, Data-Mining, Crawling - ist das zulässig?

Scraping als Basis für KI-Anwendungen: Rechtlich zulässig?

Anfang des 16. Jahrhundert erreichten spanische Schiffe, angeführt von Hernan Cortes, mexikanisches Festland. Die Eroberer wurden von ihrer Aussicht auf das Gold der einheimischen Azteken angetrieben. Dieses Gold hatte für die Azteken eine tiefgreifende religiöse und kulturelle Bedeutung. Die Eroberer machten sich das Gold zu eigen. Dieser Reichtum bildetet - unter anderem - die Basis für ein florierendes Europa. Das Leid, dass durch die Eroberung bei den einheimischen Völkern verursacht wurde, war beispiellos.

1859 fand Edwin Drake in Titusville, Pennsylvania ergiebige Ölquellen. Erdöl bildet seit jeher die Grundlage für den US-amerikanische Wohlstand. Der Wahlspruch von Donald Trump bringt dies zum Ausdruck: „Drill, baby, drill“. Der Abbau von Erdöl gilt als wesentlicher Faktor für den Klimawandel.

Daten sind ein zentraler Bestandteil der digitalen Wirtschaft und eine wesentliche Ressource für die Sicherung des ökologischenund des digitalen Wandels“, heißt es in der Europäischen Gesetzgebung. Keine Frage, Daten sind das neue Gold bzw Öl. Die Frage die sich nun stellt: Wie hoch ist der Preis, der für das Schürfen dieser Einheit zu zahlen ist

Werden wir eines Tages auf die aktuellen Entwicklungen zurückblicken und einen faireren, ausgewogeneren und nachhaltigeren Umgang der technologischen Grundlage von KI kritisieren - dem Scraping, Text Mining oder Crawling?

Scraping, Web Scraping und Crawling: Hintergrund

Scraping als Abkürzung für Web Scraping oder Screen-Scraping ist eine Funktion, bei der eine Anwendung oder ein Script Daten aus einer zugänglichen Datenquelle ausliest und speichert. Scraping oder Crawling wird, zumindest im Kontext dieses Artikel, dem Text- und Data-Mining gleichgestellt.

Die allermeisten „Systeme der künstlichen Intelligenz“, um in der Diktion der KI-Verordnung zu bleiben, sind auf eine große Anzahl an Daten angewiesen. Somit sind diese Anwendungen auch vom Schürfen von Daten durch Text-Mining abhängig. Diese Technologie bewegt sich in einem Graubereich

Dieser Blog-Serie soll eine rechtliche Übersicht über die aktuelle Rechtslage in Bezug auf Text-Mining geben und zu einem faireren Interessenausgleich bei dessen Einsatz anregen. Einleitend werden die technischen Abläufe der (a) Datenverschaffung via Scraping und (b) das anschließende Training des KI-Systems mit diesen Daten beschrieben. Davon zutrennen ist (c) das Ergebnis, welches mit dem KI-System erstellt wird.

Die anschließende rechtliche Analyse behandelt folgende Implikationen: (I) urheberrechtliche, (II) datenschutzrechtliche, (III) zivilrechtrechtliche, (IV) lauterkeitsrechtliche und schließlich (V) markenschutzrechtliche Fragestellungen. 

Der Beitrag schließt mit einem Fazit.

In der Folge sollen die Begriffe Crawling, Scraping und Text-Mining synonym verwendet werden, sofern nicht ausdrücklich eine Legaldefinition analysiert wird. Es soll jedoch darauf hingewiesen werden, dass diesbezüglich Unterschiede bestehen. Webcrawling ist ein Prozess, bei dem ausgehend von einer Liste von Start-URLs Weblinks ermittelt und abgerufen werden. Webscraping hingegen ist ein Vorgang der automatisierten Verarbeitung eines Webdokuments und der Extraktion von Informationen daraus. Das „Text- und Data-Mining“ wiederum wird in § 42h Abs 6 UrhG als automatisierte Auswertung von Texten und Daten in digitaler Form um Informationen unter anderem über Muster, Trends und Korrelationen zu gewinnen, definiert. Das Text- und Data-Mining folgt daher, wie für Gesetzgeber üblich, weniger einem technik-orientiertem, sondern vielmehr einem zweck-orientiertem Ansatz.

Im nächsten Blog-Beitrag startet die rechtliche Analyse von Crawling.

Zurück
Zurück zur
Blog-Übersicht