Uruchomienie bloga zostało sfinansowane przez społeczność ❤️
Mecenasem bloga jest Fundacja Zakłady Kórnickie,
wydawca portalu historycznego Hrabia Tytus

Cloudflare pomaga blokować boty - jak wpłynie to na badania internetu?

Cloudflare pomaga blokować boty - jak wpłynie to na badania internetu?

Pisałem już na blogu i na Facebooku o wyzwaniu, jakim dla właścicieli witryn internetowych są masowe odwiedziny crawlerów (botów), gromadzących treści do trenowania modeli AI. Wydawcy i instytucje, które nie godzą się na taki sposób użycia wypracowywanych przez siebie treści, mogą skorzystać z rozwiązań firmy Cloudflare, która udostępnia narzędzia pozwalające blokować taki ruch na stronie.

Jednak z witryn WWW korzystają nie tylko boty AI, ale też crawlery wyszukiwarek, boty Internet Archive, także ten wykorzystywany do archiwizacji linków zewnętrznych w hasłach Wikipedii. Maszynowo korzystają z treści witryn także badaczki i badacze.

Masowe, maszynowe pobranie i przetworzenie tekstu może być podstawą do stworzenia korpusu, analizy sieciowej połączeń w witrynie i poza nią, dokumentacji czy archiwizacji do dalszych analiz. Równocześnie przepisy prawa autorskiego w UE pozwalają instytucjom kultury i instytucjom naukowym na tego typu dostęp do treści witryn, bez względu na zgodę wydawców. W nowelizacji z końca 2024 roku wprowadzono nowy rodzaj dozwolonego użytku - eksplorację tekstów i danych (Text and Data Mining, TDM), pozwalający na

  • zwielokrotnianie utworów, utrwaleń artystycznych wykonań, fonogramów, wideogramów, nadań i przedmiotu prawa pokrewnego wydawców oraz pobieranie baz danych chronionych prawem sui generis,
  • ich przechowywanie (głównie ze względu na późniejszą weryfikację wyników badań naukowych, ale także dla dalszych badań i analiz porównawczych) w zasadzie nieograniczone żadnym terminem.

Tymczasem właśnie teraz Cloudflare ogłasza intensyfikację działań przeciwko botom. W opublikowanej na firmowym blogu notce o znamiennym tytule Declare your AIndependence: block AI bots, scrapers and crawlers with a single click deklaruje, że usługa blokowania botów AI będzie dostępna dla wszystkich użytkowników, nawet tych korzystających z darmowej wersji konta. Wprowadza też system opłat za scrapowanie (pobieranie treści) chronionych przez siebie witryn.

Wydaje się, że walka z botami AI, którą toczą przy wsparciu Cloudflare wydawcy, instytucje i twórcy, może zaszkodzić badaniom internetu. W jaki sposób? Otóż ogłaszając dostęp do mechanizmów blokowania botów AI dla wszystkich użytkowników, zespół Cloudflare przypomniał, że od roku dostępna jest już usługa blokowania dobrych botów, czyli właściwie całego maszynowego ruchu w witrynie. To opcja, ale masowo wybierana przez użytkowników:

W zeszłym roku Cloudflare ogłosiło możliwość łatwego blokowania botów AI, które zachowują się zgodnie z zasadami. Boty te respektują reguły plików robots.txt i nie wykorzystują treści w nieautoryzowany sposób do trenowania swoich modeli ani do prowadzenia wnioskowania (inference) w aplikacjach typu RAG, opierając się na danych ze stron internetowych. Mimo że te boty AI przestrzegają zasad, zdecydowana większość klientów Cloudflare decyduje się je zablokować.

Chciwość i nadużycia branży AI spowodowały, że dostęp maszynowy do treści, który jest przecież standardem w cyfrowej humanistyce czy badaniach Webu, jest intensywnie marginalizowany i postrzegany jako przejaw niepożądanego zachowania. To kolejne utrudnienie dla badań online po - również spowodowanym patologicznymi działaniami firm i polityków - masowym ograniczaniu dostępu do danych platform społecznościowych przez API.

Autor: redakcja

🤗
Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.