Zbiory cyfrowe muzeów i bibliotek tylko po zalogowaniu? Podziękujmy botom AI

W kwietniu tego roku GLAM-E Lab zorganizował badanie na temat zagrożeń, jakie dla platform udostępniających zbiory cyfrowe dziedzictwa stanowią boty gromadzące dane do trenowania modeli sztucznej inteligencji.
Think-tank GLAM-E to wspólne przedsięwzięcie Centrum Nauki, Kultury i Prawa Uniwersytetu Exeter oraz Centrum Engelberga, działającego na Wydziale Prawa Uniwersytetu Nowojorskiego (NYU). Jego celem jest wspieranie instytucji kultury w zakresie udostępniania swoich zbiorów w internecie.
Pod koniec 2024 roku zaczęły pojawiać się pojedyncze informacje na temat zwiększonego ruchu w niektórych muzeach, bibliotekach czy repozytoriach cyfrowych - niekiedy przekładał się on na problemy techniczne z utrzymaniem dostępności witryn. Raportowano, że źródłem takiego ruchu są boty (crawlery), które na masową skalę pobierają ogólnodostępne treści z internetu w celu budowania zbiorów treningowych AI.
Ankieta, rozesłana w kwietniu tego roku na grupy dyskusyjne i społeczności online związane z instytucjami GLAM i dziedzictwem cyfrowym, miała pomóc rozpoznać ten problem lepiej. Wymieniano maile, rozmawiano przez Zoom - udało się zebrać 43 odpowiedzi. W 39 z nich potwierdzono obserwację zwiększonego ruchu na witrynie GLAM, z tego aż w 27 jednoznacznie przypisano źródło tego ruchu na boty. Niestety, tylko w nielicznych przypadkach udało się przewidzieć taki sztuczny wzrost ruchu, ponieważ niewiele instytucji monitorowało swoje witryny pod tym kątem.
Oto kilka rozpoznań z ankiety, które pozwolą nam zrozumieć skalę problemu:
- w trakcie zbierania przez boty treści z witryny muzeum czy repozytorium liczba żądań może sięgać nawet miliona dziennie,
- boty masowo ignorują pliki robots.txt, które w teorii mają zarządzać ruchem maszynowym na witrynach,
- boty często nie identyfikują się jako boty, ukrywają tożsamość lub dynamicznie ją zmieniają, symulują prawdziwych użytkowników, przez co bardzo trudno odfiltrować taki ruch (blokady na nazwy
User-Agent
nie mają w takim przypadku sensu), - aby ominąć blokady i filtry stosowanych może być nawet ponad 200 adresów IP podczas jednego ataku,
- udokumentowane zostały ataki na Perseus Digital Library, serwery Wikimediów czy na zasoby Confederation of Open Access Repositories (COAR),
- wiele instytucji utożsamia wzrost ruchu na stronie z większą liczbą odwiedzających, chociaż jego źródłem mogą być boty,
- boty ignorują licencje i inne rozwiązania prawne, stosowane w witrynach udostępniających zbiory kultury i dziedzictwa.
Obrazek w nagłówku (udostępniony przez jednego z respondentów) pokazuje, że odwiedziny botów są nieregularne i - w tym przypadku - w niektórych momentach mogą odpowiadać nawet za połowę ruchu w witrynie.
Jak można się bronić przed takim wyzwaniem? Wciąż - jak czytamy w raporcie - nie obejmuje on wszystkich kolekcji, ale staje się coraz bardziej powszechny.
- boty zazwyczaj nie zachowują się tak samo na stronach jak robią to ludzie - zdecydowanie szybciej przeglądają zasoby, korzystają ze wszystkich możliwych linków, odwiedzają nadspodziewanie często strony mniej istotne dla ludzkich użytkowników (informacyjne, publikujące regulaminy itp.). Skuteczna identyfikacja botów może pozwolić na ich blokowanie,
- można wystawiać zasoby witryny także za pomocą interfejsu programistycznego (API), dzięki czemu osoby (firmy), którym zależy na masowym pobraniu treści, mogą to zrobić w prosty sposób bez blokowania dostępu do witryny dla zwykłych użytkowników (takie rozwiązanie proponuje się w projektach Wikimediów),
- można próbować zgłaszać nadużycia związane z obecnością botów do właścicieli serwerów, na których są hostowane (np. Amazon Web Services),
- można blokować ruch dla wybranych zakresów adresów IP, ich lokalizacji geograficznych, nazw
User Agent
czy domen, - można zwiększać możliwości sprzętowe, tak aby skutecznie odpowiadać na dynamiczny, chwilowy wzrost ruchu,
- można używać usług Cloudflare, co wydaje się dobrym rozwiązaniem szczególnie dla niewielkich instytucji, które nie mogą inwestować w rozbudowę swoich serwerów i dodatkowe dedykowane zabezpieczenia,
- można też umożliwiać dostęp do zbiorów wyłącznie zalogowanym użytkownikom.
To ostatnie rozwiązanie wydaje się szczególnie problematyczne. Po pierwsze, można maszynowo logować się na strony (np. z wykorzystaniem biblioteki puppeteer). Po drugie, ponieważ ciężko jednoznacznie rozróżnić użytkowników ludzkich od botów, wprowadzenie logowania ograniczyłoby swobodny dostęp do zbiorów zwykłym użytkownikom.
Oprócz crawlerów, które masowo pobierają treści z witryny, zbiory GLAM wykorzystują także boty wysyłane przez platformy takie jak ChatGPT czy Claude AI w trakcie konwersacji z użytkownikiem. Informacje pobrane z wybranej strony są dynamicznie prezentowane w odpowiedzi na pytanie człowieka. Wciąż działają także boty indeksujące strony do wyszukiwarek czy boty archiwizujące WWW. Wydawca witryny powinien być w stanie wyróżnić te boty, które powinien blokować od tych, które wciąż miałyby korzystać z udostępnianych treści.
Respondenci wyrazili obawy, że umieszczanie dzieł za ekranem logowania, nawet jeśli założenie konta byłoby darmowe, stałoby w sprzeczności z ich misją, która polega na szerokim udostępnieniu kolekcji online. Skoro ich celem było stworzenie dostępnych kolekcji, wprowadzenie barier logowania przeczyłoby temu celowi.
Wdrożenie obowiązkowego logowania uniemożliwiłoby też dostęp do zasobów witryny dobrym botom, na przykład tym indeksującym treści do wyszukiwarek.
Autor raportu zwraca uwagę na to, że zagrożenie ze strony masowych wejść botów na witryny GLAM może być przejściowe. Jeśli jednak miałoby stanowić stałe zagrożenie dla infrastruktury platform udostępniających zbiory dziedzictwa, to stawiałoby pod znakiem zapytania sens dotychczasowych polityk otwartościowych. Czy zbiory z domeny publicznej mogą być dostępne wyłącznie po zalogowaniu? Czy wolne licencje z katalogu Creative Commons, gwarantujące prawo do korzystania z udostępnionych utworów, są respektowane przez firmy gromadzące dane do uczenia modeli AI?
A może pewnym rozwiązaniem tego problemu jest publikowanie przez instytucje GLAM wolnych zbiorów danych, takich jak The Common Pile czy zestaw od Metropolitan Museum of Art .
Michael Weinberg, Are AI Bots Knocking Cultural Heritage Offline? (2025).
