Uruchomienie bloga zostało sfinansowane przez społeczność ❤️
Mecenasem bloga jest Fundacja Zakłady Kórnickie,
wydawca portalu historycznego Hrabia Tytus

Nasze zbiory są za darmo, ale nie nasza infrastruktura: instytucje GLAM wobec masowego pobierania zbiorów w celu trenowania AI

Nasze zbiory są za darmo, ale nie nasza infrastruktura: instytucje GLAM wobec masowego pobierania zbiorów w celu trenowania AI

Nawet jeśli biblioteki, archiwa i muzea cyfrowe udostępniają zdigitalizowane zbiory z domeny publicznej, mają prawo ograniczać dostęp do nich dla scraperów, gromadzących dane do trenowania modeli AI - to wnioski z raportu opublikowanego niedawno przez Fundację Europeana.

Na blogu wspominałem już o tym, jak to aktywność scraperów staje się coraz większym wyzwaniem dla infrastruktury webowej instytucji GLAM. Roboty, działające na rzecz firm opracowujących duże modele AI, pobierają zawartości stron i witryn, ignorując zasady określane przez ich wydawców. Zasoby gromadzone przez instytucje kultury i dziedzictwa stają się masowym wkładem w “fabrykach sztucznej inteligencji”, gdzie odrywane są od oryginalnego kontekstu, w jakim zostały opublikowane online. Zwiększony maszynowy ruch na serwerach tych instytucji nie tylko generuje dodatkowe koszty, związane z jego obsługą, ale też może uniemożliwiać indywidualnym użytkownikom dostęp do stron i korzystanie z ich zawartości. Dobrą metaforą tej sytuacji jest miasto, w którym coraz więcej miejsca zajmują szerokie jezdnie i parkingi, spychając na margines pieszych i ich potrzeby.

Kilkunastostronicowy raport Publishing cultural heritage in the age of AI (PDF) opracowany został na zlecenie Europeany przez fundację Open Future - dokładnie jej szefa, Paula Kellera - i opublikowany w grudniu. Znajdziemy w nim podobne jak wyżej rozpoznanie sytuacji, rozwinięte jednak o wątki prawnoautorskie, odwołujące się do niedawnych regulacji UE, ale też podstaw prawa autorskiego i prawa ochrony baz danych. Raport wspomina też o technicznych możliwościach filtrowania czy blokowania ruchu botów w witrynach instytucji GLAM. Wspomina o ofercie platformy Cloudflare oraz narzędziach takich jak Anubis, które można niezależnie wdrażać na serwerach instytucji.

Analiza fundacji Open Future podejmuje jednak dodatkowy temat: jak pogodzić misję instytucji, która polega na upowszechnianiu zbiorów kultury i dziedzictwa możliwie bez barier, także prawnoautorskich, z niemal przemysłowym ich wykorzystaniem przez firmy pracujące nad dużymi modelami? Polityka UE wobec kultury i dziedzictwa w żadnym razie nie odrzuca ich komercyjnego wykorzystania, podkreślając wagę domeny publicznej oraz ekonomiczny potencjał zbiorów kultury i dziedzictwa oraz danych na ich temat (zob. np. inicjatywę Data Spaces. Jednak w zderzeniu z masowym scrapowaniem zasobów bibliotek, muzeów i archiwów polityka udostępniania zbiorów musi zostać zmodyfikowana. Nie chodzi tylko o koszty techniczne. Jak czytamy w raporcie,

Aktualna dynamika trenowania i wdrażania systemów AI koncentruje kontrolę nad dostępem do danych kulturowych oraz nad wartością z nich czerpaną w rękach niewielkiej grupy podmiotów dysponujących dużymi zasobami. Nieograniczone, masowe ponowne wykorzystywanie danych przez takie podmioty grozi przekształceniem wspólnego dziedzictwa kulturowego w jednokierunkowy zasób wejściowy dla prywatnego rozwoju modeli, co podważa widoczność, trwałość i misję publiczną utrzymujących je instytucji.

Raport wskazuje zatem na problem czegoś w rodzaju prywatyzacji zasobów domeny publicznej, których rozwój finansowany jest przez europejskich podatników, a które stają się anonimowym wkładem do rozwoju komercyjnych modeli AI.

Oprócz tego - jak czytamy - konieczne jest postawienie pytania o to, czy instytucje GLAM powinny projektować swoje zbiory i witryny wciąż przede wszystkim pod wykorzystanie przez indywidualnego użytkownika, czy raczej rozwijać metody dostępu maszynowego?

Kiedy zainicjowano proces masowej digitalizacji, modele dostępu i umowy regulujące korzystanie ze zbiorów projektowane były z myślą o korzystaniu na ludzką skalę: wyszukiwanie i przeglądanie pojedynczych dzieł. Rozwój AI stworzył zapotrzebowanie na dostęp do całych kolekcji w skali przemysłowej. Instytucje odnotowują rosnącą liczbę próśb ze strony badaczy, innowatorów i twórców systemów AI o hurtowy dostęp do zdigitalizowanych zbiorów, często wspieranych narracjami politycznymi, które domagają się wysokiej jakości danych dla AI. Ta sama infrastruktura, która umożliwia otwarty dostęp publiczny, umożliwia też automatyczne pozyskiwanie danych. Jednak masowy dostęp maszynowy wpływa na koszty, bodźce [do udostępniania zbiorów] oraz widoczność instytucji jako źródeł o pewnym autorytecie. Towarzyszą temu również określone pytania natury normatywnej, które wykraczają poza kwestie techniczne: czy zautomatyzowany dostęp maszynowy powinien być traktowany na równi z dostępem ludzkim, a jeśli nie, to na jakich zasadach powinno się go organizować?

Raport podkreśla, że europejskie instytucje GLAM, działając w ramach reguł prawa autorskiego, powinny udostępniać w internecie swoje zbiory w sposób otwarty, równy, niedyskryminujący i bez wyłączności. Wobec rozwoju AI pozostają one też wiarygodnym źródłem wiedzy o tych zbiorach, nadając im odpowiedni kontekst, bezpośrednio wspierając naukę i edukację.

Instytucje GLAM nadal mogą pracować nad gwarantowaniem pełnego i otwartego dostępu do swoich zbiorów, a przynajmniej do metadanych na ich temat, jeśli udostępnianie obiektów jest niemożliwe z powodu ograniczeń prawnych czy etycznych. Rozwój AI nie ma nic tu zmieniać:

W przypadku dostępu do pojedynczych obiektów preferowaną opcją pozostaje pełny otwarty dostęp do zdigitalizowanych zbiorów (zarówno do metadanych, jak i, tam gdzie to możliwe, do samych obiektów cyfrowych). Jest to zgodne z dotychczasową praktyką, a pojawienie się sztucznej inteligencji samo w sobie nie uzasadnia wprowadzania nowych ograniczeń ani warunków dostępu.

W przypadku masowego maszynowego dostępu, instytucje, jak czytamy, powinny wdrażać systemy dostępu programistycznego (API) i metody dostępu hurtowego (na poziomie całych kolekcji, udostępnianych poza infrastrukturą witryny muzeum, archiwum czy biblioteki cyfrowej). Dodatkowo mogą stosować odpowiednie środki zarządzania ruchem na własnych stronach, np. poprzez ograniczanie liczby żądań, ograniczanie przepustowości lub blokowanie niezidentyfikowanego ruchu automatycznego. Te wszystkie ograniczenia nie powinny przy tym wpływać negatywnie na dostęp do zbiorów przez indywidualnych użytkowników.

Dostęp maszynowy przez interfejs programistyczny (API) powinien być - zdaniem autora raportu - kontrolowany, a więc z wymaganą autoryzacją przez stosowanie odpowiednich kluczy. Pozwala to nie tylko racjonalnie decydować o tym, jakie organizacje dopuszcza się do zbiorów, ale też ustawiać przejrzyste limity żądań, raportować użycie określonych zasobów i przeciwdziałać nadużyciom.

Innym rozwiązaniem jest dostęp za pomocą repozytoriów danych (np. w Hugging Face, z przejrzystymi regułami wykorzystania, zob. institutional/institutional-books-1.0), lub, podobnie jak to robi Fundacja Wikimedia dla swoich projektów, budując dedykowane kanały darmowego i płatnego maszynowego dostępu.

Hasłem, którym Fundacja Wikimedia podsumowuje swoje podejście do masowego, maszynowego pozyskiwania zasobów swoich projektów, brzmi

Nasze treści są za darmo, ale nasza infrastruktura kosztuje (Our content is free, our infrastructure is not)

Wydaje się, że jest to stwierdzenie, które może stać u podstaw planowania, ale też informowania o wdrażaniu ograniczeń dla ruchu maszynowego w witrynach muzeów, bibliotek czy archiwów cyfrowych.

Nowe regulacje proponowane przez Komisję Europejską zakładają wprost, że instytucje publiczne UE będą mogły nakładać na udostępniane przez siebie obiekty i dane specjalne licencje, regulujące warunki i sposób ich wykorzystania przez duże firmy (very large enterprises). Komentarz, wskazujący na zagrożenia związane z takim rozwiązaniem, przeczytamy na blogu stowarzyszenia Communia.

Omawiany raport dostępny jest na stronach witryny Europeana Pro.

Autor: redakcja

🤗
Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.