2025-04-02 — Napisano w Komentarze • Ten wpis przeczytasz w 3 minuty

Czy przetworzony przez AI wizerunek Zuli Pacanowskiej pojawi się na Wikipedii?

"Modele LLM często wykorzystują Wikipedię jako źródło, ale jednocześnie nie dają niezbędnej atrybucji, co w efekcie odsuwa użytkowników od bogatej struktury Wikipedii" czytamy w artykule "An endangered species: how LLMs threaten Wikipedia’s sustainability" (DOI: 10.1007/s00146-025-02199-9, 2025).

Pod koniec marca w Lublinie odbył się zjazd Stowarzyszenia Wikimedia Polska, któremu w tym roku mija 20 lat działalności. W prezentacjach i dyskusjach wątek sztucznej inteligencji był mocno obecny, nie zawsze też skrajnie krytycznie, raczej w klasycznym stylu "not bad, not terrible".

Wydaje mi się, że ujawniały się tam obawy raczej nie o to, że LLMy zajmą miejsce Wikipedii w dostępie do wiedzy (wiedzy na podstawowym poziomie, co też wyraźnie podkreślano, w końcu Wikipedia to encyklopedia a nie zbiór tekstów naukowych). Obawiano się za to tego, że AI zacznie negatywnie wpływać na jakość zasobów Wikipedii i projektów siostrzanych oraz mogże zostać użyte do manipulacji w dyskusjach na temat haseł. Świetnym przykładem takiego wyzwania jest rozszerzona (upscaled) przez model graficzny fotografia Zuly Pacanowskiej, wygenerowana na podstawie oryginalnej miniaturki.

Czy tego typu przeróbki powinny pojawiać się w Commons i być ilustracjami haseł? Ten ciekawy przypadek pojawił się w prezentacji PMG Wszystko czego nauczyłem się o AI w ciągu ostatniego miesiąca.

Tymczasem cytowany artykuł jest przeglądem podobnych obaw (zebranych na podstawie pogłębionych wywiadów z osobami mocno zaangażowanymi w wikiprojekty). Oto ten mały katalog wyzwań i propozycji rozwiązań:

Wikipedia odgrywa znaczącą rolę w trenowaniu modeli LLM, ale dokładny przebieg tego procesu i wypracowywane w jego ramach wartości są niejasne,
Modele LLM pełnią rolę pośredników między użytkownikami a oryginalnymi źródłami wiedzy, często obniżając jakość informacji i utrwalając uprzedzenia, przy jednoczesnym braku przejrzystości i odpowiedniej atrybucji,
Trwałość Wikipedii może być zagrożona przez negatywny wpływ modeli LLM na wspólne zasoby cyfrowe (digital commons), widoczność Wikipedii, zaangażowanie społeczności oraz ukrywanie faktu, że określone informacje i wiedza pochodzą właśnie z Wikipedii (disintermediation),
Wykorzystanie Wikipedii jako danych treningowych dla modeli LLM wiąże się z problemami etycznymi dotyczącymi oczekiwań współtwórców, ryzyka wyczerpywania się zasobów wspólnych oraz pogłębiania nierówności językowych i kulturowych. Komercyjne wykorzystanie wspólnej pracy bez mechanizmów wsparcia społeczności to standardowy chyba problem open source. Do tego nie bardzo wiadomo, czy edytorzy i edytorki Wikipedii chcą pisać rzeczy nie tylko dla innych ludzi, ale też dla maszyn i wielkich firm, które mają na nich zarabiać),
"Obawy etyczne mogą zostać częściowo rozwiązane poprzez systemowe zmiany w mechanizmach rynkowych i modelach licencyjnych, finansowe wsparcie Wikipedii przez duże firmy technologiczne oraz techniczne rozwiązania związane z pochodzeniem danych i ich atrybucją" (zakłada to jednak dobrą wolę branży komercyjnej),
Systemowe uprzedzenia (biases) w modelach LLM mogą być dziedziczone ze źródeł takich jak Wikipedia. Są nieuniknione, ale można je ograniczyć przez aktywne działania na rzecz zwiększania różnorodności społeczności i różnorodności treści w zasobach cyfrowych.

Autor: redakcja

🤗

Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

ai Wikipedia

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.