Czy przetworzony przez AI wizerunek Zuli Pacanowskiej pojawi się na Wikipedii?

"Modele LLM często wykorzystują Wikipedię jako źródło, ale jednocześnie nie dają niezbędnej atrybucji, co w efekcie odsuwa użytkowników od bogatej struktury Wikipedii" czytamy w artykule "An endangered species: how LLMs threaten Wikipedia’s sustainability" (DOI: 10.1007/s00146-025-02199-9, 2025).
Pod koniec marca w Lublinie odbył się zjazd Stowarzyszenia Wikimedia Polska, któremu w tym roku mija 20 lat działalności. W prezentacjach i dyskusjach wątek sztucznej inteligencji był mocno obecny, nie zawsze też skrajnie krytycznie, raczej w klasycznym stylu "not bad, not terrible".
Wydaje mi się, że ujawniały się tam obawy raczej nie o to, że LLMy zajmą miejsce Wikipedii w dostępie do wiedzy (wiedzy na podstawowym poziomie, co też wyraźnie podkreślano, w końcu Wikipedia to encyklopedia a nie zbiór tekstów naukowych). Obawiano się za to tego, że AI zacznie negatywnie wpływać na jakość zasobów Wikipedii i projektów siostrzanych oraz mogże zostać użyte do manipulacji w dyskusjach na temat haseł. Świetnym przykładem takiego wyzwania jest rozszerzona (upscaled) przez model graficzny fotografia Zuly Pacanowskiej, wygenerowana na podstawie oryginalnej miniaturki.
Czy tego typu przeróbki powinny pojawiać się w Commons i być ilustracjami haseł? Ten ciekawy przypadek pojawił się w prezentacji PMG Wszystko czego nauczyłem się o AI w ciągu ostatniego miesiąca.
Tymczasem cytowany artykuł jest przeglądem podobnych obaw (zebranych na podstawie pogłębionych wywiadów z osobami mocno zaangażowanymi w wikiprojekty). Oto ten mały katalog wyzwań i propozycji rozwiązań:
- Wikipedia odgrywa znaczącą rolę w trenowaniu modeli LLM, ale dokładny przebieg tego procesu i wypracowywane w jego ramach wartości są niejasne,
- Modele LLM pełnią rolę pośredników między użytkownikami a oryginalnymi źródłami wiedzy, często obniżając jakość informacji i utrwalając uprzedzenia, przy jednoczesnym braku przejrzystości i odpowiedniej atrybucji,
- Trwałość Wikipedii może być zagrożona przez negatywny wpływ modeli LLM na wspólne zasoby cyfrowe (digital commons), widoczność Wikipedii, zaangażowanie społeczności oraz ukrywanie faktu, że określone informacje i wiedza pochodzą właśnie z Wikipedii (disintermediation),
- Wykorzystanie Wikipedii jako danych treningowych dla modeli LLM wiąże się z problemami etycznymi dotyczącymi oczekiwań współtwórców, ryzyka wyczerpywania się zasobów wspólnych oraz pogłębiania nierówności językowych i kulturowych. Komercyjne wykorzystanie wspólnej pracy bez mechanizmów wsparcia społeczności to standardowy chyba problem open source. Do tego nie bardzo wiadomo, czy edytorzy i edytorki Wikipedii chcą pisać rzeczy nie tylko dla innych ludzi, ale też dla maszyn i wielkich firm, które mają na nich zarabiać),
- "Obawy etyczne mogą zostać częściowo rozwiązane poprzez systemowe zmiany w mechanizmach rynkowych i modelach licencyjnych, finansowe wsparcie Wikipedii przez duże firmy technologiczne oraz techniczne rozwiązania związane z pochodzeniem danych i ich atrybucją" (zakłada to jednak dobrą wolę branży komercyjnej),
- Systemowe uprzedzenia (biases) w modelach LLM mogą być dziedziczone ze źródeł takich jak Wikipedia. Są nieuniknione, ale można je ograniczyć przez aktywne działania na rzecz zwiększania różnorodności społeczności i różnorodności treści w zasobach cyfrowych.
