Uruchomienie bloga zostało sfinansowane przez społeczność ❤️
Mecenasem bloga jest Fundacja Zakłady Kórnickie,
wydawca portalu historycznego Hrabia Tytus

25 badań na 25-lecie Wikipedii [cz. III]

25 badań na 25-lecie Wikipedii [cz. III]

Jak "fakty wikipedyczne" kształtują narracje literackie, czy agenty AI mogą nieustannie rozwijać encyklopedię i dlaczego - przynajmniej według niektórych - społeczność naukowa zdradziła Wikipedię? Zapraszamy do lektury kolejnego przeglądu tekstów naukowych z okazji 25-lecia Wikipedii.

Poprzednie zestawienia interesujących badań dostępne są tutaj: - /25-badan-na-25-lecie-wikipedii-cz-i - /25-badan-na-25-lecie-wikipedii-cz-ii

11. Integrating Machine-Generated Short Descriptions into the Wikipedia Android App: A Pilot Deployment of Descartes (DOI: 10.48550/arXiv.2601.07631, 2026)

Descartes to model językowy, przygotowany specjalnie do generowania krótkich podsumowań haseł Wikipedii w wielu językach (DOI: 10.48550/arXiv.2205.10012, 2023). Trzy lata później jego autorzy postanowili przetestować go już nie tylko pod względem jakości generowanych podsumowań (tę ocenili na wysoką), ale jako element procesu edycyjnego.

Edytorzy i edytorki Wikipedii mają dostęp do specjalnej aplikacji na Androida, która pozwala na tworzenie krótkich podsumowań (to także forma współtworzenia haseł!). Celem omawianego badania było sprawdzenie, czy maszynowe podpowiedzi podsumowań będą wykorzystywane przez użytkowników tej aplikacji.

W badaniu zaprezentowano 375 osobom maszynowe propozycje podsumowań dla prawie 4 tys. różnych haseł. Z tych propozycji 256 edytorów i edytorek wykorzystało nieco ponad 2 tys. podsumowań. Tylko 23 proc. propozycji zostało zaakceptowanych bez zmian, 14 proc. - z modyfikacjami. Głównym powodem odrzucenia/zmiany maszynowej propozycji był brak odpowiednich informacji w podsumowaniu, następnie jego "niestosowność" ("inappropriate suggestion") i błędne daty. Maszynowe generowanie podsumowań było szczególnie nieefektywne wobec haseł biograficznych - sugeruje się wykluczenie tej kategorii haseł z dalszych prac nad narzędziem.

Eksperyment opisany w badaniu został raczej chłodno przyjęty w społeczności oraz zwrócił uwagę mediów. Społeczność Wikipedii zachowuje bardzo duży dystans do korzystania ze "sztucznej inteligencji" w pracy nad treścią haseł - od sierpnia zeszłego roku jakakolwiek oznaka stosowania generatywnej AI w tworzeniu nowego hasła jest przesłanką do jego szybkiego usunięcia.

12. Impact of AI Search Summaries on Website Traffic: Evidence from Google AI Overviews and Wikipedia (DOI: 10.2139/ssrn.6164926, 2026)

Google AI Overview (AIO) to mechanizm wyszukiwarki Google, który podaje maszynowe podsumowania do zadanej frazy wyszukiwania, korzystając oczywiście z treści indeksowanych stron. Wydawcy argumentują, że rozwiązanie to bardzo skutecznie osłabia organiczny ruch z wyszukiwarki na ich witryny, co ma oczywiście swoje konsekwencje finansowe.

Jak AIO wpływa na Wikipedię? W tym przypadku oczywiście nie ma mowy o zyskach czy stratach komercyjnych.

Szacujemy przyczynowy wpływ funkcji Google AI Overview (AIO) na ruch w Wikipedii, wykorzystując stopniowe wdrażanie tej funkcji w różnych regionach oraz wielojęzyczną strukturę Wikipedii. Stosując podejście różnicy w różnicach (difference-in-differences), porównujemy artykuły anglojęzycznej Wikipedii objęte AIO z tymi samymi artykułami w innych wersjach językowych (hindi, indonezyjskiej, japońskiej i portugalskiej), które w okresie obserwacji nie były objęte AIO. [...] Na podstawie 161 382 dopasowanych par artykuł - język stwierdzamy, że ekspozycja na AIO zmniejsza dzienny ruch do artykułów anglojęzycznych o około 15 proc.

Najciekawszym wnioskiem z badania jest jednak ten, że spadki wejść na strony haseł dotyczą przede wszystkim haseł z dziedzin STEM (Science, Technology, Engineering, Mathematics). Znacznie mniejsze mają być w przypadku haseł poświęconych kulturze, których krótkie, maszynowe podsumowania mogą nie zaspokajać potrzeb informacyjnych użytkowników.

Być może zamiast “optymalizować” treści swoich mediów pod wyszukiwanie w Google, lepiej dbać o publikowanie ciekawych i złożonych tekstów, których nie da się skutecznie podsumować maszynowo.

13. The academic community failed Wikipedia for 25 years — now it might fail us (DOI: 10.1038/d41586-026-00075-0, 2026)

Tym razem nie tekst naukowy, ale artykuł Dariusza Jemielniaka, wiceprezesa PAN w kadencji 2023–2026 i członka Rady Powierniczej Wikimedia Foundation (2015–2025), poświęcony relacjom między środowiskiem naukowym a Wikipedią:

Chociaż badanie Nature z 2005 roku wykazało, że jakość haseł Wikipedii była porównywalna z hasłami Encyklopedii Britannica, a lata późniejszych badań potwierdziły, że jej artykuły specjalistyczne w dziedzinach takich jak nauki o zdrowiu i psychologia często stanowią rozsądną alternatywę dla źródeł profesjonalnych, środowisko akademickie nadal traktuje Wikipedię z nieuzasadnionym sceptycyzmem. Wielu studentów jej ufa; większość badaczy - nie.

Jemielniak nazywa tę postawę akademickim snobizmem. Wobec generatywnej AI, pasożytującej - jak pisze Jemielniak - na treściach Wikipedii, jej przetrwanie jest zagrożone. Wobec zagrożenia ze strony AI, społeczność akademicka ma obowiązek współtworzenia treści Wikipedii - nie tylko pracy nad hasłami, ale też dbania o szeroką dostępność własnych prac (open access):

Czas biernej konsumpcji dobiegł końca. Każdy naukowiec powinien zacząć wnosić swój wkład do Wikipedii, nie jako akt dobroczynności, lecz jako swój podstawowy obowiązek. Oznacza to przejęcie odpowiedzialności za artykuły w swoich specjalizacjach i dbanie o to, by odzwierciedlały one aktualny konsensus naukowy. [...] Uniwersytety powinny uznawać wkład w Wikipedię w ocenach dorobku naukowego i decyzjach o awansach. Jeśli cenimy "transfer wiedzy" i "zaangażowanie społeczne", to czy istnieje lepszy na to dowód niż ulepszanie zasobu, z którego korzystają miliardy ludzi, podejmując decyzje o swoim zdrowiu, pogłębiając zrozumienie nauki i ucząc się? System nagród [ewaluacji akademickiej], który bardziej ceni publikacje za paywallem niż swobodnie dostępne informacje, jest nie tylko przestarzały, ale szkodliwy. Wkład w zasób wiedzy wykorzystywany przez zwykłych ludzi powinien stać się standardową praktyką [akademicką].

14. Fictions of the Wikipedian Fact: Facticity, Authority, and 21st-century Fiction (DOI: 10.16995/c21.24043, 2026)

Historia encyklopedii (czy encyklopedyzmu) i historia literatury przez wieki miały wiele wspólnego - pisze autor omawianego opracowania. Po ćwierćwieczu funkcjonowania Wikipedii możemy już próbować badać jej wpływ na współczesną literaturę - nie tyle szukając bezpośrednich przełożeń czy cytatów, ale uznając, że Wikipedia jest jednym z głównych kontekstów epistemicznych naszej epoki.

Wikipedię przywołuje w swoim wykładzie noblowskim Olga Tokarczuk:

Kiedy powstał Internet wydawało się, że idee [pansofii - wiedzy uniwersalnej] będą wreszcie mogły zrealizować się w sposób totalny. Wikipedia, którą podziwiam i wspieram, mogłaby wydać się Komenskiemu, podobnie jak wielu myślicielom tego nurtu, spełnieniem marzeń ludzkości – oto tworzymy i otrzymujemy ogromny zasób wiedzy nieustannie uzupełnianej, odświeżanej i demokratycznie dostępnej, praktycznie z każdego miejsca na Ziemi.

Amerykański poeta Benjamin Lerner jest autorem autofikcyjnej prozy The Hofmann Wobble: Wikipedia and the Problem of Historical Memory, opublikowanej w 2023 roku w "Harper's Magazine":

dla Lernera Wikipedia jest artefaktem "połączenia, być może dialektyki, cynizmu i idealizmu, alienacji i techno-optymizmu", które kształtowały końcówkę lat 2000. i - za sprawą modeli językowych (LLM) - będą formować najbliższą przyszłość.

Kiron Ward przekonuje nas w swoim tekście, że "wikipedystyczny fakt" jest jednym z XXI-wiecznych "duchów w literackiej maszynie fikcji": opiera się na "zewnętrznej weryfikowalności i neutralności", a nie na wiedzy eksperckiej. Wikipedia ma zmieniać sposób, w jaki w literaturze rozumie się prawdę. Przykłady, które proponuje Ward, to utwory Olgi Tokarczuk, Lucy Ellmann i Bena Lernera - prawda jest w nich konstrukcją budowaną z dostępnych cytatów, odwołań, specyficznej konstelacyjności, równocześnie jednak powodować może uczucie przytłoczenia wiedzą i pewną alienację. W takim systemie fikcje lub oszustwa konstruowane w ramach dezinformacji mogą podlegać procesowi "twardnienia" ("harden into fact").

15. WINELL: Wikipedia Never-Ending Updating with LLM Agents (DOI: 10.48550/arXiv.2508.03728, 2026)

Wiele mówi się ostatnio o agentach AI - samodzielnie funkcjonujących programach, pozwalających zautomatyzować wiele czynności. A gdyby tak zastosować takie narzędzia do nieustannego rozwijania haseł Wikipedii? Taka sytuacja dziś nie może mieć miejsca ze względu na konsensus społeczności Wikipedii co do tego, że Wikipedia to encyklopedia pisana przez ludzi. Można jednak z powodzeniem testować efektywność takiego systemu wytwarzania wiedzy.

Jak miałby działać ten system? Najpierw maszynowo analizowano by strukturę hasła przeznaczonego do edycji, budując zestaw wytycznych dla agentów AI o trzech rodzajach: nawigatorów (przeszukujących internet w poszukiwaniu wartościowych informacji), ekstraktorów - wyodrębniających fakty i dane ze znalezionych tekstów i agregatorów - decydujących, czy taki wyodrębniony fakt albo dane nadają się do uzupełnienia hasła. Główną warstwą systemu jest specjalnie dostosowany językowy model edytorski (oparty na Llama-3.1-8B), wytrenowany na milionach ludzkich edycji haseł w Wikipedii.

W badaniu przeprowadzonym z udziałem doświadczonych wikipedystów, 68 proc. sugestii edycyjnych WINELL zostało zaakceptowanych bez żadnych zmian, 29 proc. wymagało poprawek, a jedynie 3 proc. zostało odrzuconych.

Kolejne propozycje lekturowe pojawią się w następnej notce w cyklu. Jeśli chcielibyście zaproponować jakieś opracowanie do tego zestawu, piszcie na dev@wilkowski.org.

Obrazek w tle na podstawie WP25 FB Cover 851x462 4.png, CC BY-SA.

Autor: redakcja

🤗
Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.