25 badań na 25-lecie Wikipedii [cz. II]
![25 badań na 25-lecie Wikipedii [cz. II] 25 badań na 25-lecie Wikipedii [cz. II]](https://blog.humanistyka.dev/content/images/20260121174438-e57b0c18bd327d0df23f42849b1f7e0e.png)
Do czego Wikipedia mogłaby inspirować historyków, jak dostępność ChatGPT wpłynęła na aktywność edytorów i czytelników Wikipedii, wykorzystanie haseł Wikipedii do testowania jakości modeli językowych oraz techniki manipulacji hasłami na temat wywołanej przez Rosję wojny w Ukrainie - to tematy artykułów z kolejnej części przeglądu tekstów naukowych dotyczących Wikipedii.
Pod koniec stycznia Wikipedia skończyła 25 lat. Z tej okazji na blogu publikuję co jakiś czas krótkie omówienia ciekawych badań, poświęconych temu projektowi. W pierwszej notce z cyklu pisałem m.in. o badaniach analizujących Wikipedię jako system ludzko-maszynowy, podobieństwach między Grokipedią a Wikipedią oraz kilku ciekawych eksperymentach z przetwarzaniem danych i języka z tego źródła.
Oto kolejna propozycja interesujących badań wokół Wikipedii.
6. Can History Be Open Source? Wikipedia and the Future of the Past (DOI: 10.2307/4486062)
Roy Rosenzweig był założycielem Center for History and New Media, jednej z pierwszych instytucji naukowych zajmujących się historią cyfrową, także autorem jednego z pierwszych opracowań na ten temat. W jego refleksji nad relacjami między badaniem i edukowaniem o przeszłości a internetem nie mogło zabraknąć Wikipedii, istniejącej już wtedy od pięciu lat.
Historia to głęboko indywidualistyczne rzemiosło - pisze Rosenzweig. Historycy próbują wpływać na społeczeństwo, ale publikują swoje badania w artykułach za paywallami, do których większość odbiorców nie ma dostępu. Nie zawsze też popularyzują swoje badania. Tymczasem dominującym źródłem wiedzy w sieci jest Wikipedia (pamiętajmy, mamy 2006 rok!), tworzona oddolnie, ignorująca tytuły naukowe i przywołująca głównie swobodnie dostępne źródła. Zdaniem Rosenzweiga, historycy powinni korzystać z doświadczeń Wikipedii:
Innym rozwiązaniem [dla upowszechniania wiedzy historycznej - MW] jest naśladowanie wielkiego demokratycznego triumfu Wikipedii - Wikipedia udowadnia, że ludzie potrzebują darmowych i dostępnych źródeł informacji. Jeśli jako historycy uważamy, że to, co jest dostępne za darmo w sieci, jest niskiej jakości, mamy obowiązek udostępniać online lepsze źródła wiedzy. Dlaczego tak wiele naszych czasopism naukowych jest zamkniętych za paywallami?
7. Exploring the impact of ChatGPT on Wikipedia engagement (DOI: 10.1177/26339137251372599, 2025)
Czy publiczne udostępnienie ChatGPT w listopadzie 2022 roku wpłynęło na sposób pracy nad treściami Wikipedii? Żeby to zbadać, porównano dane na temat aktywności edytorów z dwunastu wersji językowych Wikipedii: sześciu z krajów, gdzie można było swobodnie korzystać z ChatGPT i sześciu, gdzie takie korzystanie z różnych względów nie było możliwe.
Okazało się też, że po premierze ChatGPT wzrosła liczba odsłon i odwiedzających strony badanych edycji Wikipedii. Autorzy badania obawiali się, że to nowe narzędzie negatywnie wpłynie na popularność Wikipedii - według nich ChatGPT może lepiej zaspokajać potrzeby szybkich odpowiedzi na wybrane pytanie niż wyszukiwanie w internetowej encyklopedii.
Wybrałem ten artykuł, bo bardziej niż główne wyniki badania interesująca jest (zawarta w sekcji Discussion) obszerna krytyka zbyt uproszczonych metod interpretowania danych z Wikipedii. Autorzy podkreślają tutaj znaczenie polityki krajowej wobec dostępności Wikipedii i wolności jej edycji, kwestię niszowych języków, znaczenie czynników socjoekonomicznych dla dynamiki odsłon i edycji oraz wykorzystania narzędzi "AI" do zdobywania informacji.
Podczas gdy dane ze Stack Overflow i Stack Exchange wskazują na szybki i znaczący spadek zaangażowania po uruchomieniu ChatGPT, my nie obserwujemy takiego spadku [dla Wikipedii]. Biorąc pod uwagę sugestię, że platformy działające w oparciu o duże społeczności, takie jak Reddit, zostały w mniejszym stopniu dotknięte przez LLMy, stawiamy pytanie, czy społeczności funkcjonujące w ramach różnych wersji językowych Wikipedii również mogą być mniej podatne na ten wpływ.
Być może aktywne i dojrzałe społeczności potrafią skutecznie przeciwstawić się wpływowi narzędzi AI na tworzone przez siebie treści.
8. AI-Generated Versus Human Text: Introducing a New Dataset for Benchmarking and Analysis ([DOI: 10.1109/TAI.2025.3544183, 2025)
Do badań nad językiem, ale też do testowania modeli, wykorzystuje się duże zbiory tekstów. Zazwyczaj wymagane jest, żeby były to teksty napisane przez ludzi, co dziś - wobec szerokiej dostępności generatywnej AI - nie jest wcale oczywiste. Hasła Wikipedii czy treści dyskusji i komentarzy jej edytorów od lat używane były w celach badawczych (ułatwiają to wolne licencje), dziś mogą mieć jednak dodatkową wartość, jeśli Wikipedia zostanie uznana za źródło nieskażone treściami generatywnymi (to efekt polityki, jaką przyjęły społeczności lokalnych edycji Wikipedii wobec AI).
Efektem badania jest benchmark do rozpoznawania ludzkiego / maszynowego autorstwa tekstów. Teksty ludzkie pobrano z Wikipedii i z Medium, teksty maszynowe za pomocą DistilGPT-2. Wybrane modele dość dobrze poradziły sobie z rozpoznawaniem źródła tekstów, jednak - jak wskazują autorzy - wyraźną podpowiedzią były dostępne w hasłach Wikipedii takie frazy jak reference, refer, see also oraz link. Wybrałem to badanie nie tylko ze względu na dostępność danych benchmarku - można samodzielnie uruchomić sobie test - ale też na uwagę, którą autorzy poczynili w podsumowaniu badania:
[...] wykorzystanie artykułów Wikipedii opublikowanych przed premierą ChatGPT w listopadzie 2022 r. zapewniłoby, że wszystkie dane oznaczone jako tworzone przez ludzi są rzeczywiście wygenerowane przez człowieka.
Artykuł wysłano do recenzji w lutym 2024 roku, a więc dwa lata temu - i już wtedy autorzy wskazywali na wątpliwości co do statusu treści haseł w Wikipedii. Być może nie da się już dłużej uznawać, że jest ona wolna od wpływu AI, dlatego konieczne będzie korzystanie wyłącznie z treści publikowanych do momentu publicznego udostępnienia ChatGPT.
9. Paths of A Million People: Extracting Life Trajectories from Wikipedia (DOI: 10.48550/arXiv.2406.00032, 2024)
Artykuł pokazujący, jak z wykorzystaniem automatycznej ekstrakcji wydarzeń ze zdań haseł Wikipedii (person -> time -> location) można zebrać i zanalizować dane na temat biografii ogromnej liczby osób.
Dane wyglądają niepozornie:
| person | year | location | source_biography_page |
|---|---|---|---|
| Richard Laqueur | 1881 | Strassburg | Richard Laqueur |
| Richard Laqueur | 1904 | Strassburg | Richard Laqueur |
| Richard Laqueur | 1919 | World War I | Richard Laqueur |
| Thomas Bailey Marquis | 1917 | World War I | Thomas Bailey Marquis |
| Pierre Renouvin | 1917 | World War I | Pierre Renouvin |
| Richard Ernest Dupuy | 1917 | World War I | Richard Ernest Dupuy |
| William Nathaniel Thomas | 1917 | World War I | William Nathaniel Thomas |
| George Prothero | 1919 | World War I | George Prothero |
| Richard Laqueur | 1936 | Halle | Richard Laqueur |
| Carl Mirbt | 1880 | Halle | Carl Mirbt |
| Wilhelm Eduard Wilda | 1831 | Halle | Wilhelm Eduard Wilda |
| Johann Jakob Herzog | 1854 | Halle | Johann Jakob Herzog |
| Dieter Timpe | 1931 | Halle | Dieter Timpe |
jednak mają duży potencjał. Możemy na przykład, mając indeks ważnych postaci historycznych, badaczek czy artystów, wizualizować i analizować ich losy metodą czytania zdystansowanego. Nie tyle będziemy czytać dokładnie ich biografie, raczej patrzeć na kierunki przepływu, rozpoznawać wzorce migracji i wskazywać na lokacje najczęściej opuszczane i najczęściej wybierane jako cel.
Okazuje się, że tylko anglojęzyczna Wikipedia zawiera prawie 2 mln haseł biograficznych a w każdym jest średnio 11 lokacji i 15 encji czasowych (określeń czasu). W artykule przeanalizowano - jako przykład - ścieżki życia ponad 8 tys. historyków. Poza narodzinami i śmiercią, ponad 81 proc. zebranych trójek (person -> time -> location) dotyczy aktywności takich jak edukacja, praca i podróże.
Warto dodać, że trójki wyodrębniono za pomocą standardowej procedury wyodrębniania jednostek nazwanych (NER) z wykorzystaniem spaCy - automatycznie zidentyfikowano osoby, określenia czasu i lokalizacji. Zebrane w ten sposób trójki sprawdzono modelem COSMOS, który pozwolił wyczyścić dane z błędnie zidentyfikowanych wydarzeń.
10. Wikipedia in Wartime: Experiences of Wikipedians Maintaining Articles About the Russia-Ukraine War (DOI: 10.1145/3711107, 2025)
Hasła dotyczące rosyjskiej agresji na Ukrainę wygenerowały w angielskiej Wikipedii ponad 50 mln odsłon. Omawiane badanie polegało na przeprowadzeniu pogłębionych wywiadów z 13 ekspertami - redaktorami i edytorami, którzy pracowali nad hasłami dotyczącymi tego tematu. Według nich hasła dotyczące wojny stały się celem wielu niszczących edycji (disruptive editing), których źródłem były zarówno pro-rosyjskie, jak i pro-ukraińskie konta. Uczestnicy badania nie znaleźli jednoznacznych dowodów na to, że próba uzyskania wpływu na treść haseł była częścią skoordynowanej operacji, w której brały udział grupy finansowanych przez państwo rosyjskie “farm trolli”.
Badani zidentyfikowali jednocześnie kilka technik manipulacji, takich jak wandalizm (np. zmiana fragmentu tytułu hasła z "inwazja" na "wyzwolenie"), tzw. wiki-lawyering, czyli nadużywanie odwołań do zasad Wikipedii w celu przemycania stronniczych narracji oraz tworzenie dużej liczby niskiej jakości haseł. Ankietowani uznali Wikipedię za bardziej odporną na manipulacje niż media społecznościowe, głównie ze względu na intencjonalnie zastosowane mechanizmy obronne, takie jak blokowanie nowozałożonym kontom edycji haseł o wojnie, wirtualny ban na cytowanie rosyjskich mediów państwowych jako źródeł w treści haseł oraz status "contentious topic", dający administratorom większe możliwości blokowania podejmowanych wobec treści haseł manipulacji. Badani przyznali też, że nieustanna walka z manipulacjami jest źródłem dużej frustracji dla edytorów i administratorów i prowadzi do wypalenia:
Mógłbym poświęcić na to trochę czasu [na moderację i walkę z manipulacją - MW], ale nie mam zamiaru dostawać za to po zębach.
Mam ograniczoną ilość czasu [na takie zadania - MW], mógłbym go spożytkować inaczej.
Kolejne propozycje lekturowe pojawią się w następnej notce w cyklu. Jeśli chcielibyście zaproponować jakieś opracowanie do tego zestawu, piszcie na dev@wilkowski.org.
Obrazek w tle na podstawie WP25 FB Cover 851x462 4.png, CC BY-SA.
Autor: redakcja
