Uruchomienie bloga zostało sfinansowane przez społeczność ❤️
Mecenasem bloga jest Fundacja Zakłady Kórnickie,
wydawca portalu historycznego Hrabia Tytus

25 badań na 25-lecie Wikipedii [cz. I]

25 badań na 25-lecie Wikipedii [cz. I]

Wikipedia ma dziś ćwierć wieku i jest częścią niewielkiego zbioru projektów internetowych, które przetrwały kilka epok technologicznych. Od początku była nie tylko encyklopedią, lecz także eksperymentem oddolnej i masowej produkcji wiedzy. Dziś jest jednym z najczęściej wykorzystywanych zasobów w badaniach i podstawowym źródłem treści do trenowania modeli sztucznej inteligencji. Setki artykułów naukowych analizują ją jako system społeczny, korpus językowy i infrastrukturę wiedzy. Zapraszam do lektury pierwszej notki z urodzinowego cyklu prezentującego ciekawe teksty naukowe poświęcone Wikipedii.

Gdyby nie Wikipedia, niektóre prace domowe w szkole wciąż miałyby jakiś sens, Sam Altman nie miałby na czym trenować swoich modeli, a ja nie dowiedziałbym się, że w 2017 roku popularny tu i ówdzie zespół Boys wydał płytę "25 lat", na której znalazły się takie utwory jak "W słońce zmienię deszcz" czy "Ty i ja – O la e o la la" 😯. Również gdybym nie wiedział, że Wikipedia powstała w 2001 roku, mógłbym na niej sprawdzić, że właśnie kończy 25 lat.

Najwyższy czas, żeby przyzwyczaić się do długowieczności oprogramowania i platform. Wikipedia ma ćwierć wieku, Facebook - 22 lata, podobnie jak SkyscraperCity. To oczywiście niewiele w porównaniu z tak zasłużonym oprogramowaniem jak cURL (pierwsza wersja z 1997 roku) czy systemem obsługującym sondę Voyager 1, który musiał być gotowy przed jej wystrzeleniem w kosmos w 1977 roku i nadal jest w użyciu. Jestem prawie pewien, że w 2029 nikt nie będzie świętował urodzin Facebooka, za to 25-letnia Wikipedia zasługuje na upamiętnienie i coś w rodzaju podsumowania, o które pokusił się np. Pew Internet Research czy Nature.

Postanowiłem włączyć się w świętowanie urodzin Wikipedii i zebrać 25 artykułów naukowych, które, po pierwsze, mówią o niej coś więcej ponad oczywiste stwierdzenia o wolności edycji, neutralnym punkcie widzenia i licencjach, i po drugie, pokazują ją nie tylko jako źródło wiedzy, ale zasób, z którego korzystać można w sposób naukowy. Oto pierwsza część tego zestawienia:

1. Wisdom of the crowd or technicity of content? Wikipedia as a sociotechnical system (DOI: 10.1177/1461444810365297, 2010)

Wikipedia to przestrzeń aktywności ludzkiej i maszynowej i była nią na długo przed upowszechnieniem się "sztucznej inteligencji" i modą na “agentów AI”:

Znacząca obecność botów wydaje się stać w sprzeczności z powszechnym przekonaniem, że Wikipedia jest tworzona przez ludzką społeczność (human 'crowds'). W rzeczywistości ludzcy redaktorzy nigdy nie byliby w stanie nadążyć z utrzymywaniem internetowej encyklopedii, gdyby nie byli wspomagani przez dużą liczbę programowanych botów.

2. Did you know?: mining interesting trivia for entities from wikipedia (DOI: 10.5555/2832581.2832690, 2015)

Zaprojektowanie maszynowej metody wyodrębniania ciekawostek (trivia) z tekstu możliwe było dzięki skorzystaniu z haseł Wikipedii. W przygotowanym systemie udostępnia się modelowi treść artykułu i dostaje listę zdań, które najbardziej przypominają swoim charakterem ciekawostki. Jak piszą autorzy badania,

wybieramy Wikipedię jako źródło wiedzy, ponieważ poprawność faktograficzna jest istotnym atrybutem w przypadku ciekawostek.

3. What did Elon change? A comprehensive analysis of Grokipedia (DOI: 10.48550/arXiv.2511.09685, 2025)

Elon Musk jest zaprzysięgłym wrogiem Wikipedii, ponieważ nie da się jej kupić i autorytatywnie zmienić. Wobec opozycji społeczności, w październiku 2025 roku opublikował własną wersję internetowej encyklopedii - Grokipedię. Grokipedia jest w całości generowana przez model językowy i w dużej mierze bazuje na przetworzonych maszynowo hasłach Wikipedii:

Pierwsze wydanie Grokipedii wydaje się być w dużym stopniu zależne od Wikipedii - serwisu, który miała zastąpić i zdominować. Wiele artykułów wykazuje wysoki poziom podobieństwa między oboma korpusami, a niektóre zawierają wręcz identyczne treści. Inne artykuły charakteryzują się wyraźnymi zmianami w treści, w sposobie ujęcia oraz tonie. Stwierdzamy, że Grokipedia jest korpusem znacznie większym i obszerniejszym niż Wikipedia, zawierającym znacznie więcej tekstu na artykuł, oraz znacznie więcej przypisów. [...] Na wstępie niniejszego artykułu postawiliśmy pytanie, czy Grokipedia jest syntetycznym derywatem [kopią] Wikipedii, czy projektem ideologicznym. Na podstawie naszych ustaleń odpowiedź na oba te pytania brzmi (z pewnymi zastrzeżeniami): tak.

4. Future of AI Models: A Computational perspective on Model collapse (DOI: 10.48550/arXiv.2511.05535, 2025)

Trenowanie nowych modeli na treściach internetowych, wcześniej już maszynowo wytworzonych przez poprzednie modele, może prowadzić do zjawiska "zapaści" (model collapse). Efektem pętli autofagicznej, bo tak też czasem określa się ten proces, jest coraz większa homogenizacja produkowanych treści. Chociaż z powodzeniem da się wykorzystywać dane syntetyczne w trenowaniu, jedynie w ograniczony sposób są one w stanie zapewnić różnorodność językową czy estetyczną, a to od niej zależy jakość przynajmniej dużych modeli ogólnego przeznaczenia. Stąd tak istotne są badania homogenizacji treści internetowych. Okazuje się, że bardzo dobrze do tych zadań nadają się hasła Wikipedii, ponieważ są tworzone w sposób spójny i przez ludzkich autorów, którzy jednak, co niewykluczone, w jakiś sposób wykorzystywać mogą generatywną AI. W badaniu porównywano (miara podobieństwa kosinusowego) artykuły Wikipedii z lat 2013-2015. W efekcie, jak czytamy

obserwowane fluktuacje odzwierciedlają nieusuwalną różnorodność językową [Wikipedii], zmienną wielkość korpusu w poszczególnych latach [treści Wikipedii pozyskano z korpusu Common Crawl - MW], skończony błąd próbkowania oraz wykładniczy wzrost podobieństwa po publicznym udostępnieniu modeli LLM. Wyniki te pozwalają na postawienie opartej na danych prognozy, kiedy rekurencyjne "zanieczyszczenie" AI [Wikipedii] może istotnie zagrozić bogactwu danych i zdolności do trenowania modeli [na podstawie zasobów internetowych].

5. HistoryBankQA: Multilingual Temporal Question Answering on Historical Events (DOI: 10.48550/arXiv.2509.12720, 2025)

Jednym z wyzwań dla jakości dużych modeli językowych jest ich zdolność generowania poprawnych odpowiedzi na pytania o określone zakresy chronologiczne. Pytania "kim był Harry Truman" wydają się bardziej trywialne niż te w stylu "wymień prezydentów USA rządzących w okresie II wojny światowej". Omawiany artykuł opisuje metody i wyniki testowania dużych modeli za pomocą tego typu pytań (temporal QA), a wykorzystywana do tego jest baza HistoryBank, zawierająca wytworzone na podstawie infoboksów z haseł Wikipedii oraz stron "Wikipedia’s On This Day" (takich jak ta). Chociaż autorzy opracowania informują, że baza jest dostępna publicznie i zawiera informacje o 10 mln wydarzeń w 10 językach, nie udało mi się jej odnaleźć (być może pojawi się publicznie dopiero po publikacji badania, które na razie dostępne jest w postaci preprintu). Wikipedia okazuje się nie tylko wartościowym zasobem tekstowym do trenowania modeli językowych, ale też do ich testowania.

Kolejne propozycje lekturowe pojawią się w następnej notce w cyklu. Jeśli chcielibyście zaproponować jakieś opracowanie do tego zestawu, piszcie na dev@wilkowski.org.

Obrazek w tle na podstawie WP25 FB Cover 851x462 4.png, CC BY-SA.

Autor: redakcja

🤗
Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.