25 badań na 25-lecie Wikipedii [cz. IV]
![25 badań na 25-lecie Wikipedii [cz. IV] 25 badań na 25-lecie Wikipedii [cz. IV]](https://blog.humanistyka.dev/content/images/20260121174438-e57b0c18bd327d0df23f42849b1f7e0e.png)
W kolejnej edycji przeglądu tekstów naukowych o Wikipedii przeczytać można o trudnościach w wykrywaniu maszynowych edycji haseł, procesie definiowania gatunków muzycznych w dyskusjach między edytorami i edytorkami, metodach mierzenia "cyfrowego śladu" zbiorów muzealnych w Wikipedii oraz podejściu autorek i autorów tekstów naukowych do cytowań ich prac w treści haseł.
Pewnie niewiele osób już pamięta, że Wikipedia w tym roku skończyła 25 lat!. Żeby o tym przypomnieć i pokazać, jakie znaczenie ma Wikipedia także jako obiekt badań i źródło danych badawczych, co miesiąc publikuję zestaw pięciu interesujących badań wokół tego projektu. Zapraszam do lektury kolejnej piątki 🙂.
Poprzednie zestawienia interesujących badań dostępne są tutaj:
- /25-badan-na-25-lecie-wikipedii-cz-i
- /25-badan-na-25-lecie-wikipedii-cz-ii
- /25-badan-na-25-lecie-wikipedii-cz-iii
16. WETBench: A Benchmark for Detecting Task-Specific Machine-Generated Text on Wikipedia (DOI: 10.48550/arXiv.2507.03373, 2026)
Społeczność Wikipedii broni się przed zalewem treści generowanych maszynowo. Maszynowe metody rozpoznawania takiego tekstu nie uwzględniają jednak zazwyczaj specyfiki tworzenia treści w tej największej sieciowej encyklopedii. Tworzenie hasła od podstaw to tylko jedna z aktywności edytorskiej - autorzy opracowania wśród task-specific editing scenarios wyróżniają edycje na poziomie paragrafów, streszczenia i transfer stylu (czyli dostosowywanie języka haseł m.in. do założeń neutralnego punktu widzenia oraz stylu encyklopedycznego). Maszynowe wsparcie w takich zadaniach może być trudniej wykrywalne niż w generowaniu całych haseł. Stąd pomysł na stworzenie benchmarku do detekcji takich edycji.
Przetestowanie generatywnych edycji, wykonywanych za pomocą różnych metod (prosty prompt, prompt z kontekstem, RAG) polegało na porównaniu ich z edycjami tworzonymi ręcznie przez ludzi. Wykorzystywano rozmaite miary i metody liczenia podobieństwa tekstów, m.in. BERTScore, QAFactEval czy ROUGE. Detektory specjalnie doszkolone (training-based) uzyskały w benchmarku średnią dokładność klasyfikacji na poziomie 78 proc., te działające w trybie zero-shot (a więc bez przeszkolenia) tylko 58 proc. Być może to właśnie drobne edycje, a nie maszynowo generowane od podstaw hasła są głównym zagrożeniem dla treści Wikipedii.
17. Assembling Hyperpop: Genre Formation on Wikipedia (DOI: 10.1177/17499755241264905, 2026)
Autorzy opracowania analizują historię edycji wikipedystycznego hasła poświęconego hyperpopowi. O muzyce tego gatunku przeczytać można w czasopiśmie "Glissando" - autorów badania interesowało to, w jaki sposób definiowano na Wikipedii ten gatunek, a szerzej: jak w ogóle można definiować gatunki muzyczne w internecie.
Autorzy rozpoznali wiele konfliktów i wykluczeń, które miały miejsce w procesie kształtowania treści hasła. Przykładowo, uznano, że wspominanie japońskich artystów muzyki elektronicznej i J-popu będzie w opisie historii hyperpopu zbędne, chociaż - jak przekonują badacze - pewne estetyki tego gatunku bezpośrednio wywodzić się mogą np. z takich gwiazd japońskiej sceny jak Hatsune Miku (szczególnie chodzić tu ma o sposoby manipulacji głosem). Obok kontrowersji w społeczności edytorów źródłem takich a nie innych definicji gatunkowych mogą być też… założenia ontologiczne samego szablonu gatunku w Wikipedii.
18. Uniting and reigniting critical Wikimedia research (DOI: 10.1177/20539517251357292, 2025)
Wikipedię trzeba badać w nowy sposób - przekonują autorzy tego opracowania, rozwijając koncepcje manifestu wydanego jeszcze w 2024 roku. Od dawna Wikipedia nie jest już tylko encyklopedią - stała się elementem systemów wyszukiwania, podstawą danych treningowych AI i przestrzenią globalnego definiowania faktów i obiegu informacji. Wikipedyści rozwijają jej zasoby, ale ich praca jest wykorzystywana przez duże firmy (choćby Google) do rozwijania swoich produktów, a duże modele językowe w konsekwencji “wywłaszczają wspólnotę wiedzy”, zamykając ją w reżimie praw autorskich. Wikipedię tworzą już dziś nie tylko ludzie, ale boty - te autoryzowane przez społeczność, pomagające w edycji, ale też osoby używające agentów AI i modele językowe do tworzenia i edytowania haseł. To wszystko zmusza do rozwijania badań nad Wikipedią, uwzględniających współczesny ekosystem internetu oraz posługujących się metodami z wielu dziedzin.
19. Assessing the digital footprint of heritage collections through Wikimedia data (DOI: 10.1446/118110, 2026)
Opracowanie zawiera przegląd metod badania widzialności zasobów cyfrowych, jakie w ekosystemie Wikipedii udostępniają instytucje kultury i dziedzictwa. Mierzenie "cyfrowego śladu" może polegać na analizie liczby odsłon stron haseł albo stron, na których publikowane są skany i zdjęcia. Można korzystać też z liczby edytorów i edytorek danego hasła (poświęconego artefaktowi), liczby edycji i ich częstotliwości. Można też badać rozmiary strony hasła (w bajtach) i obecność materiałów wizualnych.
Ponieważ treści Wikipedii funkcjonują w mediach społecznościowych, platformy te powinny być też uwzględnione w analizie "cyfrowego śladu". Obok analizy liczby polubień czy udostępnień można badać komentarze na temat linkujących do Wikipedii wpisów, nawet analizując ich tematykę czy nacechowanie emocjonalne.
Analizując dane włoskich muzeów i dane z Wikipedii autorzy opracowania wyliczają, że wzrost liczby fizycznych gości o 1 proc. przekłada się na około 0.4 proc. wzrost liczby wyświetleń strony muzeum w Wikipedii, przy czym ta korelacja obserwowana jest głównie w przypadku państwowych instytucji o długiej historii, posiadających najbardziej znane kolekcje.
Artykuł z pewnością jest warty polecenia wszystkim osobom zainteresowanym współpracą instytucji kultury z Wikipedią - GLAM-WIKI.
20. Research citations building trust in Wikipedia: Results from a survey of published authors (DOI: 10.1371/journal.pone.0320334, 2025)
Jak badacze i badaczki postrzegają wiarygodność cytowań z Wikipedii i to, jak ich prace są tam przytaczane? Ankieta wysłana do ponad 40 tys. autorów i autorek prac cytowanych z Wikipedii pozwoliła pozyskać 750 pełnych odpowiedzi. Ankietowani pozytywnie oceniali cytowanie własnych badań w Wikipedii oraz angażowanie badaczy i badaczek w ten projekt (średnie oceny >7/10). Co ciekawe, nauki fizyczne i matematyczne uzyskały najwyższy średni wynik (około 7.93), a nauki humanistyczne najniższy (około 6.7).
Jedna z ankietowanych osób napisała:
W kontekście badań naukowych Wikipedia jest raczej “lejkiem” niż źródłem. Oznacza to, że pomaga znaleźć w jednym miejscu zbiór odniesień [naukowych -MW] wraz z komentarzem ułatwiającym ich przyswojenie. Ostatecznie to recenzowane publikacje, do których Wikipedia się odwołuje, stanowią najlepszą gwarancję jakości wiedzy, a odpowiedzialność za właściwą ocenę i ewaluację każdego źródła spoczywa na badaczu. W związku z tym ważne jest, aby rozumieć “zaufanie” do Wikipedii bardziej jako do bramy dostępu niż jako do ostatecznego arbitra.
Obrazek w tle na podstawie WP25 FB Cover 851x462 4.png, CC BY-SA.
Autor: redakcja
