Uruchomienie bloga zostało sfinansowane przez społeczność ❤️
Mecenasem bloga jest Fundacja Zakłady Kórnickie,
wydawca portalu historycznego Hrabia Tytus

25 badań na 25-lecie Wikipedii [cz. IV]

25 badań na 25-lecie Wikipedii [cz. IV]

W kolejnej edycji przeglądu tekstów naukowych o Wikipedii przeczytać można o trudnościach w wykrywaniu maszynowych edycji haseł, procesie definiowania gatunków muzycznych w dyskusjach między edytorami i edytorkami, metodach mierzenia "cyfrowego śladu" zbiorów muzealnych w Wikipedii oraz podejściu autorek i autorów tekstów naukowych do cytowań ich prac w treści haseł.

Pewnie niewiele osób już pamięta, że Wikipedia w tym roku skończyła 25 lat!. Żeby o tym przypomnieć i pokazać, jakie znaczenie ma Wikipedia także jako obiekt badań i źródło danych badawczych, co miesiąc publikuję zestaw pięciu interesujących badań wokół tego projektu. Zapraszam do lektury kolejnej piątki 🙂.

Poprzednie zestawienia interesujących badań dostępne są tutaj:

16. WETBench: A Benchmark for Detecting Task-Specific Machine-Generated Text on Wikipedia (DOI: 10.48550/arXiv.2507.03373, 2026)

Społeczność Wikipedii broni się przed zalewem treści generowanych maszynowo. Maszynowe metody rozpoznawania takiego tekstu nie uwzględniają jednak zazwyczaj specyfiki tworzenia treści w tej największej sieciowej encyklopedii. Tworzenie hasła od podstaw to tylko jedna z aktywności edytorskiej - autorzy opracowania wśród task-specific editing scenarios wyróżniają edycje na poziomie paragrafów, streszczenia i transfer stylu (czyli dostosowywanie języka haseł m.in. do założeń neutralnego punktu widzenia oraz stylu encyklopedycznego). Maszynowe wsparcie w takich zadaniach może być trudniej wykrywalne niż w generowaniu całych haseł. Stąd pomysł na stworzenie benchmarku do detekcji takich edycji.

Przetestowanie generatywnych edycji, wykonywanych za pomocą różnych metod (prosty prompt, prompt z kontekstem, RAG) polegało na porównaniu ich z edycjami tworzonymi ręcznie przez ludzi. Wykorzystywano rozmaite miary i metody liczenia podobieństwa tekstów, m.in. BERTScore, QAFactEval czy ROUGE. Detektory specjalnie doszkolone (training-based) uzyskały w benchmarku średnią dokładność klasyfikacji na poziomie 78 proc., te działające w trybie zero-shot (a więc bez przeszkolenia) tylko 58 proc. Być może to właśnie drobne edycje, a nie maszynowo generowane od podstaw hasła są głównym zagrożeniem dla treści Wikipedii.

17. Assembling Hyperpop: Genre Formation on Wikipedia (DOI: 10.1177/17499755241264905, 2026)

Autorzy opracowania analizują historię edycji wikipedystycznego hasła poświęconego hyperpopowi. O muzyce tego gatunku przeczytać można w czasopiśmie "Glissando" - autorów badania interesowało to, w jaki sposób definiowano na Wikipedii ten gatunek, a szerzej: jak w ogóle można definiować gatunki muzyczne w internecie.

Autorzy rozpoznali wiele konfliktów i wykluczeń, które miały miejsce w procesie kształtowania treści hasła. Przykładowo, uznano, że wspominanie japońskich artystów muzyki elektronicznej i J-popu będzie w opisie historii hyperpopu zbędne, chociaż - jak przekonują badacze - pewne estetyki tego gatunku bezpośrednio wywodzić się mogą np. z takich gwiazd japońskiej sceny jak Hatsune Miku (szczególnie chodzić tu ma o sposoby manipulacji głosem). Obok kontrowersji w społeczności edytorów źródłem takich a nie innych definicji gatunkowych mogą być też… założenia ontologiczne samego szablonu gatunku w Wikipedii.

18. Uniting and reigniting critical Wikimedia research (DOI: 10.1177/20539517251357292, 2025)

Wikipedię trzeba badać w nowy sposób - przekonują autorzy tego opracowania, rozwijając koncepcje manifestu wydanego jeszcze w 2024 roku. Od dawna Wikipedia nie jest już tylko encyklopedią - stała się elementem systemów wyszukiwania, podstawą danych treningowych AI i przestrzenią globalnego definiowania faktów i obiegu informacji. Wikipedyści rozwijają jej zasoby, ale ich praca jest wykorzystywana przez duże firmy (choćby Google) do rozwijania swoich produktów, a duże modele językowe w konsekwencji “wywłaszczają wspólnotę wiedzy”, zamykając ją w reżimie praw autorskich. Wikipedię tworzą już dziś nie tylko ludzie, ale boty - te autoryzowane przez społeczność, pomagające w edycji, ale też osoby używające agentów AI i modele językowe do tworzenia i edytowania haseł. To wszystko zmusza do rozwijania badań nad Wikipedią, uwzględniających współczesny ekosystem internetu oraz posługujących się metodami z wielu dziedzin.

19. Assessing the digital footprint of heritage collections through Wikimedia data (DOI: 10.1446/118110, 2026)

Opracowanie zawiera przegląd metod badania widzialności zasobów cyfrowych, jakie w ekosystemie Wikipedii udostępniają instytucje kultury i dziedzictwa. Mierzenie "cyfrowego śladu" może polegać na analizie liczby odsłon stron haseł albo stron, na których publikowane są skany i zdjęcia. Można korzystać też z liczby edytorów i edytorek danego hasła (poświęconego artefaktowi), liczby edycji i ich częstotliwości. Można też badać rozmiary strony hasła (w bajtach) i obecność materiałów wizualnych.

Ponieważ treści Wikipedii funkcjonują w mediach społecznościowych, platformy te powinny być też uwzględnione w analizie "cyfrowego śladu". Obok analizy liczby polubień czy udostępnień można badać komentarze na temat linkujących do Wikipedii wpisów, nawet analizując ich tematykę czy nacechowanie emocjonalne.

Analizując dane włoskich muzeów i dane z Wikipedii autorzy opracowania wyliczają, że wzrost liczby fizycznych gości o 1 proc. przekłada się na około 0.4 proc. wzrost liczby wyświetleń strony muzeum w Wikipedii, przy czym ta korelacja obserwowana jest głównie w przypadku państwowych instytucji o długiej historii, posiadających najbardziej znane kolekcje.

Artykuł z pewnością jest warty polecenia wszystkim osobom zainteresowanym współpracą instytucji kultury z Wikipedią - GLAM-WIKI.

20. Research citations building trust in Wikipedia: Results from a survey of published authors (DOI: 10.1371/journal.pone.0320334, 2025)

Jak badacze i badaczki postrzegają wiarygodność cytowań z Wikipedii i to, jak ich prace są tam przytaczane? Ankieta wysłana do ponad 40 tys. autorów i autorek prac cytowanych z Wikipedii pozwoliła pozyskać 750 pełnych odpowiedzi. Ankietowani pozytywnie oceniali cytowanie własnych badań w Wikipedii oraz angażowanie badaczy i badaczek w ten projekt (średnie oceny >7/10). Co ciekawe, nauki fizyczne i matematyczne uzyskały najwyższy średni wynik (około 7.93), a nauki humanistyczne najniższy (około 6.7).

Jedna z ankietowanych osób napisała:

W kontekście badań naukowych Wikipedia jest raczej “lejkiem” niż źródłem. Oznacza to, że pomaga znaleźć w jednym miejscu zbiór odniesień [naukowych -MW] wraz z komentarzem ułatwiającym ich przyswojenie. Ostatecznie to recenzowane publikacje, do których Wikipedia się odwołuje, stanowią najlepszą gwarancję jakości wiedzy, a odpowiedzialność za właściwą ocenę i ewaluację każdego źródła spoczywa na badaczu. W związku z tym ważne jest, aby rozumieć “zaufanie” do Wikipedii bardziej jako do bramy dostępu niż jako do ostatecznego arbitra.

Obrazek w tle na podstawie WP25 FB Cover 851x462 4.png, CC BY-SA.

Autor: redakcja

🤗
Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.