25 badań na 25-lecie Wikipedii [cz. V]
![25 badań na 25-lecie Wikipedii [cz. V] 25 badań na 25-lecie Wikipedii [cz. V]](https://blog.humanistyka.dev/content/images/20260121174438-e57b0c18bd327d0df23f42849b1f7e0e.png)
ChatGPT i Google AI Overviews korzystają z Wikipedii jako jednego z głównych źródeł wiedzy, Reddit i Wikipedia mogą stać się celem ataków typu WARP (Web Agent Retrieval Poisoning) a ustrukturyzowane opisy z Wikimedia Commons pozwalają na budowanie modeli wykonujących zadania Visual Question Answering (VQA) - na przykład rozpoznawanie zabytków albo potraw kuchni świata. To tematy prac naukowych, opisane w ostatnim zestawieniu z cyklu.
Oto ostatnia notka z cyklu poświęconego badaniom nad Wikipedią i jej siostrzanymi projektami oraz wykorzystaniu tych projektów w badaniach naukowych. Zestawienie budowałem od stycznia z okazji 25-lecia Wikipedii:
- 25 badań na 25-lecie Wikipedii [cz. I]
- 25 badań na 25-lecie Wikipedii [cz. II]
- 25 badań na 25-lecie Wikipedii [cz. III]
- 25 badań na 25-lecie Wikipedii [cz. IV]
21. Tym razem przywołuję pracę licencjacką, a nie artykuł naukowy ani preprint, ale tematyka i sposób ujęcia problemu bardzo mi się tu podoba. Praca Automatically Estimating the Trustworthiness of Wikipedia Articles [PDF, 2025] przygotowana została na wydziale informatyki Uniwersytetu Friedricha Schillera w Jenie i opisuje konstrukcję modelu, pozwalającego automatycznie oznaczać wiarygodne wersje haseł Wikipedii. Prawdopodobieństwa tego, czy artykuł jest wiarygodny, czy nie, wyliczane ma być na podstawie zebranych dla zestawu treningowego różnic w treści między jego wersją oznaczoną jako niewiarygodna lub wymagająca uzupełnienia (Unreliable sources lub Dubious) a wersją, w której nie ma już tych oznaczeń. Drugim źródłem jest ocena źródeł zewnętrznych (źródła mniej wiarygodne to te, które występują częściej w wersjach haseł z negatywnym oznaczeniem wiarygodności). Odpowiednie rozwinięcie tego pomysłu miałoby pozwolić na budowanie narzędzi przeglądarkowych do automatycznej oceny jakości treści wyświetlanych na odwiedzanych stronach. Podoba mi się, że proponowane rozwiązanie korzysta z ludzkich ocen (oznaczenia nierzetelnych haseł dodawane są ręcznie) oraz uwzględnienie w ewaluacji jakości źródeł zewnętrznych.
22. Deep-Research Agents Can Be Poisoned via User-Generated Content [DOI: 10.48550/arXiv.2605.24245, 2026]
WARP (Web Agent Retrieval Poisoning) to rodzaj ataków na funkcjonowanie popularnych w systemach konwersacyjnych AI narzędzi do pozyskiwania wiedzy ze źródeł internetowych (czyli spoza modelu). Kiedy pytamy ChatGPT czy Gemini o wybraną kwestię, możemy otrzymać informacje pochodzące z wybranych stron internetowych. Także z Reddita czy Wikipedii, co jest właśnie źródłem problemu. Na platformach tych, co wynika przecież z ich natury, łatwo dodawać nowe treści. Osoba atakująca identyfikuje konkretne strony (adresy), które są regularnie wyświetlane w wynikach wyszukiwania dla danego tematu i stara się zmanipulować ich treść. Że taki atak mógłby być przygotowany za pomocą Wikipedii pokazuje sprawa tzw. Mistyfikacji Zhemao - gdzie w latach 2012-2022 tylko jedna edytorka stworzyła na chińskojęzycznej Wikipedii ponad 200 sfabrykowanych artykułów na temat historii średniowiecznej Rosji.
Omawiane badanie było symulacją takiego ataku - ze względów etycznych nie manipulowano treści na rzeczywistych platformach. Okazało się np., że w obrębie jednego klastra tematycznego nawet w 48 proc. zapytań proponowane przez systemy konwersacyjne były te same źródła zewnętrzne. Serwisy publikujące treści tworzone przez użytkowników (takie jak Reddit czy Wikipedia) stanowiły od 17 do 23 proc. wszystkich adresów URL proponowanych w konwersacjach z "AI".
23. Answer Bubbles: Information Exposure in AI-Mediated Search (DOI: 10.48550/arXiv.2603.16138, 2026)
Omawiany preprint także poświęcony jest bańkom wyszukiwawczym. Autorzy przeanalizowali odpowiedzi na 11 tys. rzeczywistych zapytań użytkowników w 11 kategoriach tematycznych, biorąc pod uwagę cztery systemy dostępu do wiedzy publikowanej w internecie: tradycyjne wyszukiwanie Google, maszynowe podpowiedzi Google AI Overviews (AIO), wyszukiwanie za pomocą GPT-4o-mini i odpowiedzi z samej wiedzy tego modelu (bez dostępu do WWW).
Badanie wskazuje m.in. na formatowanie wiedzy gromadzonej maszynowo w zależności od wykorzystanego systemu (to właśnie owe answer bubbles). Autorzy zwracają także uwagę na zanikanie różnic w proponowanych odpowiedziach między cytowaniem a syntezą (co ma duże znaczenie dla interpretacji) oraz efekt tzw. spłaszczenia epistemicznego - w generowanych odpowiedziach zanikają słowa i frazy akcentujące niepewność wobec prezentowanej wiedzy czy podejrzliwość wobec wykorzystanych źródeł.
Wikipedia okazuje się najczęściej cytowanym źródłem we wszystkich eksperymentach: pojawia się w 81 proc. odpowiedzi w tradycyjnych wynikach Google, w 49 proc. zapytań z WWW proponowanych przez GPT-4o-mini oraz w 28 proc. odpowiedzi generowanych w Google AI Overviews. Wikipedia jest także intensywniej niż inne źródła wykorzystywana w konstrukcji odpowiedzi.
Zestawienie wykorzystanych źródeł internetowych w odpowiedziach w różnych systemach i w różnych kategoriach tematycznych.
24. ArchGPT: Understanding the World's Architectures with Large Multimodal Models [DOI: 10.48550/arXiv.2509.20858, 2025]
Visual Question Answering (VQA) to kategoria zadań, w których model ma za zadanie opisać za pomocą języka naturalnego przedstawiony mu wizerunek. Zadania takie przedstawiane są modelom multimodalnym, czyli takim, które łączą w sobie kompetencje modeli językowych i wizualnych. Przedstawiony w omawianym opracowaniu model ArchGPT ma sprawdzać się w zadaniach VQA dotyczących architektury.
Mam ograniczone zaufanie do tego opracowania, ponieważ po roku cytowane jest wyłącznie jednokrotnie, nie znalazłem też żadnej informacji o oficjalnej publikacji artykułu ani linku do udostępnionego modelu. Dlatego zamiast opisywać konstrukcję i wynik testów ArchGPT wolę zwrócić Waszą uwagę na dane treningowe i ich opracowanie.
Wykorzystano tam zasoby i wiedzę, którą udostępnili wolontariusze i instytucje publikujące w repozytorium Wikimedia Commons. Dla pracy z tymi zasobami kluczowe było, że poza wolnością przetwarzania i wykorzystania wizerunków, można było użyć informacji o nich udostępnianych w sposób ustrukturyzowany. Co więcej, skorzystano z odnośników do WikiDanych, które pozwoliły na zbudowanie niezbędnego kontekstu dla wizerunków. Dostępne wizerunki filtrowano, tak aby usunąć te niepasujące do zestawu treningowego, maszynowo (dzięki przetworzeniom 3D) poprawiano też perspektywę, tak aby budynki były najlepiej widoczne.
Wciąż trudno mi zaufać tej publikacji - mimo zapewnień, ani model, ani zestaw danych treningowych o nazwie Arch-300K nie został upubliczniony. Być może praca dokumentuje pojedynczy eksperyment albo po prostu jest efektem naukowej nieuczciwości (publikacja w ArXiv nie zawsze przed tym chroni). Mimo to lektura tego tekstu się przydaje - warto poznać problem zadań VQA oraz docenić znaczenie Wikipedii i Wikimedia Commons (w tym ustrukturyzowanych danych z tych źródeł) w rozwoju modeli przeznaczonych do kategoryzacji wizualnej.
Pięknym przykładem takich danych jest zestaw worldcuisines/vqa-v1.1, który - jak sama nazwa wskazuje - pozwala na trenowanie modeli kategoryzujących dania kuchni świata.
25. Wikipedia Readers and Readership Research: Key findings from a decade of research and whatʼs ahead - Wikimedia Research Showcase - September 2025 [DOI: 10.6084/m9.figshare.30230695, 2025]
Otwartość Wikipedii i siostrzanych projektów polega też na tym, że dostajemy bardzo dużo informacji o tym, jak działa cały system, jak wykorzystywane są jego zasoby i treści i co dzieje się w poszczególnych projektach. Przykładowym raportem, pokazującym wartość takiej otwartości, jest opracowanie na temat czytelników Wikipedii i modeli jej czytania (w latach 2015-2025).
Dzięki niemu dowiedziałem się m.in. o kategorii osieroconych artykułów (orphan articles) w Wikipedii - to hasła, do których nie można się dostać korzystając wyłącznie z nawigacji (to 15 proc. wszystkich haseł). Raport podejmuje też problem "sztucznej inteligencji": "generatywna sztuczna inteligencja znacznie obniżyła koszty tworzenia treści, równolegle jednak koszty weryfikowania tych treści pozostają wysokie". Ciekawe zestawienia prezentują też wykresy pokazujące intencje, z jakimi trafiają na Wikipedię czytelnicy.
Raport najlepiej pobrać na dysk w formacie PDF - podgląd na stronie wykrzacza niektóre elementy prezentacji.
Autor: redakcja
