RuWiki: przepis na stworzenie propagandowej alternatywy dla Wikipedii

Od czerwca 2023 roku działa rosyjski fork Wikipedii. Analiza różnic między treścią rosyjskiej Wikipedii a treścią RuWiki pozwala poznać metody, którymi autorytarne państwo może manipulować największą i dostępną dla wszystkich encyklopedią.
Władze Chin, Rosji, ale też USA, mają różne zastrzeżenia do Wikipedii. Ponieważ wszystkie wersje językowe Wikipedii publikowane są na tym samym otwartym oprogramowaniu MediaWiki, a treści i dane dostępne są na wolnych licencjach, stworzenie własnej kopii (forka) jest bardzo ułatwione. Chiński rząd skorzystał z tych możliwości i w czerwcu 2023 roku uruchomił Qiuwen Baike, kopiując i odpowiednio przetwarzając treści z chińskiej Wikipedii. W tym samym czasie zrobili to samo Rosjanie, tworząc RuWiki, uruchomioną i zarządzaną wciąż przez byłego szefa Wikimedia Russia, Władimira Medejko.
Czym jest Ruwiki
W jaki sposób Władimir Medejko mógł rozwinąć tak wymagający projekt jak prowadzenie forka Wikipedii? Nie wiemy zbyt dużo o źródłach finansowania Ruwiki, są one jednak na tyle wysokie, że zapewniają pokaźny budżet reklamowy. Jak pisze Ilja Dawljatczyn, dziennikarz Pointmedia.io, portalu krytycznie opisującego rosyjską rzeczywistość:
Według informacji podanych przez RuWiki, w ramach projektu wydano 173 miliony rubli na pensje pracowników w 2023 roku. Kolejne 252 miliony rubli przeznaczono na utrzymanie kadry zarządzającej. Kolejne 62 miliony rubli wydano na wynajem biura przy Prospekcie Leningradzkim w Moskwie. Tak duże wydatki sprawiają, że coraz mniej prawdopodobne jest, że strona odzyska inwestycje “inwestorów” - model reklamowy nie jest aż tak dochodowy, mówi [cytowany przez dziennikarza - MW] Michaił Gruznow.
Powstanie Ruwiki wpisuje się, jak podkreśla Dawljatczyn, w strategię władz Federacji Rosyjskiej, które przynajmniej od 2010 roku krytykują Wikipedię i starają się wpływać na treści jej haseł:
Alina Kabajewa nie jest kochanką Putina, rzeź w Buczy była inscenizacją, a społeczność LGBT domaga się od władz szczególnych praw. Tak twierdzi rosyjski odpowiednik “Wikipedii” - encyklopedia RuWiki, uruchomiona rok temu i wsparta setkami milionów od potężnych mecenasów.
Interwencje cenzury, autorytarne zmiany wydźwięku haseł, podporządkowane oficjalnej linii propagandy oraz sam system tworzenia edycji w RuWiki zostały opisane z szerokiej perspektywy w pracy Characterizing Knowledge Manipulation in a Russian Wikipedia Fork (10.48550/arXiv.2504.10663, 2025).
Jak badano manipulacje w RuWiki
Autorzy artykułu przeanalizowali 1,9 mln haseł z rosyjskiej Wikipedii i RuWiki. Wykorzystali zrzut bazy rosyjskiej Wikipedii z maja, a następnie pobrali treści haseł z RuWiki, która działa od czerwca, opierając się właśnie na czerwcowej wersji oryginalnej Wikipedii w języku rosyjskim. Kluczem pozwalającym na zestawienia ze sobą haseł z Wikipedii i RuWiki były tytuły haseł. Zbieranie danych zakończono we wrześniu 2023 roku. Korzystano nie tylko z treści haseł, ale też z ich metadanych, np. statystyk oglądalności. Identyfikatory ostatnich rewizji pozwalały na automatyczną selekcję zmienionych w RuWiki haseł. Jeśli ostatni identyfikator rewizji danego hasła RuWiki nie był dostępny w historii tego samego hasła w rosyjskiej Wikipedii, uznawano, że wprowadzono pewne zmiany.
Za pomocą biblioteki mwedittypes wyodrębniono zdania lub frazy, które zostały wstawione lub usunięte w opisach artykułów. Czasem zmiany te były niewielkie i mogły być pozbawione znaczenia, dlatego zastosowano automatyczne filtrowanie za pomocą miary odległości Levenshteina. Miara ta wskazuje, jaką liczbę operacji (np. usunięcia, dodania czy zmiany znaków) należy wykonać, aby przekształcić jeden tekst w drugi.
Aby wyznaczyć modyfikacje, które stanowiły istotne zmiany treści, porównywano zdania z list wstawionych i usuniętych treści. Przyjęto próg podobieństwa wynoszący 0.6 (czyli 60 proc). Jeśli podobieństwo zdania z rosyjskiej Wikipedii porównywanego ze zdaniem z RuWiki przekraczało 0.6, oznaczało to, że treść została zmieniona. Takie pary podobnych zdań przenoszono na listę zmienionych, usuwając je jednocześnie z list wstawionych i usuniętych treści.
Jak czytamy, spośród 1.9 mln analizowanych haseł, w RuWiki zmieniono 1.75 proc. (ponad 33 tys.). 0.96 proc. z nich zawierało zmiany w samym tekście, a kolejne 0.79 proc. zmiany w elementach, które nie wpływały na treść (formatowanie, przypisy, tagi, multimedia itp.).
Problemem przy interpretacji liczby takich zmian byłoby to, gdyby równocześnie traktowano hasła popularne i te zupełnie niszowe. Aby temu przeciwdziałać, wypracowano miary istotności poszczególnych haseł (relevance metrics), bazujące na całkowitej liczbie ich edycji, wskaźnik edycji dokonywanych przez niezarejestrowanych użytkowników, proporcję edycji uznanych za szkodliwe i następnie wycofanych oraz średnią miesięczną liczbę wyświetleń. Źródłem tych danych była rosyjska Wikipedia.
Przeprowadzono też analizy jakościowe zmian w treści haseł, korzystając z narzędzi NER, pozwalających na wyodrębnianie nazw własnych i innych wybranych kategorii (np. określeń czasu, tematów, nazw geograficznych itp.). Za pomocą modelu GPT-4o-mini wygenerowano podsumowania rozpoznanych różnic między poszczególnymi hasłami z rosyjskiej Wikipedii i RuWiki. Dzięki modelowi text-embedding-3-small przekształcono te podsumowania w postaci wektorowe, które dało się następnie maszynowo porównywać, wyznaczając np. te, których treść jest podobna.
Jak manipulować internetową encyklopedią?
Jaki więc jest przepis twórców RuWiki na przygotowanie prokremlowskiej wersji Wikipedii? Wyniki omawianego badania wskazują na kilka podstawowych metod działania:
- chociaż tylko około 1.75 proc. haseł z rosyjskiej Wikipedii zostało zmienionych w RuWiki, hasła te odpowiadały za około 14.2 proc. wyświetleń rosyjskiej Wikipedii. Edytowano przede wszystkim hasła popularne, posiadające więcej edycji czy kontrowersyjne, które mogły mieć największy wpływ na odbiorców,
- analiza metadanych zmian w treści haseł RuWiki wykazała, że edytorzy RuWiki mają okres aktywności, który pokrywa się ze standardowymi godzinami pracy biurowej i charakteryzuje się znacznie zmniejszoną aktywnością w weekendy. Być może twórcy RuWiki zagwarantowali sobie rozwój swojego projektu dzięki grupie etatowych pracowników,
- na propagandowy charakter RuWiki zwraca uwagę charakter zmian w
treści haseł (względem oryginalnych haseł z rosyjskiej Wikipedii):
- geografia: najczęściej zmieniane hasła dotyczą lokalizacji na Ukrainie, w Rosji i na Białorusi, szczególnie tych, wobec których Rosja wysuwa żądania,
- kategorie haseł: najczęściej dodawane i usuwane kategorie związane są z inwazją Rosji na Ukrainę w 2022 roku, w szczególności z terenami okupowanymi lub z sankcjami,
- źródła: często dodaje się odnośniki do rosyjskich źródeł rządowych oraz usuwa odnośniki do źródeł publikowanych przez rząd Ukrainy i państwa UE,
- treści haseł: większość zmian w treści (ok. 90 proc) można zaklasyfikować za pomocą ośmiu głównych kategorii. Zmiany dotyczą najczęściej informacji o statusie określonych terytoriów, informacji o sankcjach międzynarodowych na Rosję oraz pojęć opisujących inwazję Rosji na Ukrainę w 2022 roku (ok. 44 proc).
Jeśli RuWiki ma być prokremlowską alternatywą wobec rosyjskiej Wikipedii, władze Rosji budują ją przede wszystkim w celu wykorzystania w propagandzie wobec inwazji na Ukrainę. To dziś główne zadanie, jakie postawiono przed tym projektem. Badacze wykazują, że zmiany dotyczące np. haseł poświęconych LGBT są nieznaczne i polegają przede wszystkim na zmianach kategorii.

Jak na razie RuWiki nie jest więc wykorzystywana do propagandy odwołującej się do wartości konserwatywnych i tradycji w celu wpływania na opinię publiczną państw zachodnich.
Dzięki temu, że systemy Wikipedii rejestrują każde zmiany w treści haseł i udostępniają otwarte API, badacze mogą dokładnie śledzić edycje i analizować wprowadzane modyfikacje. To umożliwia identyfikowanie manipulacji treścią oraz porównywanie wersji różnych forków, tak jak w przypadku RuWiki. Niestety, Wikipedia jest pod tym względem wyjątkowa: w mediach społecznościowych taka analiza jest znacznie trudniejsza, ponieważ dostęp do danych tych platform jest ograniczony, a zmiany w ich treściach nie są publicznie rejestrowane.
Autor: redakcja
