Historyczne modele językowe: Ranke-4B i TimeCapsule LLM

Jedną z cech opisujących poszczególne duże modele językowe jest tzw. knowledge cutoff, czyli punkt w czasie, po którym model nie jest już trenowany na aktualnych danych. Granica wiedzy dla większości dużych modeli to zazwyczaj kilka ostatnich lat. A gdyby tak przesunąć ten punkt bardzo daleko w przeszłość i ustawić go na 1946, 1915, a nawet 1875 rok?
Granice wiedzy dla dużych modeli językowych muszą być nieustannie przesuwane, żeby modele lepiej rozpoznawały współczesny kontekst określonych pojęć czy stwierdzeń oraz - wyłącznie na podstawie danych treningowych - potrafiły identyfikować określone fakty. To szczególnie istotne ze względu na ich komercyjne wykorzystanie oraz to, że powszechnie traktuje się je jako źródło wiedzy (co nie jest najlepszym podejściem). Brak dostępu do wiedzy, czy też raczej rozkładów prawdopodobieństw na temat aktualnych faktów, może prowadzić do halucynacji, obniżających jakość modelu, jeśli model nie ma możliwości przeszukiwania na bieżąco zasobów internetu.
Badanie Dated Data: Tracing Knowledge Cutoffs in Large Language Models (DOI: 10.48550/arXiv.2403.12958, 2024) wskazuje na problemy z wyznaczaniem rzeczywistych granic wiedzy dla popularnych modeli. Skąd te problemy? W zbiorach CommonCrawl, powszechnie wykorzystywanych w trenowaniu, pojawiają się niezgodności czasowe - nawet najnowsze zbiory danych mogą zawierać starsze wersje treści. Także w trakcie przygotowania danych wsadowych mogą być one nieskutecznie deduplikowane, przez co starsze wersje dokumentów traktowane są jako zupełnie nowe i w efekcie realna granica wiedzy modelu przesuwa się w kierunku dat wcześniejszych niż te podane w oficjalnej dokumentacji.
Współczesne uprzedzenia
Pomimo problemów ze skutecznym wyznaczeniem granic wiedzy dużych modeli ogólnego przeznaczenia, wiemy dobrze, że wszystkie one mają współczesny charakter. Znajdziemy w nich, lepsze lub gorsze, odpowiedzi na temat tego, kto przegrał II wojnę światową, na czym polega metoda CRISPR, kto wyreżyserował “Władcę Pierścieni”, czym jest k-pop albo kiedy skończyła się pandemia COVID. Użycie takich modeli do specyficznych historycznych zadań może być przez to problematyczne. Dlaczego?
Jeśli LLMy mają być reprezentacją języka, to są reprezentacją języka współczesnego, a także współczesnych poglądów, idei, pojęć, dodatkowo ograniczoną systemowymi ustawieniami. Gdybyśmy za ich pomocą chcieli wygenerować wiersz w stylu baroku polskiego, być może udałoby się oddać odpowiednią tematykę, na przykład motywy śmierci, przemijania, miłości czy marności świata, jednak słownictwo i gramatyka byłyby już znacznie mniej bliskie historycznym oryginałom. Podobny problem pojawiłby się przy próbie wygenerowania zestawu ogłoszeń z XIX-wiecznej gazety, np. anonsów o sprzedaży majątku, poszukiwaniu służby, rozkładach jazdy kolei, albo w generowanej maszynowo autobiografii żołnierza z frontów I wojny światowej.
Istniałoby duże ryzyko, że tak wygenerowane treści byłyby zniekształcone przez to, co model wie o współczesnej rzeczywistości. Byłyby ahistoryczne nie tylko pod względem słownictwa i gramatyki, ale także wiedzy, wyobrażeń, wartości i sposobów myślenia. Taki przykładowy żołnierz z I wojny światowej mógłby w miarę realistycznie opisywać doświadczenie okopów, ale przy tym np. odwoływać się do pojęcia PTSD albo koncepcji praw człowieka, znacznie przecież późniejszych.
Trudno mi wyobrazić sobie sens maszynowego generowania wojennych narracji albo tworzenia baz fałszywych ogłoszeń prasowych z XIX wieku, jednak jeśli już bardzo by nam na tym zależało, powinniśmy zastosować specjalnie dostosowane modele, niezniekształcone przez współczesne uprzedzenia (unclouded from modern bias), zdolne do operowania językiem, pojęciami i perspektywą właściwymi dla danego okresu historycznego.
Maseczka czy strzała?
Zobaczmy, jak fatalnie działa takie uwspółcześnienie w pracy z prawdziwymi źródłami. Projekt Machina Emblematica pozwalać ma na eksplorację XVI-wiecznego dzieła Symbola et emblemata (tutaj jedno z wydań dostępne w Internet Archive). To standardowy RAG (Retrieval-Augmented Generation), w którym zapytania do dużego modelu językowego wzbogacone są o kontekst z zewnętrznego źródła, co pozwala mu odpowiadać także na tematy spoza własnej wiedzy.
Przykładem współczesnej stronniczości może być tu np. pytanie o symbol pandemii COVID-19, która, co oczywiste, była poza zasięgiem wyobrażeń autora dzieła. Bez wątpienia współczesnym symbolem pandemii jest maseczka i taką odpowiedź proponuje nam model, ale jest to odpowiedź ahistoryczna. W XVI-wiecznym imaginarium, jeszcze za tradycją średniowieczną, symbolem pandemii powinna być raczej strzała, ilustrująca wszechobecność śmierci, jej powszechność i losowość, oraz - poprzez postać łucznika czy łuczniczki - karną ingerencję Boga w świat. Maseczka jako symbol pandemii to efekt myślenia naukowego - pamiętajmy, że słynna maska z ryciny Paula Fürsta miała przede wszystkim chronić przed smrodem choroby i rozkładu, a wykorzystanie w niej ziół czy mirry stanowiło barierę przeciw diabelskim wyziewom.

Uniknąć anarchronizmów
Tworzenie modeli językowych, których granica wiedzy byłaby przesunięta bardzo daleko w przeszłość, pozwoliłoby uniknąć takich anachronizmów. Musiałyby być one jednak trenowane wyłącznie na treściach historycznych, których datowanie nie przekraczałoby zakładanej granicy wiedzy. To tzw. selective temporal training (SST) - należy podkreślić, że nie ma mowy tu o dostrajaniu ogólnych modeli historycznymi treściami, ale trenowaniu ich od zera wyłącznie na odpowiednio wyselekcjonowanych danych.
Jednym z takich modeli jest niewielki - tylko 300 mln parametrów - model TimeCapsuleLLM (GitHub, Hugging Face). Wytrenowany został na kilkudziesięciu GB artykułów prasowych, dokumentów i książek, wydawanych w Londynie w latach 1800-1875. Jego jakość nie jest wysoka, co możemy zobaczyć dzięki przykładom udostępnionym w dokumentacji. To projekt prywatny, realizowany na własnym komputerze z kartą graficzną. Gdyby TimeCapsuleLLM był po prostu dostrajany na jakimś dużym modelu, jakość jego rozumienia pytań i generowania odpowiedzi z pewnością byłaby lepsza, ale stałoby się to kosztem przesuwania granicy wiedzy.
Bardziej zaawansowane modele prezentowane są w ramach projektu Ranke-4B, prowadzonego na Uniwersytecie w Zurichu przez zespół pod kierunkiem Daniela Gettricha. Tutaj także zrezygnowano z dostrajania ogólnego modelu treściami historycznymi, zamiast tego wyuczono go od zera, przyjmując - na podstawie danych treningowych - daty graniczne wiedzy modelu na rok 1913, 1929, 1933, 1939 i 1946. Zbiór danych treningowych obejmował 600 mld tokenów z ponad 20 otwartych archiwalnych zbiorów książek i czasopism. Skorzystanie z mocy obliczeniowych superkomputera CSCS Alps (128 procesorów graficznych NVIDIA GH200) pozwoliło na stworzenie rodziny modeli o 4 mld parametrów. Ponieważ model nie radził sobie z odpowiedziami w formie dialogu (a raczej wpadał w monolog, podając odpowiedź na pierwsze pytanie), zdecydowano się go dostroić z wykorzystaniem zestawów pytań i odpowiedzi, generowanych przez model GPT-5, ale dotyczących wyłącznie faktów i zjawisk ponadczasowych albo z zakładanych granic czasowych.
Efekty braku uwspółcześnienia
Na stronie dokumentacji modeli Ranke-4B czytamy:
Planujemy stworzyć rodzinę wyspecjalizowanych modeli LLM zdolnych do wyrażania norm, postaw, przekonań, poglądów, lęków i niepokojów dawnych społeczeństw, artykułowanych ich własnymi słowami, wyprowadzonymi z trenowania na ich artefaktach tekstowych
Przyjęcie w modelu wyrażających się w tekstach treningowych poglądów i norm powodować ma, że w jakimś stopniu będzie on reprezentować historyczne postawy:
Teksty historyczne zawierają stwierdzenia rasistowskie czy antysemickie, wyrażają mizoginię i poglądy imperialistyczne. Modele będą odtwarzać te postawy, ponieważ są one obecne w danych treningowych. Nie jest to jednak wada, lecz kluczowa cecha tych modeli. Zbadanie, jak takie poglądy były artykułowane i normalizowane, jest niezbędne do zrozumienia tego, w jaki sposób zyskały one społeczną akceptację i się utrwaliły.
Praca z modelami Ranke-4B wymaga więc odpowiedniego przygotowania.
Nazwanie tej rodziny modeli na cześć znanego niemieckiego historyka i teoretyka historiografii jest moim zdaniem nieco ironiczne. Ranke podkreślał przecież rolę krytycznego podejścia do źródeł oraz historii jako badania tego, co rzeczywiście się w przeszłości wydarzyło, tymczasem modele są jedynie statystyczną reprezentacją wybranego zasobu źródeł, której w żaden sposób nie można traktować jako opisu przeszłej rzeczywistości. Jak czytamy w dokumentacji, modele te są skompresowanymi reprezentacjami ogromnych korpusów tekstowych, narzędziami do badania schematów historycznego dyskursu czy też uzupełnieniem tradycyjnych badań archiwalnych (nie mam jednak pojęcia, na jakiej zasadzie). Z drugiej strony reprezentują teksty publikowane, co faworyzuje poglądy i postawy osób wykształconych oraz dominujące punkty widzenia, nie są też wolne od uprzedzeń obecnych w źródłach historycznych oraz nie mogą zastępować ludzkiej interpretacji realiów historycznych.
Czy wobec tego da się je skutecznie wykorzystać w pracy badawczej albo edukacji historycznej? Mam duże wątpliwości.
Autor: redakcja
