Uruchomienie bloga zostało sfinansowane przez społeczność ❤️
Mecenasem bloga jest Fundacja Zakłady Kórnickie,
wydawca portalu historycznego Hrabia Tytus

Znów o historycznych modelach językowych

Znów o historycznych modelach językowych

Wiarygodne symulowanie tekstów z epoki udaje się w pełni dopiero przy zastosowaniu modelu trenowanego od podstaw wyłącznie na danych historycznych (takiego jak GPT-1914). Rozwiązania oparte na promptowaniu kontekstowym współczesnych modeli albo ich dostrajaniu (fine-tuning) okazują się nieefektywne, ponieważ nieuchronnie przemycają w tekście współczesną wiedzę, normy i style języka. Mimo to nawet osoby z wykształceniem kierunkowym mają problem z poprawnym zidentyfikowaniem symulacji tekstów historycznych, wytworzonych w prosty i tani sposób za pomocą współczesnych lub tylko dostrojonych historycznie modeli. Prace nad rozwojem modeli historycznych mają otwierać nowe perspektywy dla badań społecznych, ale jednocześnie pokazują, jak łatwo dziś manipulować treściami historycznymi.

ludzie nie mogą wypełniać ankiet ani brać udziału w badaniach, jeśli aktualnie nie są żywi

czytamy na łamach amerykańskiego czasopisma Proceedings of the National Academy of Sciences (DOI: 10.1073/pnas.2407639121, 2024). Komunikowanie takich zgrabnych obserwacji ma oczywiście sens jedynie wtedy, kiedy umieszcza się je w odpowiednim kontekście: w artykule Large Language Models based on historical text could offer informative tools for behavioral science perspektywą jest badanie historycznych społeczeństw, a rozwiązaniem - historyczne modele językowe (Historical Large Language Models, HLLMs).

Od skanów do historycznej konwersacji

Wspomniane opracowanie nie jest klasycznym artykułem naukowym - umieszczono je w dziale “Opinie” czasopisma wydawanego przez NAS. To raczej propozycja rozwiązania pewnego problemu, szczególnie istotnego dla wszystkich badaczy i badaczek, próbujących stosować metody nauk behawioralnych czy psychologii wobec społeczeństw sprzed tysiącleci i wieków. Pisałem już wielokrotnie (np. tutaj i tu) o traktowaniu modeli językowych jako pewnych reprezentacji nie tylko języka, ale też kultury czy relacji społecznych. Tak jak LLMy nadają się do badania zmian w znaczeniu pojęć, tak mogłyby - zdaniem autorów - w pewien sposób symulować osoby żyjące w historycznych kulturach. Maszynowo wytwarzane na podstawie wiedzy modeli postaci (figury) można by następnie odpytywać za pomocą metod ankietowych czy inspirować duże modele do generowania wypowiedzi, mających reprezentować te osoby.

Już w momencie publikacji artykułu (w 2024 roku) autorom udało się przywołać kilka przykładów takich rozwiązań. Oto model Pclanglais/MonadGPT, bazujący na jednej z wersji (współczesnego) Mistrala, umożliwiać ma konwersacje, w których reprezentowana będzie nie tylko wiedza z epoki nowożytnej, ale też specyficzny styl wypowiedzi. Oto przykład:

User: How could we travel to the Moon? With a big canon? Monad-GPT: But how to travel from Earth to the Moon, with our present Engines? A very hard Question: for we are like those that would go to Heaven in a Basket: We have no Wings, and God hath not given us any Angels to bear us up. Therefore I will leave this Enquiry to others; and end my Discourse of the Moon.

W 2024 roku dostępny był też model ccwu0918/XunziALLM, wytrenowany na starożytnych tekstach chińskich i używany do symulowania twórczości poetyckiej tego okresu. Autorzy wspominają też o modelach dostrajanych na chińskim korpusie tekstów do badań psychologii historycznej C-HI-PSY (DOI: 10.18653/v1/2024.emnlp-main.151, 2024), które miałyby pozwalać na analizowanie wartości wyznawanych przez chińskich urzędników XI w.

[obrazek 1] Budowa i wykorzystanie historycznych modeli językowych. Źródło: DOI: 10.1073/pnas.2407639121, 2024

Omawiany tekst został opublikowany w dobrym czasopiśmie naukowym, trudno więc byłoby oczekiwać, że jego autorzy bezkrytycznie zaprezentują własną propozycję. Przedstawiony przez nich katalog ograniczeń historycznych modeli językowych może być dobrą podstawą do ostatecznego odrzucenia takich pomysłów, szczególnie jeśli miałyby inspirować badania przekrojowe (obejmujące całe społeczeństwa), a nie punktowyle i w bardzo krótkiej perspektywie czasowej. Oto, po pierwsze, duże modele językowe potrzebują ogromnych zbiorów danych - jeśli pracujemy nad modelem historycznym, możemy nie zdobyć ich odpowiedniej ilości. Wówczas posługujemy się dostrajaniem (fine-tuning) - model historyczny budujemy na bazie modelu współczesnego, co automatycznie otwiera problem ahistoryczności - wiedza bazowego modelu współczesnego może przenikać do generowanych w stylu historycznym wypowiedzi. Z problemem ograniczonego dostępu do źródeł z epoki łączy się problem reprezentatywności - autorzy opisują go jako “stronniczość ku elitarności” (elite bias). Wytwarzaniem dokumentów i narracji pisanych przez długie tysiąclecia zajmowała się przede wszystkim elita społeczeństw historycznych, a więc ich treść z konieczności odzwierciedlać będzie status i sposób myślenia niewielkiej, uprzywilejowanej grupy. Co więcej, stronniczość tych modeli może być wywoływana kontekstem wykorzystanych źródeł dla wybranych kultur czy regionów (przykładowo, czy społeczeństwo Japonii epoki Edo reprezentowane jest wyłącznie przez teksty japońskie czy też holenderskie albo portugalskie?). Nieoczywistym problemem jest także metoda testowania modeli historycznych - próba zrobienia ankiety psychologicznej na symulowanych przez model średniowieczny figurach nie będzie mogła zostać krytycznie oceniona z uwzględnieniem realnych, historycznych ankiet, które w psychologii czy socjologii wykorzystuje się dopiero od około 100 lat. W jaki sposób zmierzyć tu poziom zbliżenia wypowiedzi do stanu bazowej prawdy?

Jak uniknąć anachronizmów?

HLLMs to propozycja, która może być aberracją dla historyków, szczególnie przecież zainteresowanych autentycznością i integralnością źródeł, krytycznie patrzących na proces wytwarzania wiedzy w oparciu o ich treść. Być może jednak w badaniach psychologicznych czy socjologicznych takie eksperymenty znalazłyby swoje miejsce. Żeby tak się stało, konieczne byłoby jednak odejście od wytwarzania modeli historycznych metodą dostrajania modeli współczesnych tekstami z epoki. Opublikowany rok po tekście z czasopisma NAS artykuł Can Language Models Represent the Past without Anachronism? (DOI: 10.48550/arXiv.2505.00030, 2025) pokazuje, że metoda ta uniemożliwia skuteczną eliminację anachronizmów w generowanych przez nie wypowiedziach.

W badaniu starano się i ręcznie, i automatycznie zidentyfikować anachronizmy w historycznych wypowiedziach modeli na temat okresu 1905-1914. Wypowiedzi te generowano na trzy sposoby: za pomocą uzupełnionego odpowiednim kontekstem promptowania do współczesnego modelu, za pomocą modelu dostrojonego tekstami historycznymi oraz za pomocą modelu wytrenowanego od podstaw na tekstach z epoki (Historical-AI-Lab/GPT-1914).

Badanym modelom zadano pytania o przynależność państwową Alzacji, przyczyny choroby beri-beri i zjawisk astronomicznych. Problem choroby beri-beri to świetny przykład problemu historycznego, jakie chciano przetestować na modelach: przyczyną tej choroby jest niedobór witaminy B(1), odkrytej dopiero w 1912 roku przez polskiego biochemika Kazimierza Funka). Model z datą odcięcia sprzed 1912 roku lub odpowiadający w kontekście pierwszych lat XX wieku nie powinien prawidłowo podać przyczyn tej choroby. Oto jedna z odpowiedzi (jak rozumiem, wygenerowana przez GPT-1914):

 {
    "user": [
      "What is beriberi, and what causes it?"
    ],
    "assistant": [
      "Beri-beri is a tropical disease of the greatest antiquity. It occurs in Japan, Korea and on the Chinese coast south of Shanghai, also in Ceylon, Mauritius, Madagascar and the east coast of Africa. In the Western hemisphere it is found in Cuba, Panama, Venezuela and South America. The cause is believed by many authorities to be an infective agent of a parasitic nature, but attempts to identify it have not been entirely successful. It clings to particular localities, buildings and ships, in which it has a great tendency to occur; for instance , it is apt to break out again and again on certain vessels trading to the East. Moisture and high temperature are required to develop its activity, which is further favoured by bad ventilation, overcrowding and underfeeding. A natural surmise is that it is due to some fungoid growth affecting grain."
    ],
    "source": "Encyclopedia Britannica 11th edition.",
    "trap": "knowing it's a nutritional deficiency"
  }

Automatyczne testowanie anachronizmów polegało na użyciu modelu RoBERTa, wytrenowanego na podstawie korpusu tekstów COHA (1810–2009). Automat miał wskazać, czy odpowiedzi modeli przypominają teksty z początku XX wieku czy raczej zdradzają cechy współczesnych tekstów (ze współczesną wiedzą). Dodatkowo odpowiedzi te sprawdzała grupa osób z wykształceniem kierunkowym. Zastosowano też test intruza - sędziowie otrzymywali cztery nieoznakowane odpowiedzi na to samo pytanie (trzy wygenerowane przez modele językowe i jedną autentyczną z epoki), ich zadaniem było wskazanie, który fragment jest fragmentem autentycznego tekstu z epoki (“intruzem”). Celem testu było sprawdzenie, jak skutecznie można symulować treści historyczne.

Poniższy wykres ilustruje wyniki automatycznego testowania (RoBERTa) dat publikacji wygenerowanych fragmentów. Zielona linia ciągła przedstawia faktyczny rozkład dat publikacji fragmentów (szczyt to lata 1905-1914) - jak widać, w symulowaniu tekstów najlepiej sprawdził się wytrenowany od zera na tekstach historycznych GPT-1914, a odpowiedzi współczesnych modeli (na prompty z odpowiednim kontekstem) miały zdecydowanie niższą jakość.

enter image description here Wyniki testów jakości symulacji tekstów historycznych w różnych modelach. Źródło: DOI: 10.48550/arXiv.2505.00030, 2025.

Jednak łatwo manipulować treściami historycznymi

Okazało się też, że grupa ekspercka miała problemy z poprawnym rozpoznaniem autentycznych tekstów (umiarkowana wartość współczynnika kappa). Granica między tekstem symulowanym a autentycznym tekstem historycznym okazała się trudna do wykazania, szczególnie przy bardzo specyficznych tematach takich jak teorie medyczne czy przemiany polityczne w regionach. Grupa sędziów badała tylko teksty generowane przez prompty z kontekstem i dostrojone modele, a nie GPT-1914 - moim zdaniem pokazuje to, jak wielki potencjał manipulacji treściami historycznymi ma korzystanie nawet z ogólnodostępnych, współczesnych modeli. Da się je rozpoznać maszynowo, ale w ramach oceny eksperckiej nie jest to już takie proste.

Autorzy badania pisali we wstępie do swojego opracowania:

Ponieważ historia ludzkości nie może być odtworzona w warunkach laboratoryjnych, badania historyczne opierają się raczej na obserwacji, niż na eksperymencie. Już sama obserwacja może wystarczać, żeby zrozumieć wiele aspektów przeszłości. Kiedy chcemy zrozumieć, dlaczego projekt jakiejś ustawy nie został uchwalony, analizujemy dokumenty i liczymy głosy. Jednakże pytania dotyczące przemian kulturowych często zależą od czynników, które trudno obserwować bezpośrednio [np. w dostępnych dokumentach - MW]. [...] Sztuczna inteligencja mogłaby, przynajmniej teoretycznie, rzucić nowe światło na tego rodzaju zagadnienia, umożliwiając badaczom symulowanie kultury piśmienniczej minionych epok.

W podsumowaniu piszą już, że wyniki eksperymentu były jednocześnie pozytywne i rozczarowujące. Były pozytywne, ponieważ wytrenowany specjalnie model GPT-1914 pozwalał na generowanie symulacji tekstów historycznych pozbawionych anachronizmów. Były też rozczarowujące, ponieważ metoda ta jest kosztowna (moce obliczeniowe), a promptowanie z uwzględnieniem kontekstu czy dostrajanie współczesnych modeli, zdecydowanie tańsze rozwiązania, nie gwarantują nawet przeciętnej jakości symulacji.

Mimo tego te niskiej jakości symulacje i tak są trudne do rozpoznania przy standardowym uważnym czytaniu (close reading), i to nawet wtedy, jeśli analizują je osoby z wykształceniem kierunkowym. Być może dzieje się tak ze względu na specyficzne szczegóły historycznej rzeczywistości. Dlaczego? O ile bez trudu rozpoznamy jako fałszywkę tekst wspominający o hodowli indyków w gospodarstwach wiejskich późnośredniowiecznej Francji, trudność sprawi nam już rozpoznanie fałszu w stwierdzeniu o tym, że Okuniew, mała miejscowość w woj. mazowieckim, był w 1800 roku wsią (nie był, bo prawa miejskie stracił dopiero w 1870 roku). Manipulacje, jak wiadomo, są najbardziej skuteczne, kiedy ich zasadniczy przekaz jest prawdziwy, a fałsz pojawia się na poziomie szczegółu lub w zrównywaniu uznanych faktów i wątpliwych teorii.

Autor: redakcja

🤗
Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.