Uruchomienie bloga zostało sfinansowane przez społeczność ❤️
Mecenasem bloga jest Fundacja Zakłady Kórnickie,
wydawca portalu historycznego Hrabia Tytus

Vintage Large Language Models: nowe narzędzia badania historii intelektualnej?

Vintage Large Language Models: nowe narzędzia badania historii intelektualnej?

Duże modele językowe trenowane są na współczesnych danych, dlatego “wiedza” zamknięta w wagach i prawdopodobieństwach kolejnych tokenów może być w miarę aktualna. Istnieje jednak kategoria modeli, w których data odcięcia wiedzy przesuwana jest głęboko w przeszłość. Jakie są zalety i ograniczenia takich modeli?

Owain Evans, badacz AI, dyrektor grupy roboczej Truthful AI na Uniwersytecie Kalifornijskim w Berkeley, określa takie modele jako “Vintage Large Language Models”. Trafiłem niedawno na transkrypcję jednej z jego prezentacji na ten temat i chciałbym napisać o niej kilka słów. Dlaczego tak specyficznie trenowane modele mają być “vintage”, a nie “historical”? Nie chodzi tu o to, jak je nazywamy, ale jaki mają mieć charakter i potencjał.

Sztuczna inteligencja jest dyscypliną historyczną. Nie oznacza to jedynie, że można napisać jej historię. Sztuczna inteligencja ma charakter historyczny ze względu na rekurencyjny charakter swoich działań: jej systemy odwołują się do wcześniejszych przekonań, często w procesie przechodzenia przez wiele etapów lub warstw, aby formułować stwierdzenia dotyczące teraźniejszości lub prognozy na przyszłość

pisała w 2022 roku (przed upublicznieniem ChatGPT) australijska historyczka Marnie Hughes-Warrington (DOI: 10.1111/hith.12278). Wszystkie modele językowe (są historyczne), ponieważ korzystają ze zbioru danych treningowych, zamkniętego w określonym momencie i wykorzystanego do trenowania. Możemy jednak specjalnie przesunąć datę odcięcia wiedzy daleko w przeszłość i ograniczyć te dane do zbioru powstałego przed 1956, 1905 albo nawet 1500 roku. W ten sposób, zdaniem Evansa, powstawać ma model “vintage”.

Być może w “vintage”, inaczej niż w czymś, co określamy jako “historyczne”, chodzi przede wszystkim o wrażenie. Owain Evans nie mówi tego wprost, ale w swojej prezentacji podkreśla, że kontakt z modelami trenowanymi na bardzo dawnych treściach może być źródłem rozmaitych impresji i emocji. Oto na przykład możemy wygenerować model z treści wytworzonych i publikowanych “przed Szekspirem” i testować, czy zostanie zaproponowane nam coś, co będzie przypominać jego styl i temat jego sztuk. Albo po prostu zacząć konwersację i sprawdzić, czy w ogóle moglibyśmy korzystać z modelu wytrenowanego na danych sprzed wieków. Czy “rozumiałby” nasze pytania? Czy proponował odpowiedzi zrozumiałe dla nas?

Evans sugeruje jednak, że takie emocje i impresje mogłyby być też poznawczo wartościowe:

Można by stworzyć model LLM oparty na wiedzy sięgającej aż do 1600 roku, czyli sprzed czasów praw Newtona, teorii ewolucji i teorii prawdopodobieństwa, [wytrenowany - MW] na ogromnej ilości dorobku filozoficznego i naukowego, który powstał przed tym okresem. Chociaż te koncepcje mogą wydawać się prostsze od tych, jakie pojawiły się w ciągu ostatnich 35 lat, stworzenie ich w oparciu o ówczesny stan wiedzy może okazać się bardzo trudne.

Chodzi więc o zrobienie testu, który sprawdzi, czy model jest w stanie zaproponować wybrane koncepcje naukowe bez wiedzy o nich, pozyskiwanej z danych treningowych. Oczywiście taka symulacja również będzie polegała na “sprawianiu wrażenia”. Autor sam o tym mówi, wskazując na to, że duża część wiedzy i kompetencji technicznych była w dawnych wiekach przekazywana z ust do ust, bez zapisywania jej w podręcznikach czy artykułach naukowych. Taka wiedza i takie doświadczenia są niedostępne dla modeli językowych.

Ograniczenie to łączy się z kolejnym: ponieważ “vintage” mogą być nie tylko modele językowe, ale też multimodalne (czyli pracujące również na obrazach), pojawia się problem danych wizualnych. Świetnym przykładem jest wizualność starożytnego Rzymu - czy model wytrenowany na starożytnych tekstach i wizerunkach (zabytkach, sztuce itp.) byłby w stanie prawidłowo przedstawić albo opisać… pszczołę? Wśród źródeł rzymskich może być nam trudno znaleźć anatomiczne wizerunki pszczół albo ich opisy. W takim przypadku należałoby użyć do treningu współczesnych wizerunków pszczół, zakładając, że Rzymianie postrzegali je w taki sposób jak my dziś.

Modele “vintage” nie mogą więc być modelami prawdziwie “historycznymi”, ponieważ część doświadczeń i wiedzy, jaką powinniśmy przekazać im w danych treningowych, nie była zapisywana czy wizualizowana. Do tego treści historyczne, które udaje się zebrać, zazwyczaj dokumentują dość ograniczoną perspektywę (np. tych, którzy potrafili pisać albo mieli możliwość publikowania).

Wyzwaniem może być też niewielka liczba źródeł - w takim przypadku Evans proponuje generowanie danych syntetycznych, standardowy krok w dzisiejszej pracy nad rozwojem modeli językowych czy wizualnych. Odpowiednio duży zbiór danych treningowych można poddać procesowi parafrazy, przeróbek lub remiksów z wykorzystaniem innych modeli. Takie generowanie musi być jednak zabezpieczone przed wkładaniem do modelu współczesnej “wiedzy”, stąd propozycja, żeby najpierw niewielki, ale w pełni “vintage” model generował dane syntetyczne, użyte następnie do trenowania “dużego” modelu “vintage”.

Dla Evansa modelem “vintage” byłby też model z odcięciem wiedzy np. w 2019 roku. Jego zdaniem taki model mógłby zostać wykorzystany jako system prognostyczny z użyciem metod testów ekonomicznych:

LLM-2019 nie miałby wiedzy na temat pandemii, ostatnich wojen ani najważniejszych wydarzeń gospodarczych z ostatnich pięciu lat. Moglibyśmy sprawdzić, jak dobrze potrafiłby przewidzieć te wydarzenia – nie tylko to, że nastąpi pandemia, ale - kiedy już zacząłby gromadzić na to dowody, przewidzieć też, co będzie dalej?

Perspektywa takich zastosowań modeli “vintage” - pisze Evans - znacznie ułatwiłaby ich wytwarzanie. Przygotowanie dużego modelu językowego oznacza konieczność zgromadzenia ogromnej ilości treści treningowych (nawet 50 bln tokenów) i wydania około 200 mln dolarów. Gdyby okazało się, że dobrze dopracowane modele z wczesną datą odcięcia da się wykorzystać komercyjnie, np. w testowaniu metod prognoz rynkowych, wspieraniu wynalazków w STEM czy nawet oceny projektów biznesowych i naukowych, duże firmy AI mogłyby zacząć w nie inwestować.

Uwagi autora o wykorzystaniu edukacyjnym konwersacji z modelami “vintage” w muzeach czy w szkołach pominę - wciąż mamy dużo prawdziwych źródeł, które możemy analizować i na których możemy się uczyć. Ciekawszym wątkiem jest jego pomysł na przełamywanie historycznych podziałów w historii intelektualnej. Brzmi to strasznie zawile, ale chodzi po prostu o łączenie w jednym modelu tradycji myślenia, wynalazków i koncepcji, które w rzeczywistości funkcjonowały równolegle obok siebie. Przykładem, może nieco dziwacznym, byłaby próba symulowania koncepcji intelektualnych i religijnych, jakie mogłyby powstać w wyniku zetknięcia się cywilizacji Ameryki Południowej z chrześcijaństwem już w I wieku. Co jednak mogłyby nam dać takie kontrfaktyczne historie intelektualne?

Owain Evans sugeruje, że modele “vintage”

oferują ekscytujące możliwości rozumienia rozwoju wiedzy historycznej

Cóż, biorąc pod uwagę sprofilowanie źródeł oraz tekstową czy wizualną naturę danych treningowych, nie wydaje mi się to możliwe. Przykład z chrześcijaństwem w Ameryce Południowej w I wieku doskonale to pokazuje: większość źródeł na ten temat tamtejszych cywilizacji pochodzi od autorów chrześcijańskich i jest przynajmniej 14 wieków późniejsza. Trudno też życie intelektualne historycznych społeczeństw redukować wyłącznie do wymiarów pisma i wizerunków - a co ze sztuką, rytuałami, mistycyzmem, tradycją ustną, przestrzenią czy klimatem?

Wydaje mi się, że w dyskusji, ale też praktyce AI, bardzo łatwo jest spłaszczać historię i kulturę do kilku wymiarów i prostych zależności, ograniczać ich głębię i ziarnistość. W efekcie nie tylko dostajemy proste odpowiedzi na skomplikowane pytania, ale też podważany jest sens tradycyjnych badań.

Autor: redakcja

🤗
Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.