2025-09-26 — Napisano w Opracowania • Ten wpis przeczytasz w 4 minuty

Naprawdę nadal korzystasz z LLM-ów jako źródła wiedzy o kulturze i historii?

Spodziewamy się, że duże modele językowe będą użytecznym wsparciem w tworzeniu opisów zabytków, tłumaczeniu starożytnych tekstów czy rozwijaniu zasobów edukacyjnych. Podjęty niedawno test pięciu modeli open-source na 1066 niepowtarzalnych zadaniach ujawnia jednak poważne ograniczenia. Ponad 65 proc. wygenerowanych odpowiedzi zawiera istotne niezgodności kulturowe (cultural value misalignment).

Badanie opisane w sierpniu tego roku (DOI: 10.48550/arXiv.2501.02039) jest ciekawym przykładem benchmarku - zautomatyzowanego testu jakości modeli językowych. Badacze z Chin, w tym archeolodzy z Uniwersytetu Szanghajskiego, z pomocą modelu GPT-4O opracowali zestaw zadań (pytań), które następnie zadano modelom LLaMA-3-8B, QWen-7B, Baichuan-2-7B, Yi-6B, Mistral-7B.

Pytania odwoływały się do pięciu kategorii i kilkunastu aspektów wiedzy o dziedzictwie kulturowym. W kontekście dziedzictwa kulturowego pytano o typy dziedzictwa, związane z nim wartości, jego ochronę, wykorzystanie i zarządzanie nim.

enter image description here

Dla każdego zadania w ramach każdego z aspektów wybrano od trzech do pięciu słów kluczowych, na podstawie których wygenerowano w GPT-4O konkretne pytania. Przykładowo, do pytań odwołujących się do problemu materialnego dziedzictwa kulturowego wybrano słowa kluczowe takie jak Zestaw Maori human remains, repatriation, ethics.

GPT-4O wygenerował pytania, bazując na instrukcji, która narzucała im formę krytycznego pytania, weryfikacji faktów, wnioskowania lub interpretacji. Wygenerowane pytania, zanim zostały przesłane do analizowanych modeli, sprawdzono i ręcznie poprawiono.

enter image description here

Każdemu z pięciu modeli zadano po 10 razy to samo pytanie z puli 1066 pytań - wielokrotne odpytywanie miało ograniczyć efekt losowości i zwiększyć wiarygodność odpowiedzi.

Zebrane odpowiedzi oceniono, odwołując się do poziomu niezgodności wartości (misalignment evaluation). Celem oceny była identyfikacja i sklasyfikowanie błędów. Najpierw odpowiedzi modeli wysłano do GPT-4O, który korzystał dodatkowo z niewielkiej puli ręcznie zanalizowanych odpowiedzi (in-context learning). Model działał tu jak sędzia (LLM-as-a-judge) i oceniał pary pytanie-odpowiedź, przypisując im odpowiednie kategorie błędów: nieścisłość szczegółów (detail inaccuracy), niezrozumienie kulturowe (cultural misunderstanding), luka w wiedzy (knowledge gap), przedwczesna pewność (premature certainty), redukcjonizm kulturowy (cultural reductionism), uprzedzenie historyczne (historical bias), selektywna narracja (selective narration) i brak relewancji kontekstowej (contextual irrelevance).

Pary pytanie-odpowiedź, wobec których GPT-4O wyznaczył wysoki poziom niepewności, oraz losowa próbka 30 proc. oznaczeń, zostały poddane szczegółowej, bezpośredniej i dwuetapowej ocenie grupy ekspertów.

Wyniki analizy pokazują, że duże modele językowe nie są najlepszym źródłem wiedzy o kulturze, historii i dziedzictwie. Chociaż korzystanie z nich pozwala zautomatyzować wiele żmudnych zadań (np. opisywanie zbiorów czy porządkowanie danych), jakość ich odpowiedzi nie jest wysoka. Ponad 65 proc. analizowanych odpowiedzi zawierało znaczące niezgodności kulturowe (notable cultural misalignments), najwyższe wskaźniki niezgodności odnotowano dla aspektu A10 (reprezentacja i komunikacja) - osiągały poziom 90 proc. Najniższe odnotowano dla aspektu A3 (krajobraz kulturowy), w zależności od modelu wynosiły 30-70 proc. Modele źle interpretowały symbole i tradycje, odpowiadały zbyt ogólnie i zbyt pewnie, faworyzowały dominujące interpretacje i unikały niewygodnych faktów, np. wątków kolonialnych.

Autorzy badania podkreślają, że bezkrytyczne korzystanie z LLM-ów jako źródła wiedzy kulturowej ma poważne konsekwencje w postaci błędnego przedstawiania faktów historycznych, erozji tożsamości kulturowej i nadmiernego upraszczania złożonych narracji.

Wyniki badania mają również znaczenie dla systemu edukacji. Proponowane przez LLM interpretacje historyczne lub odwołujące się do dziedzictwa kulturowego mogą wydawać się merytoryczne i spójne, jednak często brakuje im finezji, niejednoznaczności oraz szerszego kontekstu. Te elementy powinna przekazywać szkoła i uczelnia, co jest możliwe przede wszystkim podczas otwartej dyskusji nad dostępną literaturą. LLM nie pozwalają na taką dyskusję, jedynie oceniają prawdopodobieństwo i pracują na zamkniętym zbiorze źródeł.

Autor: redakcja

🤗

Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.