Praca z generatywną AI w obszarze dziedzictwa: pragmatyczne zadowolenie zamiast precyzji

Wykorzystywanie generatywnej sztucznej inteligencji do pracy z wizerunkami dziedzictwa kulturowego może zwiększać zapotrzebowanie na specjalistyczną wiedzę i wymuszać dodatkowy nakład pracy. Osoby korzystające z AI w tej dziedzinie muszą nieustannie balansować między wydajnością swoich działań a jakością i rzetelnością uzyskiwanych efektów. Takie są wnioski z warsztatów, poświęconych generowaniu wizerunków zabytków chińskiej kultury Dunhuang.
Takie wnioski znajdziemy w opracowaniu Fix or Fake? How Creators Negotiate Cultural Bias in Generative AI Heritage Creation (DOI: 10.1145/3772363.3798340, 2026). Praca jest naukowym podsumowaniem warsztatów dotyczących historii i zabytków kultury Dunhuang (Chiny północno-zachodnie). 25 osób, w większości doświadczonych już w pracy z narzędziami takimi jak Midjourney, Stable Diffusion czy Runway, generować miało w grupach krótkie filmowe prezentacje na ten temat. Dodatkowo gromadzono materiały źródłowe, teksty promptów i uwagi dotyczące pracy z modelami generatywnymi. Badacze przeprowadzili też szczegółowe wywiady z wszystkimi uczestnikami warsztatów. Celem badania było opisanie, w jaki sposób ludzie pracują z narzędziami generatywnymi nad wizerunkami dziedzictwa, czy i jak rozpoznają uprzedzenia kulturowe wykorzystywanych modeli oraz jak sobie z nim radzą.
Tak - to oczywiste, że w profesjonalnej pracy (np. w muzeum czy archiwum) raczej nikt nie będzie generował od zera albo maszynowo przetwarzał rzeczywistych wizerunków artefaktów i zbiorów. Po co miałby to robić? Wizualne modele generatywne są jednak masowo wykorzystywane w działaniach promocyjnych, w edukacji (choćby jako ilustracje), pełno ich też w mediach społecznościowych. Z każdym takim wytworem upowszechniane są mniej lub bardziej widoczne manipulacje, modyfikacje, nieścisłości. Być może osoby, które produkują takie treści, starają się zachować ich odpowiednią jakość, negocjując z modelem konkretne szczegóły wizerunku - tak, aby sprawiał wrażenie autentycznego.
Badanie przeprowadzone przez chińskich autorów pozwala nam spojrzeć na to negocjowanie. Dzięki rozmowom z uczestnikami warsztatów udało się badaczom zidentyfikować kilka głównych problemów w recepcji uprzedzeń kulturowych w modelach wizualnych i podstawowe sposoby radzenia sobie z nimi.
Brak ziarnistości kulturowej
Nie będzie zaskoczeniem, że świetnie widocznym problemem jest westernizacja generowanych wizerunków. Uczestnicy warsztatów wskazywali, że modele AI często zastępowały wschodnie symbole zachodnimi, formatowały też oryginalną chińską architekturę Dunhuang pod styl architektury greckiej czy rzymskiej.
polecenie wygenerowania świątyni w stylu zachodnich regionów Chin skutkowało powstaniem budynku w stylu zachodnim, co wskazuje na brak rozróżnienia Zachodu jako pojęcia geograficznego i kulturowego. Zaobserwowano też zjawisko degeneracji modelu (model collapse), objawiające się ograniczoną różnorodnością azjatyckich twarzy.
Obok westernizacji i homogenizacji, modele generowały wizerunki bardzo generyczne - autorzy piszą tu wprost o utracie “ziarnistości wewnątrzkulturowej” (loss of intra-cultural granularity). Wizerunki ignorowały subtelne różnice kulturowe i historyczne, np. mieszając style dwóch różnych dynastii - Tang (VII-X w.) i Yuan (XIII-XIV w.). W wytworzonych podczas warsztatów prezentacjach
uogólniony orientalizm homogenizował bogate detale historyczne.
Ostatnim problemem zidentyfikowanym w rozmowach z uczestnikami warsztatów były halucynacje (data-scarcity–driven structural hallucinations), wynikające z ograniczeń modeli. Modele wizualne nie radziły sobie z rzadkimi i specyficznymi wizerunkami spoza głównego nurtu danych treningowych (low-resource domains). Jedna z uczestniczących w warsztacie osób, generująca w ramach eksperymentu wizerunki Buddy z określonymi gestami dłoni, nieustannie otrzymywała grafiki z błędną liczbą palców.
Paradoks automatyzacji
Jak próbowano ominąć albo ograniczyć takie błędy? Po pierwsze, korzystano równolegle z kilku różnych narzędzi, porównując jakość ich wyników dla tego samego promptu (triangulacja modeli). Ponieważ nikt nie był w stanie poznać, dlaczego jeden model robi takie, a drugi inne błędy, w ten sposób - jak czytamy - starano się odzyskać poczucie bezpieczeństwa i zrównoważyć “efekt czarnej skrzynki” narzędzi AI.
Przywoływano także konkretne wiarygodne źródła z książek i archiwów, żeby rozpoznać błędne szczegóły generowanych wizerunków. Uczestnicy posiadający większą wiedzę w danej dziedzinie polegali zazwyczaj na własnym osądzie w ocenie jakości tych wytworów, inni wprost wyrażali obawy, że nie są w stanie rozpoznać potencjalnych błędów. Jak czytamy w opracowaniu, sytuacja ta
ujawnia paradoks wykorzystania generatywnej sztucznej inteligencji w obszarze dziedzictwa kulturowego, polegający na tym, że obniża ono barierę twórczości, jednocześnie zwiększając wymagania poznawcze.
Co z tego, że bardzo łatwo możemy wygenerować rekonstrukcję określonej sceny historycznej czy zabytkowej budowli albo artefaktu, jeśli wymaga to od nas szczególnej uwagi, wiedzy i dodatkowej pracy, aby mozolnie, za pomocą kolejnych promptów, usuwać oczywiste błędy i przeinaczenia. Co jednak, kiedy to się nie udaje?
Pragmatyczne zadowolenie
Osoby uczestniczące w warsztacie przejawiały cztery postawy wobec formatowania i ograniczeń generatywnych narzędzi AI. Pierwsza z nich polegała na usilnym dążeniu do poprawy jakości maszynowego wytworu - badacze określili taką postawę jako “resistance and repair”. To postawa niezgody na efekt końcowy i starań o poprawę wytwarzanego wizerunku za pomocą kolejnych promptów, czasem wysyłanych już do innych modeli.
W pewnym momencie jednak trzeba powiedzieć dość. Każdy, kto pracował z generatywną AI wie, że kolejne poprawki wprowadzane do wytworzonej treści bywają coraz gorszej jakości. Wśród uczestników warsztatów pojawiało się w takim momencie, jak piszą autorzy, “pragmatyczne zadowolenie” - poczucie, że to, co udało się wygenerować, można ostatecznie zaakceptować wobec braku czasu na dalszą pracę albo po prostu z powodu zmęczenia. Jak opisał to jeden z uczestników:
Trochę się oszukujesz… jeśli to zadziałało, to po prostu z tego skorzystaj.
Niektórzy z uczestników warsztatu wyrażali postawę “estetycznej negocjacji” (aesthetic negotiation): akceptowali błędy w wygenerowanym wizerunku (określając je czasem jako inspirację artystyczną), jeśli tylko udało im się zachować akceptowalny poziom wiarygodności maszynowego wytworu.
Ostatnią ze zidentyfikowanych postaw było… “strategiczne unikanie” (strategic avoidance). Planując temat swojej pracy, niektórzy uczestnicy z rozmysłem unikali nieoczywistych wizerunków czy skomplikowanych scen, które - jak oceniali - nie mogły być dobrze wygenerowane przez dostępne narzędzia.
Konieczność niewidzialnej pracy
Twórcy narzędzi generatywnej AI obiecują pełną automatyzację procesu twórczego. Obietnica ta nie może być jednak zrealizowana. Jak piszą autorzy opracowania:
ponieważ systemy generatywne nie potrafią uchwycić kulturowej szczegółowości (cultural granularity), odpowiedzialność za ocenę kulturową zostaje przeniesiona z powrotem na ludzkich twórców i jest to niewidzialna praca.
Rezygnacja z tej pracy oznaczałaby, że faktycznie akceptujemy nieścisłości i przekłamania w wizerunkach obiektów dziedzictwa generowanych maszynowo. Kiedy zaczynają one funkcjonować w internecie na tej samej zasadzie jak oryginalne wizerunki, mamy do czynienia z “praniem uprzedzeń” (bias laundering) - normalizujemy uproszczenia, westernizację, te wszystkie ograniczenia, jakie nie pozwalają modelom generować wizerunków dziedzictwa w ich pełnej złożoności.
Warsztat, który stał się podstawą tego badania, dotyczył generowania wizerunków zabytków do prezentacji na temat kultury Dunhuang. Rozpoznania autorów da się jednak przełożyć także na bardziej codzienne i powszechne zadania, jakie czasem wykonujemy z wykorzystaniem generatywnej AI. W tłumaczeniach czy redakcji tekstów, pewnie też w maszynowym przeglądaniu lektur, np. z pomocą Notebook LM, wiele osób oddaje modelom najważniejsze decyzje dotyczące interpretacji tekstu, jego estetyki czy wyznaczania podstawowych wątków i znaczeń. Taka praca z modelami generatywnymi to, jak się wydaje, nieustanne balansowanie między realizowaniem dodatkowych zadań (np. sprawdzaniem poprawności automatycznej redakcji w specyficznych szczegółach czy badanie, jak wiarygodne są szczegóły automatycznych podsumowań) a “pragmatycznym zadowoleniem“ - uznawaniem, że przy ograniczonym czasie i ograniczonych zasobach uzyskany automatycznie tekst ostatecznie może zostać zaakceptowany. W takim przypadku ryzyko normalizacji błędów i uproszczeń bierze na siebie nie tylko operator modelu (autor?), ale też odbiorcy jego treści.
Autor: redakcja
