Multimodalne LLMy a rozpoznawanie ikonografii chrześcijańskiej: obiecujące testy, ale trudna praktyka

Być może w dyskusjach o sztucznej inteligencji za bardzo koncentrujemy się na wyszukiwaniu granic jej możliwości, a zbyt rzadko zadajemy pytania o skuteczność jej stosowania w rozwiązywaniu realnych zadań. Pomyślmy na przykład o wsparciu opisywania obiektów wizualnych w muzeach. Czy dzięki postępom w rozwoju dużych multimodalnych modeli językowych moglibyśmy liczyć na realne wsparcie w tej pracy?
Pomyślałem o muzealiach, bo do pracy z nimi nie wystarczy wyłącznie zdolność prostego wyznaczania i nazywania obiektów, ale znajomość ich kontekstu kulturowego i historycznego. Dla słabego modelu AI, trenowanego na słabej jakości i współczesnych danych, brodaty mężczyzna z dzieła Caravaggio przedstawiającego ukrzyżowanie św. Piotra może być zupełnie anonimowy (albo zostać oznaczony jako Jezus). Chociaż łatwo maszynowo wyznaczyć na obrazie krzyż, trudniej zrozumieć, jaki kontekst ma jego odwrócenie, tym bardziej, że w tym dziele nie jest ono jeszcze pełne (kaci dopiero podnoszą rozpiętego na krzyżu skazańca).
Idąc tropem zbiorów muzealnych i świętych wizerunków rozpracowywanych przez AI, trafiamy na artykuł Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography (DOI: 10.48550/arXiv.2509.18839, 2025), przygotowany przez włosko-duński zespół autorów. Jego lektura pozwala poznać state of the art w wykorzystaniu dużych multimodalnych modeli do pracy z dziełami sztuki i artefaktami dziedzictwa.
Czym są duże modele multimodalne (multimodal LLM, MLLM)? To duże modele językowe, którym nadano możliwość pracy także z obiektami w postaci innej niż tekst:
Wielomodalny LLM (MLLM) to typ najnowocześniejszych dużych modeli językowych, które potrafią przetwarzać i rozumować na podstawie wielu typów danych, czyli modalności, takich jak tekst, obrazy czy dźwięk. MLLM-y potrafią opisywać obrazy, odpowiadać na pytania dotyczące filmów, interpretować wykresy, wykonywać rozpoznawanie tekstu (OCR), a nawet prowadzić rozmowy w czasie rzeczywistym, wykorzystując widzenie i mowę [...]. Pierwszym krokiem w każdym wielomodalnym modelu językowym jest przekształcenie surowych danych wejściowych z różnych źródeł w cechy zrozumiałe dla maszyny. Każdy typ danych - tekst, dane wizualne (obrazy, filmy i więcej), audio czy dane z czujników — ma swoją unikalną strukturę i wymaga dedykowanego enkodera, który uchwyci jego znaczenie.
W procesie analizy dowolnego medium, po jego przekodowaniu do wspólnej przestrzeni cech (embedding space), model analizuje relacje między właściwościami badanych obiektów - np. zamienia wyznaczone elementy obrazu na jego tekstowe opisy w określonym kontekście.
Z takich właśnie modeli skorzystali autorzy omawianej pracy, uzupełniając swój zestaw badawczy o modele przystosowane wyłącznie do analizy wizualnej. Okazało się zresztą, że w pracy z wizerunkami chrześcijańskich świętych są one mniej skuteczne niż ogólne MLLMy, ponieważ te ostatnie lepiej integrują ze sobą informacje z różnych formatów.
W badaniu porównano wydajność modeli MLLM, w tym GPT-4o, GPT-4o-mini, Gemini 2.5 Pro oraz Gemini 2.5 Flash, z modelami Vision Language Models (VLM) takimi jak CLIP ( clip-vit-base-patch32, clip-vit-base-patch16, clip-vit-large-patch14 ) i SigLIP. Dla porównania wyników tych modeli użyto dostrojony model bazowy - ResNet50, który wykorzystuje tradycyjne, nadzorowane sieci neuronowe (CNN).
Do testów wybrano obrazy przedstawiające wizerunki świętych, opisane z wykorzystaniem ICONCLASS - metadanych bardzo rozbudowanego systemu klasyfikacji treści wizualnych, którego początki sięgają jeszcze lat 50. Opisy standardem ICONCLASS posiadają takie zbiory jak Wikidane (wybrano 718 obrazów), ArtDL (1864 obrazy) oraz Iconclass AI Test Set (863 obrazy). Ponieważ w danych, na podstawie których badano jakość modeli, posiadano jakościowe opisy Iconclass, można było na nich testować rozpoznawanie wizerunków świętych za pomocą modeli ogólnego przeznaczenia. Chciano sprawdzić, czy mogą one skutecznie interpretować ikonografię chrześcijańską bez dodatkowego dostrajania. Modele miały skutecznie rozpoznać na obrazach takich świętych jak Maryja, św. Jerzy, św. Paweł, św. Sebastian czy św. Franciszek z Asyżu. Zwróćmy uwagę, że lista świętych do odnalezienia na wizerunkach była zamknięta i znajdowało się na niej tylko 10 postaci.

Przeprowadzono trzy testy z wykorzystaniem dużych modeli oraz badanie kontekstowe (referencyjne) z użyciem ResNet50:
- pierwsze badanie to zadanie klasyfikacji zero-shot z wykorzystaniem samych etykiet klas, np. Św. Paweł lub Maria Magdalena, bez dodatkowych informacji kontekstowych,
- drugie badanie to klasyfikacja zero-shot z opisami etykiet, w którym modele otrzymywały szczegółowe opisy ikonograficzne dla każdej klasy, pobrane z opisów Iconclass,
- trzecie badanie to klasyfikacja few-shot, w której modele klasyfikowały obrazy, otrzymując pięć przykładowych wizerunków postaci świętych wraz z odpowiadającymi im etykietami klas.
Badania pokazały dominację multimodalnych LLM w rozpoznawaniu wizerunków świętych na obrazach - ich wyniki były lepsze niż bazowego ResNet50.

Model gemini-2.5 Pro osiągnął najwyższą dokładność w tych zadaniach, uzyskując poprawność 90.45 proc. w teście pierwszym, w analizie na zbiorze ArtDL oraz 84.82 proc. w teście drugim, na zbiorze Iconclass AI Test Set. Okazało się jednak, że na zbiorze obrazów z Wikidanych, ogólne modele poradziły sobie gorzej niż ResNet50, prawdopodobnie z powodu zróżnicowania jakości i rozmiarów plików udostępnianych tam plików.

Modele multimodalne, które mają przecież ogólne przeznaczenie, są zdolne do klasyfikacji w wizualnie złożonych domenach dziedzictwa kulturowego, takich jak ikonografia chrześcijańska, nawet bez specyficznego dostrajania. Czy oznacza to, że można je swobodnie wykorzystać w procesie maszynowego opisywania zbiorów muzeów czy bibliotek, bez dodatkowej pracy związanej z dostosowaniem modelu do specyfiki kolekcji? Badanie potwierdza to, ale autorzy nie chcą iść zbyt daleko w swoich wnioskach.
Ogólnodostępne multimodalne LLMy mogą już dziś być narzędziem do kuracji metadanych i indeksowania semantycznego artefaktów w kolekcjach, jednak wydajność i skuteczność ich pracy była silnie uzależniona od spójności zbioru danych, co pokazały słabe wyniki analiz na zróżnicowanym zbiorze Wikidanych. Co więcej, badania polegały na znalezieniu wizerunków tylko 10 konkretnych świętych - stosowano listę zamkniętą, mając już pewną wiedzę na temat tego, jakie wizerunki są w badanych zbiorach. W teście trzecim, w którym do promptów dodano przykłady szukanych wizerunków (few-shot learning), ogólne modele uzyskały gorsze wyniki niż ResNet50, co pokazuje, jak duży wpływ na efekty ich działań może mieć treść i struktura promptu.
Badanie koncentruje się na klasyfikowaniu obrazów za pomocą pojedynczej etykiety, a liczba klas w każdym zbiorze danych była stosunkowo niewielka; takie ograniczenia nie odzwierciedlają rzeczywistych warunków.
Omawiane badanie pokazuje potencjał stosowania multimodalnych LLM w pracy z dziedzictwem kulturowym, jednak w żaden sposób nie przekonuje, że już teraz można je wdrażać do takich zadań jak generowanie metadanych czy wsparcie wyszukiwania. Trudno czuć się przekonanym skutecznością tych rozwiązań, widząc nawet dobre wyniki w opisywaniu ograniczonego zbioru pojedynczymi etykietami z zamkniętego katalogu. Nie można przecież twierdzić, że dobrze zna się miasto i jego zabytki, jeśli porusza się po nim wyłącznie dzięki mapce turystycznej z opisanymi najpopularniejszymi miejscami. Tymczasem zbiory ikonograficzne pełne są kulturowych i historycznych zaułków, ślepych uliczek i ukrytych skarbów, których multimodalne LLMy nadal mogą nie być w stanie eksplorować.
Autor: redakcja
