Generować wizualne slopy, żeby lepiej opisywać dzieła sztuki

Slopy, niskiej jakości wytwory sztucznej inteligencji, są źródłem wielu problemów: zmęczenia estetycznego, scamów w mediach społecznościowych, rosnącego śladu ekologicznego i kosztów obliczeniowych (“dlatego nie stać cię na więcej RAM-u”). Trudno wyobrazić sobie, żeby mogły mieć jakąkolwiek wartość. A jednak.
Od lat, w obliczu niedostatecznej liczby danych treningowych, wykorzystuje się tzw. dane syntetyczne. W 1993 roku amerykański badacz Donald Rubin przygotował model statystyczny na bazie danych ze spisu powszechnego i za jego pomocą wygenerował zupełnie nowe, syntetyczne rekordy, które można było swobodnie przetwarzać bez obaw o ujawnianie wrażliwych informacji o konkretnych osobach (DOI: 10.48550/arXiv.2304.02107, 2023). Ważnym wątkiem używania danych syntetycznych w trenowaniu modeli jest perspektywa zapaści modelu, czyli degradacji jego jakości ze względu na niską jakość danych treningowych. Miernikiem jakości danych może tu być choćby to, jak dane odpowiadają prawdziwym obserwacjom rzeczywistości: dane syntetyczne na temat frekwencji w kinach będą zawsze gorszej jakości niż dane gromadzone bezpośrednio z konkretnych sieci kinowych.
Użyteczność syntetycznych wizerunków
Zaskakujące być może to, że stosowane są też wizualne dane syntetyczne. Oznacza to, że ich jakość coraz lepiej odzwierciedla rzeczywiste wizerunki (np. twarze, budynki, obiekty), albo że ich wartość polega na czymś innym niż replikowanie rzeczywistych wizualności. Ten drugi przypadek opisują autorzy opracowania Enhancing Authorship Attribution with Synthetic Paintings (DOI: 10.48550/arXiv.2603.04343, 2026). Już na wstępie potwierdzają, że
dane syntetyczne coraz częściej postrzega się jako praktyczne rozwiązanie problemów z trenowaniem modeli wizualnych, szczególnie kiedy zbieranie lub anotowanie dużych zbiorów danych jest niemożliwe
W wytwarzaniu wizualnych danych syntetycznych - obok generowanie nowych obrazów - praktykuje się także inne podejście: istniejące obrazy poddaje się maszynowym edycjom takim jak obrót, skalowanie czy zmiany kontrastu, tworząc w ten sposób różnorodne warianty oryginalnych danych.
Niekiedy sięgnięcie po dane syntetyczne jest konieczne: wypracowanie modelu wymaga odpowiedniej ilości danych, które nie zawsze są dostępne. Przykładowo, chcemy zbudować model do rozpoznawania autorstwa określonych dzieł malarskich, ale do dyspozycji mamy tylko od 7 do 25 dzieł na autora. Takie właśnie warunki założyli sobie twórcy badania, wybierając do pracy dzieła siedmiu brytyjskich malarzy z końca XVIII i początku XIX wieku, których styl był bardzo zbliżony, a więc maszynowa atrybucja autorska wyjątkowo trudna. Malarze ci to Gainsborough Dupont (GD), George Romney (GR), Thomas Gainsborough (TG), George Morland (GM), James Northcote (JN), Thomas Barker (TB) i John Hoppner (JH). Dodatkową komplikacją miało być to, że - jak czytamy - dobrej jakości cyfrowe reprodukcje pracy tych twórców są słabo dostępne.
W takiej sytuacji autorzy badania, aby zbudować model do skutecznej atrybucji autorskiej, postanowili przetestować cztery podejścia
- wykorzystanie do trenowania modeli wyłącznie oryginalnych obrazów,
- wykorzystanie do trenowania modeli wyłącznie obrazów syntetycznych. Model uczył się tu rozpoznawać styl artysty, korzystając wyłącznie z obrazów wygenerowanych przez sztuczną inteligencję (Stable Diffusion i DreamBooth). Skuteczność rozpoznawania sprawdzano również na obrazach syntetycznych, tyle że tylko takich, które nie były włączone do danych treningowych,
- modele są trenowane na obrazach syntetycznych, ale testowane na obrazach rzeczywistych,
- w ramach treningu wykorzystuje się obrazy prawdziwe i syntetyczne.
Wytworzenie syntetycznych wersji oryginalnych obrazów możliwe było dzięki zastosowaniu Stable Diffusion - jako modelu bazowego do generowania grafiki, oraz DreamBooth, modelu pozwalającego na personalizację (czy też dostrajanie) głównego modelu na niewielkiej liczbie przykładów.
Slop czy nowe interpretacje?
Zanim przejdziemy do bardziej szczegółowego opisu metod, pozwalających na uchwycenie malarskiego stylu i tematyki obrazów, charakterystycznych dla danych twórców, zatrzymajmy się jeszcze na problemie slopu. Autorzy opracowania nie posługują się tym pojęciem. Na określenie generowanych obrazów używają raczej takich terminów jak syntetyczne obrazy (synthetic images), dane syntetyczne, generatywne “rezultaty” (generative outputs) czy “nowe interpretacje” (novel renditions).
To ostatnie określenie wydaje się najbliższe powszechnemu rozumieniu slopu, ponieważ podkreśla warstwę estetyczną i znaczeniową obrazu. Inne terminy odnoszą się przede wszystkim do funkcji wytworzonych sztucznie obrazów i tego, skąd się biorą. Ostatecznie jednak - bez względu na to, jak są opisywane - rzeczywiście przypominają slopy, jakie możemy spotkać np. w mediach społecznościowych:

Omawiana praca ułatwia nam definiowanie slopów, chociaż nie pada tam o nich ani jedno słowo wprost. Wydaje się, że mimo wszystko częścią definicji takiego wytworu jest ocena estetyczna, a tę przecież trudno zobiektywizować w badaniu.
Ostatecznie wygenerowano po 100 obrazów syntetycznych dla każdego autora, bez względu na liczbę oryginalnych dzieł, które były dostępne i mogły się znaleźć w zestawie treningowym. Obrazy generowano za pomocą interfejsu Comfy z odpowiednimi promptami.
Maszynowe rozpoznawanie stylu malarskiego
Obrazy oryginalne i syntetyczne podzielono na fragmenty (224x224 pikseli). Z każdego takiego fragmentu wygenerowano embeddingi, czyli wyliczono wektor cech. Wykorzystano tu modele MaxViT, BEiT v2 i VOLO - każdy z nich "zwraca uwagę" na inne cechy obrazu. Cechy z tych trzech źródeł zebrano w jeden wektor dla każdego fragmentu.
Takie właśnie wektory reprezentujące poszczególne części oryginalnych i syntetycznych obrazów (każdego z twórców osobno) zostały następnie wysłane do trenowania siedmiu modeli-klasyfikatorów LightGBM dla twórczości każdego z siedmiu malarzy.
Żeby móc przeprowadzić planowane eksperymenty, w trenowaniu pominięto jeden z obrazów każdego twórcy - dzięki temu LightGBM rozpoznawać miał dzieła, których nie udostępniono mu w danych treningowych. Każdy eksperyment różnił się też po prostu wkładem, jaki udostępniano do LightGBM (wyłącznie obrazy oryginalne, wyłącznie syntetyczne itp.).
Głównym wskaźnikiem efektów binarnego rozpoznania ("ten obraz jest w stylu / nie jest w stylu autora X") była miara ROC- AUC - jej wartości wyrażały jednak prawdopodobieństwo a nie jednoznaczną decyzję ("tak" albo "nie").
![[Skuteczność rozpoznawania stylu różnych artystów (oznaczonych inicjałami) na podstawie pięciu metryk oceny]](https://blog.humanistyka.dev/content/images/20260309061257-7509c8099655a8b0b124e4f8128403cb73d2fa537544db0c16989f1ac2292bd2.png)
Okazało się, że użycie danych syntetycznych (w podejściu hybrydowym) zwiększyło efektywność rozpoznawania stylu danego artysty. Dla GD wskaźnik ROC-AUC wzrósł z 0.8746 (wynik po użyciu tylko oryginalnych obrazów) do 0.9756 (podejście hybrydowe). Równolegle jednak w scenariuszu trenowania klasyfikatora na maszynowych obrazach i testowania go na oryginałach odnotowano wysokie znaczne spadki tej miary.
Dlaczego to badanie, pomimo dość skomplikowanej struktury, jest takie interesujące?
Okazuje się, że charakterystyczne cechy twórczości malarskiej (wizualnej) można z powodzeniem wyodrębnić z analizowanych dzieł, używając konkretnych modeli (MaxViT, BEiT v2 i VOLO). Są to oczywiście cechy opisane matematycznie/statystycznie, a więc niekoniecznie mające związek z tym, co zauważyłby badacz czy badaczka, “jakościowo” analizując twórczość danego autora. Jak piszą autorzy,
chociaż wygenerowane obiekty przypominają styl prawdziwych obrazów, nie powielają konkretnych postaci z oryginalnych dzieł, co wskazuje, że model skutecznie uchwycił elementy stylistyczne, zamiast zapamiętywać poszczególne obrazy.
Wiele się mówi o tym, że styl twórczy jest zagrożony przez rozwój AI - rzeczywiście tak łatwo go skopiować. Zazwyczaj widzimy tylko negatywną stronę tego procesu - zawłaszczanie twórczości czy masowe tworzenie plagiatów, co może negatywnie wpłynąć na pozycję danego autora na rynku - może być mu trudniej sprzedawać swoje prace, skoro każdy może wygenerować sobie własną za darmo. Omawiany tu eksperyment pokazuje jednak, że obrazy syntetyczne (albo slopy) mogą być realnym wsparciem przy budowaniu systemów maszynowej analizy twórczości.
To na pewno wartościowe wzmocnienie narzędzi, które mogłyby być używane w badaniach nad sztuką, np. do weryfikacji autentyczności dzieł, identyfikacji slopów czy ulepszania systemów wyszukiwania w kolekcjach online. Charakterystyczną cechą “ery AI” jest też niestety brak pewności, że nie zostaną one użyte także w mniej przyjaznych dla twórców celach.
Autor: redakcja
