Maszynowo generowane wizerunki to obrazy hipotetyczne

Zbyt często przypisujemy modelom generatywnym kreatywność, intencję i zdolność inspirowania się ludzką twórczością. Szczególnie łatwe jest to w przypadku maszynowo generowanych obrazów, z miesiąca na miesiąc coraz bardziej atrakcyjnych i coraz wyższej jakości. Takie wizerunki to jednak wyłącznie hipotezy zbudowane na ograniczonych i sformatowanych danych wizualnych, losowe infografiki na temat tych danych.
Dla rozwijania kompetencji związanych z wytwarzaniem obrazów przez AI, potrzebujemy języka, który doda krytyczny dystans między wizualnymi efektami działania danego narzędzia a narracją, jaką sprzedaje się nam poprzez interfejs użytkownika - czytamy w rozdziale Hypothetical images, pomieszczonym w tomie The Need to Rename Tech (DOI: 10.1007/978-3-032-05155-4_10, 2026). Interfejsy, za pomocą których korzystamy z AI, obiecują generowanie obrazów i zdjęć, narracja marketingowa zrównuje takie wytwory z ludzkimi pracami, a wiele szkoleń przedstawia je jako prosty zamiennik dla ludzkiej twórczości. Jak pisze Eryk Salvaggio, nie da się jednak statystycznej symulacji obrazu porównać z efektami ludzkiej kreatywności. Ale dlaczego generatywne obrazy mają być czymś istotowo różnym od tych tworzonych przez ludzi? Poznajmy argumenty, jakie proponuje autor omawianego tekstu.
Szum a nie światło
Jak wiadomo, fotografia to rysowanie za pomocą światła, z definicji więc żadne wytwory AI nie powinny być określane w ten sposób. Co więcej, trenowanie modeli dyfuzyjnych , powszechnie wykorzystywanych do tworzenia materiałów wizualnych, polega - jak przypomina Salvaggio - na daleko idącej degradacji oryginalnych, ludzkich grafik i zdjęć. Obrazy te, zamienione w szum, stają się dopiero podstawą specyficznej rekonstrukcji, podczas której określone skupiska pikseli utożsamiane są z określonymi słowami (metadanymi). Tak wypracowana wiedza pozwala potem w procesie generowania nowych obrazów przekształcać początkowy szum w określony porządek wizualny.
Ponieważ punktem wyjścia dla każdego obrazu jest losowo wygenerowany szum, każdy powstały obraz również będzie losowy. Różne rozmieszczenia pikseli prowadzą do różnych sposobów wizualnego odzwierciedlenia podanego promptu.
Osoba robiąca zdjęcie może twórczo zaplanować ujęcie, przygotować scenę czy dobrać odpowiednie filtry kolorystyczne. Fotografując, pracuje jednak z określonym światłem, przestrzenią, sceną, która dzieje się tu i teraz. Istnieje jakaś rzeczywista baza, z którą można dalej pracować i poddawać interpretacji. W przypadku generatywnych wizerunków takiej podstawy nie ma: wytwór AI powstaje na bazie szumu, porządkowanego w oparciu o statystyczne charakterystyki danych treningowych i w kierunku zaproponowanym przez prompt użytkownika.
Wszystkie obrazy AI są historyczne
Salvaggio zwraca uwagę na dane treningowe, bez których modele dyfuzyjne nie miałyby zdolności do porządkowania początkowego szumu przy generowaniu obrazów. Dane te, jak podkreśla, są zawsze historyczne, ponieważ to dzięki nim dopiero powstaje model, źródło dalszych, już generatywnych obrazów. Kiedy mówimy, że obrazy AI coś przedstawiają, jest to zawsze spojrzenie w przeszłość.
Nie jest to też przeszłość, na którą wpływ mogą mieć osoby używające modeli generatywnych do wytwarzania materiałów wizualnych. Robiąc tradycyjne zdjęcie czy nawet kolaż w programie graficznym mamy - mniejszą lub większą - decyzyjność co do wyboru sceny, ujęcia czy tematu. W przypadku modeli generatywnych decyzje podejmowane są wcześniej, na poziomie selekcji materiałów wizualnych do danych treningowych, i potem w trakcie generowania obrazu z szumu. Nie mamy tu za wiele do powiedzenia, możemy jedynie sprofilować to generowanie za pomocą promptu.
W 2022 roku udostępniono zbiór LAION-5B, zawierający ponad 5 mld par obraz - opis, pochodzących z zasobów internetowych. Salvaggio przytacza opracowania dokumentujące wysoką stronniczość tych danych, wskazując na treści mizoginiczne, rasistowskie czy seksualizujące (część obrazów w tym zbiorze pochodziła ze stron pornograficznych). To także wizualność Zachodu, uśredniona i korporacyjna:
modele dyfuzyjne opierają się na tendencjach centralnych w danych, na tej podstawie kształtując granice i kontury tego, co można przedstawić w powiązaniu z danym słowem [promptem - MW]. Jeśli zbiór danych treningowych zawiera wizerunki miliona białych mężczyzn oznaczonych jako lekarze i 10 tys. obrazów czarnoskórych kobiet oznaczonych jako lekarki, to w generowanych wizerunkach czarnoskóre kobiety-lekarze mogą w praktyce nie być przedstawiane.
Testowana tylko jedna hipoteza
Obrazy generowane przez modele dyfuzyjne pochodzą z danych (come from data) i powinny być traktowane jako przewidywania ograniczone tymi danymi
przekonuje Salvaggio, przywołując metody badań statystycznych. Kiedy zastanawiamy się nad wynikiem przyszłych wyborów, możemy analizować dane historyczne i próbować znaleźć w nich pewne wzorce, które ułatwią przewidywanie wyników elekcji. Testować można wiele hipotez. Tymczasem
za każdym razem, gdy użytkownik wpisuje polecenie (prompt) dla modelu dyfuzyjnego, prosi model o hipotezę, podobnie jak statystycy formułują hipotezy na podstawie swoich danych, niezależnie od tego, czy dotyczą one modelowania zmian klimatu, czy wyników wyborów. Jednak modele mają tendencję do generowania tylko jednej hipotezy naraz, mimo że w rzeczywistości możliwe wyniki nie są tak ograniczone.
Wizerunek wytwarzany w modelu dyfuzyjnym jest efektem porządkowania początkowego szumu na podstawie wzorców wyuczonych z danych treningowych. Ponieważ ten początkowy szum jest zawsze losowy, jak pisze Salvaggio, potencjalnie dostępnych jest wiele hipotez. Ostatecznie jednak różnorodność wyników ograniczana jest do jednej propozycji. Co więcej - i tutaj leży klucz rozumienia autora - hipoteza taka jest zawsze błędna, ponieważ model nie ma wiedzy, dostępu do rzeczywistości i nie jest inteligentny.
Autor podaje taki przykład: oto prompt żądający wygenerowania wizerunku typowej osoby z Australii (a typical Australian person) może dać nam wizerunki misiów koala, kuoków, kangurów oraz miksy tych wizerunków. Dlaczego nie zawsze otrzymujemy wizerunek człowieka? Jak pisze Salvaggio, maszyna nie posługuje się myśleniem, dlatego nie jest w stanie powiązać kategorii australijskości z kategorią osoby:
kategoria australijski może obejmować zarówno ludzi z Australii, jak i flagi Australii, australijskie zabytki czy australijską faunę.
Teorie Salvaggio o fundamentalnym znaczeniu kategorii (labeli), którymi opisywane są obrazy w danych treningowych, wydają się zbytnim uproszczeniem. Także brak semantycznego powiązania między słowami wykorzystywanymi w prompcie nie jest już raczej problemem.
Autor zilustrował swoją interpretację wizerunkami wygenerowanymi w Midjourney, który należy do rodziny modeli dyfuzyjnych. Ten sam test, przeprowadzony w Google Gemini (Nano Banana), daje już lepsze rozwiązanie - Gemini to modele multimodalne, w których potencjał rozumienia dużych modeli językowych wykorzystuje się do operacji generowania wizualnego. Nano Banana został udostępniony w sierpniu 2025 roku, książka The Need to Rename Tech wyszła na początku 2026 roku, ale w słowie wstępnym czytamy podziękowania dla recenzentów, którzy mieli pracować nad rozdziałami jeszcze w 2024 roku.
Szybki rozwój oferty modeli i narzędzi AI nie ułatwia publikowania na bieżąco komentarzy na ich temat, jeśli pojawiać się mają one w tradycyjnym modelu wydawniczym. Na szczęście autor jest także aktywnym komentatorem platformy Tech Policy Press - zachęcam do lektury.
Propozycje spekulatywne w obrębie kanonu
Czytałem ten rozdział jednak nie po to, żeby dowiedzieć się, na czym dokładnie polegają rozmaite techniki maszynowego generowania obrazów, ale żeby - zgodnie z zamysłem całej książki - przekonać się do zmiany języka, jakim opisywać można efekty stosowania tych technik. Salvaggio proponuje, żeby zamiast o zdjęciach AI czy obrazach AI mówić o obrazach hipotetycznych, co ma podkreślać fundamentalne znaczenie danych treningowych (zawsze ograniczonej i sformatowanej puli) oraz pośrednictwo przekształceń statystycznych. W innym ze swoich tekstów określa takie obrazy jako infografiki na temat danych treningowych, co też wydaje się ciekawą propozycją.
Ale jak wyobrażać sobie hipotetyczne obrazy? W 2023 roku w nowojorskim Museum of Modern Art oglądać można było ekspozycję “Unsupervised”. Jak pisze Salvaggio, jej autor
wykorzystał całe archiwum Museum of Modern Art (MoMA), aby wytrenować model [...] a następnie stworzył niezliczone wariacje z punktów pośrednich między wszystkimi dziełami. Model mógłby na przykład wykorzystać prace Andy'ego Warhola i Gustava Klimta, znaleźć nakładające się między nimi wzorce i wygenerować obraz, który w 10 proc. przypomina Warhola, a w 90 proc. Klimta. Mógłby to zrobić dla tysięcy obrazów z archiwum. W rezultacie, w dowolnym momencie obraz prezentowany na ekranie może być amalgamatem prac dwóch lub nawet tysiąca artystów, z których każdy znajduje się w archiwum MoMA. [...] Nieustannie zmieniające się obrazy w Unsupervised są obrazami hipotetycznymi; nigdy nie zostały stworzone przez ludzi. Są spekulatywnymi propozycjami tego, co mogłoby teoretycznie istnieć. Przede wszystkim jednak są wynikiem koncepcji statystycznych, wyłaniających się z centralnych tendencji rozproszonych punktów danych.
Bez względu na to, czy korzystamy ze Stable Diffusion, DALL-E, Nano Banana czy pomniejszych modeli, wytworzony dla nas obrazek jest tylko jedną z możliwych propozycji. Jest propozycją pozbawioną intencji, kreatywnej idei, emocji czy głębokiego przemyślenia tematu, wymagającego posłużenia się metaforami czy ironią.
W interfejsie platformy OpenAI tworzenie grafiki uruchamiane jest opcją Stwórz obraz. Cały ten proces - tak czytam Salvaggio - mniej ma wspólnego z tworzeniem, a więcej z losowaniem. Oczywiście ograniczonym do struktur z danych treningowych i zmanipulowanym promptem, ale wciąż ślepym wybieraniem z olbrzymiej puli możliwości. Olbrzymiej, ale jak na ironię, wciąż zbyt małej, żeby pokazać wizerunki nieoczywiste, niszowe, niepasujące do przemysłowego kanonu.
Propozycja Salvaggio pozwala też oczyszczać dyskusje o AI z komentarzy o wytworach AI inspirowanych ludzką twórczością czy nawet ich kreatywności. Jak pisze sam autor, generatywne obrazy
mówią nam o świecie nic poza tym, jak był on wcześniej opisywany.
Co więcej, znaczenie, które można wyczytać z takich produkcji, jest w stanie nadać wyłącznie człowiek.
Autor: redakcja
