Uprzedzenia wobec generatywnej poezji są w porządku

Wykazujemy tendencję do oceniania poezji AI jako lepszej i bardziej zrozumiałej niż ludzka, dopóki nie dowiemy się (lub nie zaczniemy tego podejrzewać), że wiersz jest maszynowego pochodzenia - wtedy ocena gwałtownie spada. Lepsze oceny dla generatywnej poezji wbrew pozorom nie świadczą o niej najlepiej. Jak to można uzasadnić?
Wątki relacji między poezją a sztuczną inteligencją rozwijają się gdzieś na marginesie debaty o AI, co być może wynika po prostu ze społecznego statusu poezji, uznawanej za twórczość niszową, niezrozumiałą i - co pewnie ważne - nie mającą potencjału komercyjnego. Poezja przywoływana jest w tych debatach, jak się wydaje, głównie przy okazji zabiegów, mających na celu pokazać twórczy potencjał AI, a w konsekwencji to, że jest to technologia rewolucyjna i przekraczająca dotychczasowe ograniczenia techniczne. Tak jest na przykład w niedawnej książce Andrzeja Dragana, który redukuje proces twórczy do przewidywania kolejnych słów w wypowiedzi, a przecież, jak przekonuje, podobnie pracują duże modele. Konsekwencją chęci uwznioślenia sztucznej inteligencji za pomocą odwołań do poezji jest banalizacja aktu twórczego i deprecjacja autora. Niestety twórcy takich porównań nie zawsze zdają sobie z tego sprawę - patrzą przecież tylko w jedną stronę.
Ze zwykłej ciekawości można jednak zgłębić temat relacji poezja - sztuczna inteligencja, szczególnie po to, żeby odkryć, co tak naprawdę jest nie tak z generowanymi wierszami. Rozpoznanie takie musi oczywiście redukować poezję wyłącznie do wymiaru praktyki - zastanawianie się na serio, czy LLMy posiadają jakąkolwiek głębię (intencję, wrażliwość, subiektywne przetwarzanie rzeczywistości) nie ma oczywiście sensu. Ostatecznie też to tylko ludzie mogą świadomie odbierać tego typu wytwory, więc tylko oni mogliby w akcie interpretacji nałożyć na maszynowe wiersze jakąś subiektywność, intencję czy wrażliwość.
Automatyczne tworzenie poezji
Pierwsze próby automatycznego tworzenia poezji bazowały na zestawach reguł, losowaniu słów i ręcznie tworzonych schematach składniowych. Nie zawsze potrzebowały zresztą do tego komputerów, o czym świadczy słynne Sto tysięcy miliardów wierszy Raymonda Queneau z 1961 roku. W 1984 roku opublikowano zbiór opowiadań i wierszy The Policeman's Beard Is Half Constructed, wytworzony przez program Racter (DOI: 10.7273/2bt7-pw23, 2021), którego autorem był nowojorski programista i pisarza William Chamberlain:
Metoda Ractera stanowi skomplikowaną mieszankę przypadkowości i lingwistycznej biegłości. Program w gruncie rzeczy losowo łączy słowa i frazy, lecz podlega przy tym dwóm istotnym ograniczeniom. Zawiera reguły języka angielskiego, dzięki czemu Racter wypowiada się gramatycznie poprawnie. Ponadto dysponuje wystarczającą ilością informacji o każdym z 2400 słów swojego słownika, aby móc składać zdania sensowne znaczeniowo. Racter “wie” na przykład, że poprawne gramatycznie zdanie “Sarah chłodno poleciała parkometr” (“Sarah coldly flew the parking meter”) jest pozbawione sensu, podczas gdy „Sarah łapczywie zjadła sałatę” (“Sarah ravenously ate the lettuce”) ma sens.
Pewnym przełomem było wykorzystanie modeli statystycznych i sieci neuronowych. W 2018 roku pojawił się model Deep-speare, zaprojektowany do imitowania poezji z epoki elżbietańskiej. Trudno odnieść wrażenie, że nie zawsze w tych próbach chodziło w wytwarzanie dobrej jakości literatury, ale przekraczanie ograniczeń maszynowych. A także, być może, badanie natury i granic poezji i zadawanie pytań podobnych do tych, jakie zadał Oscar Schwartz podczas swojego wystąpienia na TEDx w 2015 roku, konfrontującego publiczność z wierszami Williama Blake’a, Gertrudy Stain i wytworami algorytmu uczenia maszynowego (RKCP) oraz efektami użycia Ractera na danych z Facebooka:
Kiedy pytamy "Czy komputer może pisać poezję?", pytamy także "Co to znaczy być człowiekiem, i gdzie przebiegają granice tej kategorii?". "Jak mamy ocenić, kto i co może być jej częścią?". To bardzo filozoficzne pytanie [...]. Dzięki temu [eksperymentowi] zrozumiałem, że bycie człowiekiem to nie po prostu fakt. Stwierdzenie czyjegoś człowieczeństwa wynika z naszych opinii, i dlatego pojęcie człowieczeństwa zmienia się z biegiem czasu.
Trudno nie przyznać, że taka interpretacja niesie już jakąś wartość, chociaż warto wziąć pod uwagę, że prezentacje TEDx mają własną specyfikę, w tym czasem bardzo irytującą skrótowość i efekciarskie zagrywki.
Symulowanie pracy poetyckiej z wykorzystaniem dużych modeli językowych może też po prostu ujawniać ograniczenia tych modeli. Wydaje mi się to najlepszym kierunkiem eksperymentów, który przy okazji pozwala nam rozpoznawać, co takiego w ludzkiej twórczości poetyckiej może być nie tak. Analizując wytwory maszynowe możemy identyfikować błędy, braki i schematyzmy, których następnie moglibyśmy uniknąć w pracy nad wierszami. A także zastanawiać się, jak mówić i uczyć o poezji, żeby uniknąć sytuacji, w której maszynowe wytwory są bezkrytycznie uznawane za poezję tylko dlatego, że mają rymy, powielają pewne tropy czy wykorzystują znane metafory.
O badaniach, które można wpisać w taki nurt, pisałem już na blogu w tekście na temat ograniczeń dużych modeli w generowaniu poezji. Okazuje się, że ze względu na ich wysoką jakość w pracy z językiem, wytwarzane teksty są niepotrzebnie doskonałe, oczywiste i domknięte. Stąd lepiej sprawdzają się bardziej ograniczone modele z rodzaju LSTM-VAE. Omawiane w tekście badanie pokazuje nam, że dobra poezja nie musi być językowo idealna i koncepcyjnie domknięta, istotne są dziury, specjalnie wytwarzane braki i nieścisłości.
Preferujemy poezję generatywną?

No właśnie. A kiedy taka jest? W opracowaniu The author is dead, but what if they never lived? A reception experiment on Czech AI- and human-authored poetry (DOI: 10.48550/arXiv.2511.21629, 2025) czytamy, że wiersze wygenerowane przez AI zostały ocenione jako istotnie bardziej sensowne niż te napisane przez ludzi. Autorzy badania sugerują, że dla przeciętnego czytelnika “wysoka poezja” bywa trudna i hermetyczna, co odbiorcy interpretują jako brak sensu. Tymczasem frazy tworzone przez GPT-4.5 Preview okazały się bardziej przystępne, łatwiejsze do zrozumienia i bardziej logicznie “domknięte”.
W czeskim badaniu błędy i ograniczenia modelu językowego GPT-4.5 Preview opisano za pomocą ocen określonych atrybutów estetycznych. Autorzy zaproponowali sześć głównych kategorii, w których uczestnicy, rodzimi użytkownicy języka czeskiego, oceniali każdy tekst w pięciostopniowej skali Likerta - jedną z tych kategorii była właśnie “sensowność”. Do oceny zaproponowano im teksty ludzkiego i maszynowego autorstwa. Tworzono je w taki sposób, że do strofy oryginalnego wiersza osobowego autora dogenerowywano fragment maszynowy. Tak powstałe pary strof poddano ocenie, z tym, że żaden z badanych nie oceniał jednocześnie całego wiersza (a tylko wybraną, maszynową lub ludzką, część). Poproszono także uczestników o wskazanie, czy fragment jest ludzkiego, czy maszynowego autorstwa.
126 ankietowanych pytano o to, jak oceniają pokazane im fragmenty pod względem tego, jak im się podobają, pod względem obecności rymów, potencjału rozrywkowego (playfulness), kreatywności językowej, sensowności oraz stopnia powagi. Ocena rymów miała pokazać, jak dobrze model radzi sobie z czeską morfologią, a ocena stopnia powagi - na ile potrafi on symulować współczesną jakościową poezję, która przecież daleka jest od prostych rymowanek.
Co ciekawe, skuteczność rozpoznawania autorstwa wyniosła w badaniu nieco ponad 45 proc., co znaczy, że badanym trudno było ustalić, czy fragment jest autorstwa poety/poetki, czy raczej modelu językowego. Grupę badawczą złożono z grona studentów oraz przyjaciół i znajomych autorów badania, prawie 60 proc. członków grupy miało wykształcenie średnie, a 40 proc. - wyższe (jednak nie było tam zbyt wielu znawców literatury czy profesjonalnych poetów). W trakcie badania ujawniono także silny efekt uprzedzenia: kiedy badani sądzili, że czytają tekst wytworzony przez AI, oceniali go gorzej (spadek oceny z 2.3 na 1.0), nawet jeśli w rzeczywistości był to wiersz ludzkiego autora:
Gdy przyglądamy się krzywym przedstawiającym średnie upodobanie (liking) do wierszy, rozdzielonym według autorstwa i kategorii wierszy, widzimy, że wiersze wygenerowane przez AI były oceniane wyżej niż wiersze napisane przez ludzi [...] Jednak gdy patrzymy na odpowiedzi uczestników, okazuje się, że kiedy sądzili oni, że wiersz został napisany przez człowieka, bardziej im się podobał niż wtedy, gdy uważali, że autorem jest AI. Ponieważ nie znamy kierunku tej korelacji, może być ona również odwrotna: gdy odbiorcom podobał się wiersz, mogli być bardziej skłonni uznać, że jego autorem jest człowiek, a nie AI.
Potrzeba autora, który przekazuje doświadczenie
Spodziewamy się, że generatywne wiersze, wytwarzane przez duże modele językowe, charakteryzują się schematycznością, niepotrzebnym wykorzystaniem rymów oraz brakiem głębi, wieloznaczności i nieoczywistych metafor. Zamiast twórczo nawiązywać do konwencji i gatunków poetyckich, traktować miałyby je jako dominujące schematy, które należy powielać w kolejnym wytworze. Mimo tego są jednak oceniane lepiej od wierszy ludzkich - pokazuje to nie tylko czeskie badanie, ale też analiza z AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably (DOI: 10.1038/s41598-024-76900-1, 2024). W badaniu z 2024 roku brały udział osoby, spośród których 90 proc. deklarowało, że czyta poezję zaledwie kilka razy w roku lub rzadziej, a 55 proc. opisało siebie jako niebędących zbyt zaznajomionymi z poezją.
Specyficzna płytkość, upraszczanie języka, eliminacja wieloznaczności czy bezpośredniość przekazu to cechy generatywnych wierszy, które upraszczają ich odbiór, a przez to sprawiają, że lepiej je oceniano. Z drugiej strony wysokie oceny wierszy maszynowych były kwestionowane, kiedy okazywało się, że nie są to teksty autorskie. Bezkrytyczni zwolennicy sztucznej inteligencji przekonywać mogą, że należałoby walczyć z uprzedzeniami wobec generatywnej literatury. Dla mnie to jednak po prostu efekt potrzeby autora, świadomości, że za danym tekstem stoi jakieś doświadczenie, a nie zestaw wag i prawdopodobieństw.
Preferowanie wierszy AI za ich prostotę i jednoznaczność nie mówi też wcale o literackim potencjale dużych modeli językowych. Być może to raczej pewien przejaw specyficznej sytuacji społecznej poezji: czytanie poezji wymaga odpowiedniej, uważnej lektury oraz pewnej otwartości na niejednoznaczność, wielowymiarowość i niepewność, przez co ta przestrzeń literatury uznawana jest za niedostępną, abstrakcyjną i nieużyteczną.
To ciekawe, że uczestnicy badania znacznie częściej trafnie rozpoznawali autorstwo wiersza, kiedy rzeczywiście był on napisany przez człowieka. Kiedy mieli do czynienia z tekstem wygenerowanym przez AI, mylili się częściej, rozpoznając w nim tekst ludzki. Okazuje się, że wbrew tytułowi czeskiego badania, autor wcale nie jest martwy. Wydaje się nawet kluczowy w recepcji poezji - nie tyle nawet jako konkretna osoba ze swoją historią i pozycją w polu literackim, ale jako osoba - źródło doświadczenia, którego wyrazem jest wiersz. Wciąż utożsamiamy poezję z człowiekiem i doświadczeniem, wiedząc, że duże modele nigdy nie mają z nim nic wspólnego.
Pracując nad tomem “Kubek na tsunami” (2025) Justyna Bargielska korzystała z Chat GPT. Informacje o tym wywołały wielką burzę w sieci. Niestety większość komentujących zignorowała jasne deklaracje poetki - wiersze były efektem ludzko-maszynowego dialogu, ale źródłem doświadczenia poetyckiego była tylko ona.
Autor: redakcja
