Próbowałem wygenerować w AI wpis na tego bloga i skończyło się to katastrofą

Krótki eksperyment, przeprowadzony piątkowym wieczorem, pokazał mi, że samodzielne pisanie bloga wciąż jest merytorycznie bardziej efektywne niż generowanie notek z “AI”. Oczywiście jest też jedynym etycznym wyborem wobec czytelników, to nie podlega dyskusji. Ale nawet przy cynicznym założeniu, że liczy się wyłącznie efektywność, wytwarzanie merytorycznych tekstów w AI nie jest opłacalne.
Inspiracją dla tego eksperymentu była notka na blogu TechDirt (który też serdecznie polecam). Założyciel bloga i jego główny autor Mike Masnick pisze w niej:
Przez ostatnie lata na Techdirt wspominałem dotąd jedynie o kilku własnych eksperymentach związanych z AI, w tym jak używam sztucznej inteligencji do wsparcia przy redagowaniu samodzielnie pisanych tekstów. Chociaż wciąż nie mam zamiaru pozwalać AI pisać za mnie, to wobec tego, że technologia leżąca u podstaw AI cały czas jest rozwijana, raz na jakiś czas robię test, żeby sprawdzić, czy potrafiłaby napisać lepszy tekst niż ja. Nie sądzę, żeby już dotarła do tego poziomu (nadal też nie jestem przekonany, że kiedykolwiek go osiągnie), ale uznałem, że mogę podzielić się z wami tym eksperymentem i pozwolić wam ocenić to samodzielnie. Chciałem wybrać do tego celu dość prosty artykuł, żeby szybko sprawdzić, jakie są możliwości. Pomyślałem, że spróbuję z tekstem, który opublikowałem w zeszłym tygodniu, o tym jak sędzia Boasberg orzekał przeciwko administracji Trumpa [...]
Na TechDirt przeczytamy wiele wpisów komentujących bieżącą amerykańską politykę. To akurat nie jest dla mnie szczególnie interesujące, więc pozwoliłem sobie skrócić cytat, nie chcąc rozwijać wątku kolejnej akcji sądowej wobec administracji Trumpa - jeśli kogoś to interesuje, może przeczytać źródłową notkę.
Zatem Masnick chciał przetestować AI i sprawdzić, czy może liczyć, że sztuczna inteligencja wygeneruje mu dobrej jakości notkę na bloga. Udostępnił modelowi próbkę swoich tekstów oraz dość szczegółowy prompt. Efekt?
Jestem skrajnie stronniczy, bo na pytanie o to, kto pisze lepiej, ja czy maszyna, nadal wskazuję na siebie. Muszę jednak przyznać, że efekt nie jest zły. Jest całkiem przyzwoity. Gdyby taki tekst przysłał mi inny autor, na pewno wprowadziłbym zmiany i poprawki, zwłaszcza w tym kiepskim, oklepanym zakończeniu. Ale wygenerowana treść jest i tak o wiele lepsza niż to, co większość ludzi uważa za typowy output ChatGPT, po części dlatego, że dostarczyłem mu mnóstwo kontekstu i bardzo szczegółowe instrukcje.
Postanowiłem dla zabawy zrobić podobny eksperyment. Pomyślałem jednak, że zmienię go w pewien sposób. Wiele osób z jakiegoś powodu uznaje, że ChatGPT i podobne narzędzia mogą być źródłem wiedzy. Jeśli tak, przerzucenie na AI pracy związanej nie tylko z edycją blogowej notki, ale też riserczem do niej, powinno być jak najbardziej zasadne. Skoro chciałbym oszczędzać własne zasoby (serio, tworzymy tego bloga w dwie osoby!), powinienem móc oczekiwać, że ChatGPT udostępni mi gotowy materiał. Ewentualnie poprawiłbym jakieś drobne rzeczy, ale całość nadawałaby się do szybkiej publikacji (oczywiście nie mam zamiaru tego nigdy robić).
Dlatego więc moje zadanie dla dostępnych za darmo GPT i Gemini (wybrałem sobie te modele) polegało nie tylko na maszynowej edycji tekstu, ale też zebraniu, interpretacji i przekazaniu w tekście pewnej wiedzy. W prompcie nie podałem modelom żadnej wiedzy poza dosłownym (i przetłumaczonym przeze mnie) cytatem oraz niezbędnym kontekstem:
Jako dodatkowy kontekst podałem też modelom treści kilku ostatnich notek z bloga. Oto tekst wygenerowany przez Gemini (darmowa wersja przeglądarkowa):
Poniżej tekst wygenerowany w ChatGPT. Wysłałem tam wraz z promptem tylko jedną notkę z bloga, ponieważ darmowa wersja nie pozwala na więcej. Tekst został przygotowany w Markdown:
Dobrze, pozostało mi już tylko przeczytać wygenerowane teksty i wyodrębnić błędy i niedoskonałości, które miałyby wpływ na publikację takiego wpisu na blogu. Oto moje uwagi:
1. Niebanalne stwierdzenia
Wbrew obawom, w wygenerowanych tekstach pojawiły się fragmenty, które zupełnie na serio mogłyby być inspiracją dla dobrego materiału. Przykładowo, model Gemini już na wstępie artykułu proponuje zdefiniowanie paradoksu:
Cyfrowe dziedzictwo staje w obliczu paradoksu: narzędzia stworzone do ochrony pamięci Internetu zaczynają być postrzegane jako zagrożenie dla twórców.
Relacja między ochroną dziedzictwa cyfrowego a interesami twórców to dość ciekawy i ważny problem, niestety ta generatywna uwaga wymagałaby poprawy: ochrona pamięci internetu nie jest tym samym co cyfrowe dziedzictwo, zresztą same stwierdzenie pamięć internetu jest merytorycznie ryzykowne - archiwa nie są od zachowywania pamięci, tylko źródeł, a pamięć, co już wiemy przynajmniej od tekstów Pierre’a Nory, jest przeciwieństwem historii. W każdym razie ten fragment zaskoczył mnie pozytywnie (mimo wszystko).
Podobnie dobre fragmenty można znaleźć w tekście od ChatGPT:
archiwizacja, dotąd postrzegana jako neutralna i prospołeczna, zaczęła być interpretowana jako pośredni etap w łańcuchu trenowania modeli generatywnych
Może nieco zbyt naukowo i zbyt szczegółowo, ale coś już na tym da się zrobić (archiwizacja Webu jako pośredni etap w trenowaniu AI - super perspektywa, serio!). Pójdźmy jednak dalej.
2. Wielkie słowa i niepotrzebne pytania
W zajawce tekstu Gemini pojawiły się stwierdzenia zupełnie nieprzydatne w notce blogowej. To w końcu tekst do publikowania na blogu, a nie manifest, więc odwołania do ciągłości wspólnej historii są niepotrzebne (i trochę kiczowate, prawda?). Do tego błąd z wyścigiem zbrojeniowym technologii (zamiast technologicznym wyścigiem zbrojeń) i pytanie, na które nikt w dalszym tekście nie odpowiada - to wszystko sprawia, że fragment nadaje się do wyrzucenia:
Obawa przed niekontrolowanym trenowaniem modeli AI sprawia, że wydawcy odcinają dostęp botom archiwizującym, co może trwale uszkodzić ciągłość naszej wspólnej historii online. Czy w świecie zdominowanym przez wyścig zbrojeniowy technologii znajdzie się jeszcze miejsce na bezinteresowną archiwizację?
3. Niepotrzebne i nietrafione metafory
Bardzo lubię opowiadania George’a Saundersa, szczególnie za język, który jest tam, hm, aż za bardzo. Wielu z jego bohaterów nie może tak po prostu mówić - musi się wypowiadać jakąś dziwną mieszanką jednego z dominujących żargonów (np. korporacyjnego) i własnej językowej nieporadności. To, co jest fajne w opowiadaniach, niekoniecznie jednak przydaje się w tekstach użytkowych. Czytam w materiale od Gemini, że
współczesny Internet przypomina plac budowy, na którym stare fundamenty są masowo mielone na żwir pod nowe inwestycje.
Dłuższą chwilę zajęło mi rozpoznanie koncepcji tego zdania - rzeczywiście, przetwarzanie archiwów Webu na dane treningowe mogłoby być ciekawie opisane taką metaforą. Ale jednak nie. Dlaczego? Bo metafora tu jest zupełnie niepotrzebna, nie wnosi nic do tekstu, tym bardziej, że kilka linijek niżej czytamy:
Wayback Machine, gromadząc kopie stron, może nieświadomie stać się pośrednikiem w przekazywaniu treści chronionych prawem autorskim do ogromnych zbiorów treningowych
Nie wydaje mi się, że czytelnikom należy przesadnie ułatwiać lekturę - w taki sposób, jak zostało to zrobione w tekście od Gemini, może to spowodować, że poczują się traktowani jak idioci.
Kolejne zbędne metafory to Internet Archive jako cyfrowa Biblioteka Aleksandryjska i bezpieczna przystań dla treści czy za kilka lat Internet Archive zamiast tętniącego życiem muzeum, stanie się zestawem pustych półek.
4. Przymiotniki i emocje
Nadużywanie przymiotników w tekstach sprawia wiele kłopotów. Po pierwsze, nadaje im dość mocne nacechowanie emocjonalne (a tego możemy nie chcieć), po drugie - zakrywa najważniejszą warstwę, jaką jest przekaz (informacja). Co miałyby dać czytelnikom frazy takie jak kapryśni właściciele domen? W tekście z ChatGPT czytamy, że
skoro modele językowe uczą się na ogromnych zbiorach tekstu, a archiwa sieciowe gromadzą treści chronione prawem autorskim, to między jednym a drugim powstaje niepokojący most.
Chociaż model poprawnie zauważył tutaj pewną relację między potrzebami wydawców AI a zasobami archiwów Webu, to do jej opisania użył niepotrzebnej metafory z zupełnie bezsensownym przymiotnikiem (niepokojący most). Zdanie to brzmi jak tekst z wypracowania szkolnego, w którym uczeń stara się pokazać, że potrafi konstruować profesjonalnie brzmiące opinie na ważne tematy.
Wydaje mi się, że dobry tekst nie musi bezpośrednio odwoływać się do emocji, żeby wzbudzać emocje. W materiale od Gemini czytamy, że
wydawcy, przerażeni tempem, w jakim firmy technologiczne “zasysają” dane do trenowania modeli takich jak GPT-4o czy Gemini [...]
Przerażeni wydawcy, bezinteresowna archiwizacja, archiwizacja stanie się ofiarą uboczną walki z big techami i AI - przymiotnik są tu zupełnie niepotrzebne.
5. Kwestie merytoryczne
Tutaj też jestem nieco pozytywnie zaskoczony (a jednak!). We fragmencie od Gemini czytam:
Warto tu przywołać refleksje Amelii Acker (DOI: 10.7551/mitpress/14144.001.0001), która wskazuje na zacieranie się dystansu między danymi „uśpionymi” a tymi będącymi w ciągłym procesie przetwarzania. W dobie chmury i AI, archiwum przestaje być statyczną półką, a staje się paliwem dla algorytmów.
To, że ten fragment pojawił się w tekście, jest efektem tego, że jako kontekst wysłany był do modelu tekst przywołujący badania Amelii Acker . Wykorzystanie tego odwołania jest jednak jak najbardziej zasadne - model wybrał sobie z cytowanego tam fragmentu jej książki te frazy, które pozwoliły opisać zmianę statusu zasobów archiwalnych. Świetna rzecz! Równolegle jednak przywołany - zgodnie z promptem - cytat z szefa Wayback Machine został po prostu wklejony w tekst, bez żadnego wprowadzenia, kontekstu, odniesienia. ChatGPT zrobił to lepiej, chociaż słowa Grahama podsumował zupełnie bezsensownie:
To ważna deklaracja, ale w obecnym klimacie nie dla wszystkich wystarczająca.
Tekst od Gemini zupełnie zmienił założony wątek. Miał być poświęcony problemom Wayback Machine związanym z blokowaniem możliwości archiwizacji stron wydawców, ostatecznie jednak mówi o zalewaniu tego archiwum slopem AI. Jaki ma to związek? Żaden. Problem slopów w archiwach Webu czy zbiorach bibliotecznych jest ważny, ale nie do tego odwoływał się Graham w swoim komentarzu. Propozycja od Gemini musiałaby zostać radykalnie przepisana, żeby pasowała do notki na zadany temat.
ChatGPT zrobił to lepiej, zachowując główny temat w całej narracji. Do tego zaproponował samodzielnie dodatkowe źródła (na tym mi też zależało):
Badania nad trenowaniem modeli pokazują, że granica między „publicznie dostępnym” a “dozwolonym do uczenia maszyn” jest nieostra (por. przegląd problemu w Communications of the ACM, DOI: https://doi.org/10.1145/3442188). Z kolei prawnicy coraz częściej podnoszą argument, że masowe przetwarzanie treści może naruszać ekonomiczne podstawy działalności wydawniczej (DOI: https://doi.org/10.1093/jiplp/jpaa157).
Wygląda to względnie profesjonalnie, ale jak to bywa zazwyczaj z wytworami modeli, szczegóły robią już gorsze wrażenie. Oto pierwszy odnośnik DOI kieruje do zbioru pokonferencyjnego FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, w którym znajduje się kilkadziesiąt tekstów. Który z nich mówi o granicy między publicznie dostępnym a dozwolonym do uczenia maszynowego? Nie wiadomo, tym bardziej, że w tomie znajdziemy teksty poświęcone np. płciowej czy kulturowej stronniczości modeli. Co daje czytelnikowi taki odnośnik? Nic.
Drugi tekst zaproponowany w tekście od ChatGPT kieruje do artykułu z 2020 roku o problemie praw autorskich… w e-sporcie. Zdecydowanie dałoby się w kilka minut znaleźć dobry i aktualny tekst poświęcony temu, że masowe przetwarzanie treści może naruszać ekonomiczne podstawy działalności wydawniczej, który nie wprowadzałby kontekstów zupełnie zbędnych z punktu widzenia opracowywanego tematu. Po co wspominać e-sport w artykule na temat ograniczeń w archiwistyce Webu? Zdecydowanie mamy już bogatą literaturę przedmiotu dotyczącą archiwów tego typu.
6. Lokalna i osobista perspektywa
W wytwarzanych maszynowo tekstach trudno oczekiwać lokalnych i osobistych perspektyw. Szkoda, że wciąż trzeba to przypominać, ale modele nie mają dostępu do rzeczywistości. Jeśli nie sprecyzuję tego w prompcie, nie przyjmą mojej własnej perspektywy. Stąd być może takie generyczne interpretacje jak ta z tekstu ChatGPT:
Z polskiej perspektywy spór ten nie jest abstrakcyjny. Lokalne media, blogi czy inicjatywy archiwalne — często działające non profit — korzystały z Internet Archive jako zabezpieczenia przed „cyfrową amnezją”. Jeśli archiwizacja stanie się ofiarą uboczną walki z big techami i AI, stracą przede wszystkim mniejsi gracze. Paradoksalnie więc, próbując chronić prawa autorskie, możemy osłabić społeczną pamięć Sieci.
Spostrzeżenie to można odnieść do każdego kraju, polska perspektywa nie jest tu wyjątkowa. Co może ją jednak tworzyć? Ja jako autor wiedziałbym to - np. Polska wciąż nie posiada własnego archiwum Webu, a edukacja na temat archiwizacji zasobów cyfrowych jest w skali całego kraju prowadzona przez kilka osób (i to bez stypendiów i grantów). Nie znam też żadnego przypadku, w którym polskie inicjatywy archiwalne korzystałyby z Internet Archive jako zabezpieczenia przed “cyfrową amnezją.
7. Próba oceny
Poza kilkoma ciekawymi fragmentami oba wygenerowane teksty do niczego się nie nadają. Praca nad nimi wymagałaby tak naprawdę napisania ich od nowa. To, że momentami brzmią one profesjonalnie, jest tylko cechą halucynacji i może spotkać się z uznaniem wyłącznie tych, którzy za pomocą takich generowanych tekstów chcieliby niskim kosztem budować swój profesjonalny wizerunek, oszukując przy tym czytelników.
Oba wygenerowane teksty to slop. Jeśli nie zgadzacie się z moją oceną jakości maszynowego generowania merytorycznych tekstów, możecie spróbować sami przeprowadzić taki eksperyment. Zmodyfikujcie prompt, tak, żeby mógł dać lepsze efekty - być może sam napisałem go niedokładnie. Dodajcie więcej treści kontekstowych. Celem eksperymentu jest wygenerowanie merytorycznego tekstu dobrej jakości, z minimalnym wkładem człowieka. Tekstu wartościowego, a nie contentu pod SEO.
W grafice wykorzystałem rycinę z XVIII w. (domena publiczna) oraz schemat przedstawiający eksperyment myślowy Galileusza na temat bezwładności (CC BY-SA).
Autor: redakcja
