Uruchomienie bloga zostało sfinansowane przez społeczność ❤️
Mecenasem bloga jest Fundacja Zakłady Kórnickie,
wydawca portalu historycznego Hrabia Tytus

Więcej treści w sieci tworzy AI niż ludzie? Zanim w to uwierzysz, sprawdź, jak to policzono

Więcej treści w sieci tworzy AI niż ludzie? Zanim w to uwierzysz, sprawdź, jak to policzono

Raport firmy Graphite, zajmującej się optymalizacją treści stron pod wyszukiwarki (SEO), przekonuje, że większą część zasobów internetu stanowią już treści generowane maszynowo. Czy można wierzyć temu badaniu i czy jest się czego bać?

Informację o badaniu dostajemy na portalu Axios:

Według analizy firmy Graphite obejmującej 65 000 adresów URL opublikowanych online w latach 2020–2025, odsetek artykułów generowanych przez AI gwałtownie wzrósł po premierze ChatGPT w 2023 roku. Odsetek artykułów tworzonych przez AI w tym zestawie danych chwilowo przewyższył liczbę artykułów pisanych przez ludzi w listopadzie 2024 roku, ale od tego czasu zasięgi obu typów treści utrzymują się mniej więcej na równym poziomie.

Brzmi to poważnie, ale może nie jest zbyt poważne. Po pierwsze, wyniki badań komercyjnej firmy SEO należałoby traktować z dystansem. Po drugie, warto przyjrzeć się metodom tego badania, tym bardziej, że nawet OpenAI przyznaje oficjalnie, że nie ma dobrych narzędzi do rozpoznawania, czy dany tekst został wygenerowany maszynowo. Uruchomione w styczniu 2023 roku narzędzie, które miało pomóc w takich zadaniach, zostało wyłączone już po kilku miesiącach z powodu niskiej skuteczności.

Czy firma od SEO znalazła lepsze metody niż twórcy ChatGPT? Szczerze wątpię, ale zobaczmy, jak wypracowano ten wstrząsający wniosek:

  • Wyciągnięto z zasobów Common Crawl 65 tys. adresów URL stron WWW, opublikowanych między styczniem 2020 a majem 2025. Podstawą selekcji był język angielski treści oraz klasyfikacja treści jako artykułu. 65 tys? Archiwum Common Crawl to dziś 380 miliardów stron, co miesiąc dodawanych jest 3-5 milionów, a nawet taka skala nie odpowiada liczebności zasobów Webu,
  • Nie jest to pierwsze badanie Graphite SEO. Rok temu do wyznaczania tekstów tworzonych maszynowo zastosowano algorytm Originality.ai, ten sam, który uznał tekst amerykańskiej konstytucji za wytworzony przez AI. O tym, jakie mamy problemy z detektorami AI, przeczytać można w ArsTechnica. Tym razem zastosowano detektor firmy Surfer,
  • Analizowano fragmenty treści z badanych stron, ograniczając je przy tym do długości 500 słów. Artykuł klasyfikowano jako wygenerowany przez AI, jeśli algorytm przewidywał, że ponad 50 proc. jego treści zostało maszynowo wytworzone, w przeciwnym razie uznawano go za napisany przez człowieka. W surowych danych pojawiają się też kategorie takie jak Mix: low AI content czy Mix: high AI content, ale nie bardzo wiadomo, jak ostatecznie zostały przypisane do dwóch głównych grup (treści wytwarzane i nie wytwarzane przez AI),
  • Przed klasyfikacją całej próby, oceniono dokładność algorytmu detekcji. Użyto do tego 15 tys. artykułów z Common Crawl, opublikowanych przed udostępnieniem Chat GPT w listopadzie 2022 roku, których 4.2 proc. algorytm Surfer zaklasyfikował jako tworzone przez AI. Tak oszacowano poziom ocen fałszywie pozytywnych. Poziom ocen fałszywie negatywnych zbadani na zbiorze nieco ponad 6 tys. tekstów wygenerowanych przez model GPT-4o. Algorytm firmy Surfer uznał za pisane przez człowieka 0.6 proc. z nich,
  • Mając wiedzę o takim poziomie błędów, zanalizowano 65 tys. bazowych treści. Zaobserwowano znaczący wzrost liczby artykułów generowanych przez AI, zbiegający się w czasie z uruchomieniem ChatGPT w listopadzie 2022 roku. Po zaledwie 12 miesiącach artykuły generowane przez AI stanowiły ponad jedną trzecią publikowanych artykułów. W listopadzie 2024 roku ilość artykułów generowanych przez AI publikowanych w sieci przewyższyła ilość artykułów pisanych przez ludzi.

Gdzie można szukać wad badania 😎?

  • Plan badania zakładał, że wszystkie treści opublikowane przed listopadem 2022 roku (udostępnieniem ChatGPT) były pisane przez człowieka. To dość odważne założenie stało się podstawą wyznaczania poziomu błędów w działaniu klasyfikatora firmy Surfer,
  • Teoria martwego internetu, mówiąca o tym, że treści i ruch online generowane są przede wszystkim przez maszyny, powstała już w 2016 roku - jak pisze Kaitlyn Tiffany w sierpniu 2021 (a więc jeszcze przed uruchomieniem ChatGPT). Autorka z “The Atlantic” opisywała negatywne doświadczenia związane z powtarzalnością i niską jakością treści online oraz przytaczała dane o tym, że boty generują większość ruchu w internecie. Czy nie jest tak, że moment uruchomienia ChatGPT niekoniecznie musi być cezurą, wyznaczającą możliwość maszynowego tworzenia treści online?
  • W badaniu analizowano wyłącznie teksty w języku angielskim. Tymczasem dane o dystrybucji języków w zbiorach Common Crawl wskazują, że język angielski, choć dominuje, to nie jest reprezentowany nawet w połowie zgromadzonych stron (45 proc). Czy badanie na bardziej zróżnicowanej językowo grupie stron dałoby inne wyniki? Może poziom wykorzystania tekstów generowanych maszynowo nie jest równomierny w poszczególnych przestrzeniach językowych Webu?
  • 65 tys. stron to jednak niewielka próba wobec skali zasobów WWW.

Nie ma sensu specjalnie przejmować się analizą Graphite SEO i wieszczyć upadku internetu, jaki znamy. Po pierwsze, jej jakość jest dyskusyjna. Po drugie, jeszcze przed pojawieniem się ogólnodostępnych narzędzi AI zasoby Webu zalewane były przez spam i niskiej jakości treści. W sieci zawsze funkcjonowaliśmy w rzeczywistości nadprodukcji i nauczyliśmy się jak wybierać to, co dla nas najbardziej wartościowe. Wobec nadprodukcji zawsze wykształcały się kanały filtrujące - czy to blogi, czy media społecznościowe na swoim wczesnym etapie. Dziś, kiedy te ostatnie przestały pełnić taką funkcję, warto organizować sobie nowe. Ten blog jest jedną z propozycji.

Zdecydowanie także nie powinniśmy się przejmować ewentualnym wykoślawieniem systemu rozwijania dużych modeli, w którym pozyskiwane za darmo treści stanowią niezbędną podstawę jakości nowych produktów AI. Jeśli treści treningowe będą także generowane maszynowo, jakość trenowanych na nich modeli może spadać. Wielcy gracze na rynku AI nie potrzebują empatii, tylko standaryzacji i kontroli. Nie inwestujemy w Open AI, żeby obawiać się, że jego rozwiązania mogłyby być wytwarzane na slopach.

Głosy zwiastujące ostateczne zwycięstwo syntetycznych treści online bardzo często przywołują raport Interpolu z 2022 roku, w którym miano wskazywać, że do 2026 roku 90 proc. zasobów online będzie generatywne. Te często przytaczane szacunki stały się publicznym faktem, chociaż nie ma ich w oryginalnym opracowaniu… (możecie sprawdzić sami albo z wykorzystaniem Notebook LM).

Autor: redakcja

🤗
Jeśli ten wpis okazał się dla Ciebie wartościowy, możesz dorzucić się do wsparcia bloga. Postaw wirtualną kawę na Suppi.pl albo zostań patronem na Patronite.

Wpis opublikowany na licencji Creative Commons Uznanie autorstwa - Na tych samych warunkach.