SynthID: daje się skutecznie oznaczać i wykrywać teksty generowane maszynowo

Zaproponowany przez Google system znaków wodnych SynthID nie jest jeszcze standardem, ale udowadnia, że bez widocznej zmiany w przekazie tekstu można zapisać w nim informację o tym, że został wygenerowany przez sztuczną inteligencję. Czy tak podpisane teksty będzie można wykrywać w ramach polityki antyplagiatowej na uczelniach czy w wydawnictwach?
Wyobraźmy sobie kostkę do gry z sześcioma polami. Jeśli rzucimy nią raz, prawdopodobieństwo, że wypadnie sześć oczek, wynosi około 16,6 proc. Gdyby ktoś podał nam specjalnie spreparowaną kostkę, w której pole z sześcioma oczkami jest nieznacznie dociążone, przy pojedynczym rzucie nie bylibyśmy w stanie wykryć manipulacji. Jednak gdybyśmy rzucili nią sto, tysiąc, a nawet dziesięć tysięcy razy i notowali wyniki, moglibyśmy zauważyć, że sześć oczek pojawia się częściej niż pozostałe wyniki.
Teraz zamieńmy kostkę do gry na wygenerowany przez AI tekst. Podobnie jak w przypadku kostki, pojedyncze słowo czy zdanie wydają się całkowicie naturalne i nie zdradzają żadnej manipulacji. Jednak jeśli przyjrzymy się dłuższemu fragmentowi tekstu – setkom czy tysiącom słów – można zauważyć subtelny wzorzec w wyborze wyrazów. Oczywiście, nie zbadamy tego samodzielnie. System, który mamy do dyspozycji, zna tajny klucz, jakim generator oznacza generowany tekst i potrafi sprawdzić, czy ten klucz obecny jest w badanym tekście. Klucz zapisany jest nie bezpośrednio, ale jako pewne zaburzenia standardowego prawdopodobieństwa pojawiania się kolejnych słów (tokenów).
Zespół Google DeepMind wypracował system oznaczania generowanych maszynowo wytworów (w tym tekstów) o nazwie SynthID, który już został wdrożony w modelach Gemini i Gemini Advanced. Biblioteka pozwalająca na umieszczanie i wykrywanie tego niewidocznego znaku wodnego (imperceptible watermark) w tekstach, dostępna jest w repozytorium Hugging Face. Mechanizm działania SynthID opisany został w “Nature” w październiku zeszłego roku (DOI: 10.1038/s41586-024-08025-4).
Proponowane rozwiązanie ma wiele zalet. System jest gotowy do wdrożenia od zaraz, a znak wodny pozostaje niewidoczny w tekście, nie wpływając przy tym na jego jakość. Ocena 20 milionów tekstów, z których część wygenerowana została przez model Gemini, nie wykazała zauważalnych różnic między tekstami z watermarkem i bez niego. Taki znak wodny jest też łatwo wykrywalny, a testy wykazują niski poziom fałszywie pozytywnych ocen. Działanie SynthID jest niezależne od modelu językowego i od samego języka, w którym generowany jest tekst. Ma jednak poważne ograniczenia: im krótszy tekst jest sprawdzany, tym jakość oceny jest niższa. Taki system oznaczania jest też bardzo podatny na gruntowne przepisanie lub parafrazowanie wygenerowanego tekstu czy jego tłumaczenie. Nie sprawdza się też przy ocenie tekstów faktograficznych, gdzie szyk zdania i dobór słów bywają bardzo podobne w wielu odpowiedziach.
Nie wiadomo, czy SynthID stanie się standardem, który rzeczywiście pozwoli ograniczyć negatywny wpływ narzędzi generujących tekst na komunikację naukową czy edukację. Coraz więcej modeli językowych powstaje niezależnie, poza głównymi firmami zajmującymi się sztuczną inteligencją. Każdy może korzystać z takich modeli do tworzenia tekstów, nawet na własnym komputerze i całkowicie offline. W takich warunkach nie da się narzucić powszechnego stosowania znaków wodnych, a ich skuteczność będzie ograniczona do wybranych ekosystemów (np. Gemini, ChatGPT) i narzędzi.
Działanie SynthID przetestować można w tej przestrzeni Hugging Face. Wykorzystuje ona model Gemma 2B IT, więc nie oczekujmy dobrej jakości tekstów, jednak test nie polega tu na ocenie ich jakości, ale rozpoznaniu, czy wygenerowany tekst został oznaczony.
Autor: redakcja
