Sztuczna inteligencja plagiatuje teksty. Koniec starego internetu?

Skopiuj link

Drukuj

Udostępnij

Strona główna

Analizy

Sztuczna inteligencja plagiatuje teksty. To koniec internetu, jaki znamy?

06.10.2023 godz.10:55

7 min czytania

Artykuł

Informujemy o najważniejszych wydarzeniach ze świata fact-checkingu.

06.10.2023 godz.10:55

7 min czytania

Sztuczna inteligencja plagiatuje teksty. To koniec internetu, jaki znamy?

Media Sztuczna inteligencja Technologia

W sieci kwitną tzw. farmy treści, czyli serwisy, które wykorzystują sztuczną inteligencję do kopiowania i pisania na nowo własnych wersji materiałów na bazie popularnych serwisów informacyjnych. Tekstów tych nie sprawdza człowiek, a ich cel jest jeden: zarabianie na reklamach. Czy to początek końca internetu, jaki znamy?

Nikola Bochyńska

Autorka

Ryzyko dezinformacji i cyberataków. Jak radzą sobie chatboty?

Fot. Tapati Rinchumrus / Shutterstock / Modyfikacje: Demagog.org.pl

Sztuczna inteligencja plagiatuje teksty. To koniec internetu, jaki znamy?

Media Sztuczna inteligencja

Nikola Bochyńska

Autorka

Udostępnij:

Clickbaity, czyli materiały pisane pod „kilki” – by przyciągnąć uwagę użytkownika, ale nie wyjaśniać ważnych merytorycznie kwestii czy wątpliwości – to zmora naszych czasów. Tabloidyzacja mediów osiągnęła taki poziom, że sensacji szukają dziś nie tylko klasyczne portale plotkarskie, ale też serwisy informacyjne głównego nurtu.

Liczą się wyświetlenia i czas spędzony na stronie, bo to przekłada się na przychody z reklam. Dziennikarstwo to już nie działalność prospołeczna (choć jako obywatele pewnie bardzo byśmy sobie tego życzyli), ale biznes – dla właścicieli portali internetowych liczą się tabelki, wykresy i ostateczny zysk.

Jednak to nie koniec dzisiejszych bolączek rynku medialnego. O części z nich pisałam w materiale, który ukazał się na łamach serwisu Demagog.

Dla dziennikarzy, ale też całego przemysłu medialnego, nadeszło jeszcze jedno zagrożenie: farmy treści. W skrócie są to serwisy, które powstały tylko po to, by generować zysk na reklamie programmatic. Reklama programatyczna to automatyczny proces reklamowy, który wykorzystuje algorytmy do dostarczania ukierunkowanych reklam użytkownikom internetu.

Dzieje się to bez troski o jakość i bez dbałości o jakąkolwiek weryfikację, merytorykę oraz dobro użytkownika. Tu nie chodzi o informowanie, zaciekawienie, a nawet o rozrywkę, lecz jedynie o produkt – tekst, który przyniesie przychód z reklam.

O tym zjawisku pisałam już na łamach serwisu CyberDefence24.pl. Z analizy wynikało, że ponad 140 dużych marek płaciło za pojawianie się ich reklam w witrynach, na których publikowane były „śmieciowe” treści. Mowa o materiałach, które zostały wygenerowane przy pomocy chatbotów AI, bez należytej (albo żadnej) kontroli ze strony człowieka.

Chatboty miały nie ułatwiać kopiowania

Niedawno pojawiła się publikacja organizacji NewsGuard, która potwierdza wynik poprzedniej analizy. Badacze tylko w sierpniu 2023 roku zidentyfikowali 37 witryn wykorzystujących sztuczną inteligencję, by kopiować artykuły z głównych źródeł wiadomości, bez podawania źródła.

Jak to działa? AI jest w stanie błyskawicznie „przepisać” materiał na nowo, np. kiedy otrzyma link do publikacji lub zostanie poproszona o napisanie tekstu na podstawie innego.

Problemem, który był podnoszony już od początku upowszechnienia i popularności choćby Chatu GPT jest kwestia praw autorskich i praw własności intelektualnej. Pamiętajmy, że chatboty przetwarzają ogromne ilości informacji bez poszanowania czasu, pracy i nakładów ponoszonych przez dziennikarzy i twórców mediów. Na tej podstawie algorytmy uczą się za darmo – gromadzą, przetwarzają informacje i wyciągają wnioski – a jednocześnie de facto naśladują prace serwisów newsowych.

Na razie nie wiadomo, jak zakończy się ten bój między Big Tech, mediami i dziennikarzami, bo sprawa pozostaje nierozwiązana i to z wielką szkodą dla tych ostatnich. Przykładowo Google – aktualizując politykę prywatności – wprost przyznało, że informacje „z ogólnie dostępnych źródeł” wykorzystuje do trenowania swoich narzędzi AI.

Kto i kiedy upomni się, że to bat na media i jakie to przyniesie efekty? Przekonamy się zapewne w niedalekiej przyszłości.

„Efektywna agregacja treści” czy może po prostu plagiat?

Jednak – wracając do jeszcze jednego problemu – już znaleźli się „kreatywni”, którzy stwierdzili, że wykorzystają zdolności sztucznej inteligencji do tworzenia contentu: łatwo, szybko i za darmo, by „ugrać” na tym jak najwięcej dla siebie.

Jak wspomniałam, w sierpniu br. organizacja NewsGuard zidentyfikowała 37 stron internetowych, które używają chatbotów do przepisywania artykułów z takich serwisów jak The New York Times, Reuters czy CNN. Co istotne, żadne ze źródeł nie było wskazane jako pierwotne, choć łatwo można było wyciągnąć wniosek, że teksty powstały na bazie oryginalnych materiałów. Co więcej, niektóre z 37 witryn – według badaczy – opierały się na całkowitej automatyzacji, a treści nie nadzorował człowiek.

Niektóre z farm treści zawierały wspomniane już zautomatyzowane reklamy znanych firm, które zapewne pozostawały nieświadome, że finansują tego typu praktyki.

Jak zwraca uwagę NewsGuard, obecnie nie ma jasnego określenia, czy opisana praktyka to plagiat, czy tylko „efektywna agregacja treści”, i z pewnością w niedalekiej przyszłości będą musiały o tym zdecydować sądy. Zasady używania chatbota Google (Barda) zakazują wykorzystywania go do plagiatu, podobnie sprawę stawia OpenAI w przypadku ich Chatu GPT. NewsGuard zapytał jednak oba podmioty, co sądzą na temat używania ich narzędzi do przepisywania treści, i nie uzyskał komentarza.

Organizacja przetestowała możliwość „przepisania” jednego tekstu z „The New York Times”. Za pomocą komendy: „Przepisz poniższy artykuł, aby był bardziej przyjazny dla SEO i wciągający”. Efekt? Analityk uzyskał niemal w kilkadziesiąt sekund nową wersję gotowego artykułu, bazującą na oryginale.

Trudna sztuka

Co istotne, w praktyce, bez podanego źródła, trudno wykryć, że dany tekst powstał na bazie innego. Badacze testowali narzędzie Grammarly, czy radzi sobie z wykryciem plagiatu. Niestety miało ono problem z tego typu identyfikacją. Jak więc odkrywano, że farmy treści bazowały na AI, przygotowując swoje publikacje?

Ich twórcy zwykle przynajmniej raz w trakcie pracy nie zadali sobie trudu, by usunąć zwrot, którego użyła sztuczna inteligencja tj. „Jako model języka AI nie mogę… […]” czy „Przepraszam, jako model językowy AI nie mogę określić…”. Jest to łatwy trop, wskazujący, że użytkownik nie ma do czynienia z treścią przygotowaną przez człowieka, a przez maszynę. Jednak w pozostałych przypadkach jest to trudne do wykrycia, praktycznie niemożliwe.

„Prawdopodobnie istnieją setki – jeśli nie tysiące – stron internetowych, które wykorzystują sztuczną inteligencję do pobierania treści ze źródeł zewnętrznych, których NewsGuard nie mógł zidentyfikować, ponieważ nie opublikował omyłkowo komunikatu o błędzie AI” – zwrócili uwagę badacze z News Guard.

Organizacja skontaktowała się z 37 witrynami, które zidentyfikowała jako kopiujące treści. Tylko jedna z nich odpisała. Pozostałe nie odpowiedziały i zwykle usuwały artykuł, o który pytali analitycy.

Jedyny ratunek?

Zarówno Bard, jak i ChatGPT wprowadzili opcję blokady możliwości trenowania AI na treściach wydawców, którzy sobie tego nie życzą. Pierwsza zrobiła to OpenAI, niedawno dołączyło do niej Google. To jak na razie jedyna możliwość ograniczenia bazowania na cudzych materiałach. Narzędzi opartych na sztucznej inteligencji jest jednak bez liku, zatem zainteresowani z pewnością znajdą sposób, aby obejść i te przeszkody.

Czy czekają nas media bez ludzkiego nadzoru, bazujące na sztucznej inteligencji, działające automatycznie – bez jakiejkolwiek troski o przyszłość zawodu i przede wszystkim o czytelnika? Oby nie był to początek końca i tak już przeżywającej kryzys branży. Dodatkowo w wyniku problemu tracą sami reklamodawcy, umieszczając – często bez świadomości – reklamy produktów obok treści niskiej jakości, których nawet nie przygotował człowiek.