Sztuczna inteligencja jako generator potencjalnie szkodliwych treści?

Seria eksperymentów przeprowadzonych przez ekspertów firmy WithSecure przy użyciu modelu językowego GPT-3 wskazuje, że modele językowe wykorzystujące sztuczną inteligencję (AI – Artificial Intelligence) umożliwiają cyberprzestępcom zwiększanie skuteczności komunikacji będącej częścią ataku. WithSecure ostrzega, że powszechny dostęp do modeli sztucznej inteligencji, które w kilka sekund dostarczają tekst brzmiący jak napisany przez człowieka, to punkt zwrotny w ewolucji cyberzagrożeń.

GPT-3 (Generative Pre-trained Transformer 3) to model językowy, który wykorzystuje uczenie maszynowe do generowania tekstu. W prowadzonych eksperymentach badacze WithSecure (dawniej F-Secure Business) bazowali na tzw. prompt engineering – koncepcji związanej z przetwarzaniem języka naturalnego (NLP). Polega ona na szukaniu danych wejściowych, które wprowadzone do modelu przynoszą pożądane lub użyteczne rezultaty. Eksperci sprawdzali, w jaki sposób mogą być generowane potencjalnie szkodliwe treści.

W eksperymentach oceniano, jak zmiany danych wejściowych w dostępnych modelach wpływają na otrzymywane wyniki. Celem było sprawdzenie, w jaki sposób generowanie języka przez AI może być używane w złośliwej lub przestępczej działalności. Eksperymenty obejmowały phishing i spear-phishing, nękanie, uwierzytelnianie scamu, przywłaszczanie stylu pisanego, celowe tworzenie polaryzujących opinii, wykorzystywanie modeli językowych do tworzenia podpowiedzi złośliwych tekstów oraz fake newsów.

– Obecnie każdy kto posiada łącze internetowe może mieć dostęp do zaawansowanych modeli językowych, a to ma jedną bardzo praktyczną konsekwencję. Lepiej zakładać, że każda nowa wiadomość, którą otrzymujemy, mogła zostać stworzona przez bota – wskazuje Andy Patel, analityk WithSecure Intelligence, który kierował badaniami. – Możliwość wykorzystania AI do generowania zarówno szkodliwych, jak i użytecznych treści będzie wymagała strategii wykrywania, które są zdolne do zrozumienia znaczenia i celu tekstu pisanego.

Wyniki przeprowadzonych eksperymentów oraz analiza rozwoju GPT-3 doprowadziły badaczy do kilku wniosków:

prompt engineering to koncepcja, która będzie się intensywnie rozwijać, podobnie jak tworzenie promptów w złośliwych celach;
cyberprzestępcy będą w nieprzewidywalny sposób rozwijać możliwości, jakie dają duże modele językowe;
identyfikacja złośliwych lub obraźliwych treści będzie coraz trudniejsza dla dostawców platform;
zaawansowane modele językowe już teraz dają przestępcom możliwość zwiększenia skuteczności komunikacji będącej częścią ataku (np. wiadomości phishingowe).

Rezultaty badania WithSecure mogą być wykorzystane do projektowania bezpieczniejszych modeli językowych w przyszłości. Badanie jest wspierane przez CC-DRIVER, projekt finansowany przez program Unii Europejskiej Horyzont 2020 w zakresie badań i innowacji na podstawie umowy o dofinansowanie nr 883543.

(grafika tytułowa – źr. WithSecure)

Powiązane wpisy

Zostaw komentarz Anuluj odpowiedź