14 maja 20264 min czytania

Chatboty AI ujawniają prawdziwe numery telefonów użytkowników

Zapytania o naruszenie prywatności przez AI wzrosły o 400%. ChatGPT, Gemini i Claude podają błędne numery, co prowadzi do niechcianych połączeń.

Źródło zdjęcia: MIT Technology Review

Poprzedni

Jak uczynić sztuczną inteligencję zrównoważoną — ekspertka wskazuje kluczowe wyzwania

Następny

Była szefowa działu informacji Meta tworzy firmę oceniającą jakość odpowiedzi AI

Podobne Publikacje

Biznes i Rynek

Khosla Ventures inwestuje 10 mln dolarów w kontrowersyjnego założyciela upadłego Bench Accounting

Ian Crosby, założyciel upadłego Bench Accounting, pozyskał 10 mln dolarów na nowy startup Synthetic, który ma stworzyć w pełni autonomicznego księgowego AI.

4 min14 maja

Etyka i Bezpieczeństwo

Osoby aseksualne odkrywają intymność z chatbotami AI bez presji seksualnej

Część społeczności aseksualnej używa AI do budowania emocjonalnych więzi bez seksu. Eksperci ostrzegają przed targetowaniem tej grupy.

Kluczowe wnioski

Zapytania dotyczące naruszenia prywatności przez AI wzrosły o 400% w ciągu ostatnich siedmiu miesięcy według firmy DeleteMe.

ChatGPT odpowiada za 55% zgłoszeń dotyczących ujawniania danych osobowych, Gemini za 20%, a Claude za 15%.

Numery telefonów pojawiają się w odpowiedziach AI prawdopodobnie z powodu danych osobowych zawartych w zbiorach treningowych.

Użytkownicy otrzymują niechciane połączenia od osób szukających prawników, projektantów czy ślusarzy po błędnych wskazaniach AI.

Obecne zabezpieczenia modeli językowych są niewystarczające do pełnej ochrony danych osobowych.

Realne przypadki naruszenia prywatności

Jeden z użytkowników Reddita zgłosił, że przez miesiąc otrzymywał połączenia od nieznajomych poszukujących różnych usług po tym, jak generatywna AI Google'a błędnie podała jego numer. W marcu izraelski programista Daniel Abraham otrzymał wiadomość na WhatsApp od osoby proszącej o pomoc z kontem w aplikacji płatniczej PayBox. Okazało się, że Gemini podał jego prywatny numer jako kontakt do obsługi klienta PayBox, mimo że firma w ogóle nie oferuje takiej usługi przez WhatsApp.

Abraham odkrył później, że jego numer pojawił się w internecie w 2015 roku na lokalnej stronie podobnej do Quora, co mogło być źródłem danych wykorzystanych przez AI ponad dekadę później. Gdy ponownie zapytał Gemini o kontakt do PayBox, system podał inny, również błędny numer telefoniczny.

Przyczyny i mechanizmy problemu

Chatboty takie jak Gemini, ChatGPT i Claude są trenowane na ogromnych zbiorach danych pochodzących z całego internetu, które nieuchronnie zawierają setki milionów przypadków danych osobowych (PII). Jak wykazały wcześniejsze badania, popularne otwarte zbiory danych używane do treningu modeli AI, takie jak DataComp CommonPool, zawierały kopie CV, praw jazdy i kart kredytowych.

Problem nasila się, gdy „wyczerpują się” publicznie dostępne dane wysokiej jakości, a firmy AI poszukują nowych źródeł danych treningowych, w tym informacji od brokerów danych i stron wyszukujących ludzi. Zgodnie z kalifornijskim rejestrem brokerów danych, 31 z 578 zarejestrowanych firm przyznało, że w ostatnim roku dzieliło się lub sprzedawało dane konsumentów deweloperom systemów generatywnej AI.

Ograniczona skuteczność zabezpieczeń

Standardową praktyką jest obecnie budowanie zabezpieczeń w projektach modeli językowych, aby ograniczyć określone rodzaje odpowiedzi. Obejmuje to filtry treści mające identyfikować i zapobiegać ujawnianiu przez chatboty danych osobowych, oraz instrukcje jak te w Claude od Anthropic, by wybierać odpowiedzi zawierające „najmniej osobistych, prywatnych lub poufnych informacji należących do innych”.

Jednak jak pokazują opisane przypadki, te zabezpieczenia nie są w pełni skuteczne. Firma DeleteMe odnotowała dramatyczny wzrost zapytań klientów dotyczących generatywnej AI — z kilkudziesięciu do kilku tysięcy w ciągu ostatnich siedmiu miesięcy, co wskazuje na rosnącą skalę problemu.

Problem ujawniania prawdziwych numerów telefonów przez chatboty AI staje się coraz poważniejszym wyzwaniem dla prywatności użytkowników, a obecne rozwiązania techniczne okazują się niewystarczające do jego pełnego rozwiązania.