Reporter odkrył cztery zbiory z dziesiątkami milionów utworów, w tym piosenki Lady Gagi, Radiohead i Wu-Tang Clan używane do trenowania modeli AI.

Źródło zdjęcia: The Verge
The Atlantic stworzył przeszukiwalną bazę danych muzyki używanej do trenowania AI, ujawniając miliony utworów dostępnych w zestawach treningowych. Reporter Alex Reisner odkrył cztery zbiory danych muzycznych i udostępnił je publicznie w ramach portalu AI Watchdog.
Dwa z odkrytych zestawów są ogromne — zawierają odpowiednio 12 milionów i 9 milionów utworów. Pozostałe dwa są mniejsze, ale wciąż znaczące, z ponad 100 000 piosenek każdy. Te zbiory zostały pobrane tysiące razy, a firmy takie jak Google i Stability potwierdziły ich wykorzystanie w swoich pracach badawczych.
Większość odkrytych zbiorów nie zawiera bezpośrednio plików audio. Jak wyjaśnia Reisner, trzy z czterech zestawów są dystrybuowane jako listy linków do utworów na YouTube lub Spotify. Deweloperzy AI muszą następnie pobrać rzeczywistą muzykę przy użyciu zautomatyzowanych narzędzi.
Te narzędzia pozwalają omijać logowania, reklamy i mechanizmy, które mogłyby generować przychody dla twórców lub platformy. Takie praktyki naruszają regulaminy serwisów streamingowych, tworząc prawną szarą strefę wokół wykorzystania muzyki do celów treningowych.
Niektóre źródła, jak Free Music Archive dataset, są dostępne za darmo do użytku osobistego, ale wymagają licencjonowania do zastosowań komercyjnych.
Przeszukiwalna baza The Atlantic ujawnia obecność utworów wielu znanych artystów w zbiorach treningowych AI. W zestawieniu pojawiają się nazwiska gwiazd popu jak Lady Gaga i Fred Again.., kultowych zespołów jak Radiohead i Wu-Tang Clan, legendy rock'a Bruce Springsteen, elektroniczny wizjoner Aphex Twin, a także eksperymentalny kompozytor Hainbach.
Portal AI Watchdog umożliwia użytkownikom samodzielne przeszukiwanie nie tylko muzyki, ale także książek i innych mediów wykorzystywanych do trenowania światowych modeli AI. To pierwszy tego typu publiczny dostęp do informacji o źródłach danych treningowych.
Ujawnienie The Atlantic rzuca światło na powszechną praktykę wykorzystywania chronionych prawem autorskim utworów do trenowania systemów AI, często bez wiedzy lub zgody twórców. Dostępność przeszukiwalnej bazy danych może przyczynić się do szerszej debaty o prawach autorskich w erze sztucznej inteligencji.
Derya Unutmaz wykorzystał GPT-5 Pro do wyjaśnienia wpływu glukozy na komórki T. Model przewidział też wyniki nieopublikowanych eksperymentów z chłoniakiem.

Ford wygrał ranking jakości, ale przyznał, że zbyt mocno uwierzył w AI. Firma zatrudniła 350 doświadczonych inżynierów, by naprawić błędy algorytmów.

iOS 27 wprowadza funkcje AI zintegrowane z istniejącymi aplikacjami: dzielenie rachunków, aktualizowanie haseł i inteligentne sugestie w Wiadomościach.