14 maja 20264 min czytania

Była szefowa działu informacji Meta tworzy firmę oceniającą jakość odpowiedzi AI

Campbell Brown założyła Forum AI, które testuje modele AI w kluczowych obszarach z pomocą ekspertów pokroju Tony'ego Blinkena i Fareeda Zakarii.

Źródło zdjęcia: TechCrunch

Poprzedni

Chatboty AI ujawniają prawdziwe numery telefonów użytkowników

Następny

Amerykanie sprzeciwiają się centrom danych AI w swoich okolicach

Podobne Publikacje

Etyka i Bezpieczeństwo

Zaawansowane AI zakończyło erę tradycyjnych zawodów CTF

Doświadczony gracz CTF wyjaśnia, jak modele takie jak GPT-5.5 i Claude Opus przekształciły konkursy cyberbezpieczeństwa w zawody automatyzacji zamiast testów umiejętności.

6 min16 maja

Etyka i Bezpieczeństwo

Osoby aseksualne odkrywają intymność z chatbotami AI bez presji seksualnej

Część społeczności aseksualnej używa AI do budowania emocjonalnych więzi bez seksu. Eksperci ostrzegają przed targetowaniem tej grupy.

4 min

Kluczowe wnioski

Forum AI współpracuje z ekspertami pokroju Nialla Fergusona, Fareeda Zakarii czy byłego sekretarza stanu Tony'ego Blinkena przy tworzeniu benchmarków oceny modeli AI.

Firma osiągnęła 90-procentowy konsensus między ocenami AI a ekspertami ludzkimi w swoich testach.

Brown założyła Forum AI 17 miesięcy temu po tym, jak obserwowała problemy z jakością odpowiedzi ChatGPT.

Firma pozyskała 3 miliony dolarów finansowania pod przewodnictwem Lerer Hippeau.

Testy Forum AI wykazały systematyczne problemy w wiodących modelach, w tym błędy faktyczne i uprzedzenia polityczne.

Problem dokładności w modelach AI

Brown opisała moment, który skłonił ją do założenia Forum AI. Jako pracownica Meta obserwowała publiczne uruchomienie ChatGPT i szybko zdała sobie sprawę, że będzie to „lejek, przez który przepłynie cała informacja”. Jej niepokój wzrósł, gdy pomyślała o swoich dzieciach: „Moje dzieci będą naprawdę głupie, jeśli nie dowiemy się, jak to naprawić”.

Według Brown, firmy tworzące modele fundamentalne są „niezwykle skupione na kodowaniu i matematyce”, podczas gdy kwestie informacyjne są trudniejsze, ale równie ważne. Forum AI testuje modele w obszarach, gdzie „nie ma jasnych odpowiedzi tak lub nie, gdzie jest mętnie, niuansowo i złożenie”.

Wyniki pierwszych ocen nie były zachęcające. Brown wspomniała o przypadkach, gdy Gemini korzystał z stron Komunistycznej Partii Chin „w przypadku historii, które nie mają nic wspólnego z Chinami”, a także o lewicowych uprzedzeniach politycznych występujących w niemal wszystkich modelach. Do subtylniejszych problemów należą brakujący kontekst, pomijane perspektywy oraz „strawman arguments” przedstawiane bez zastrzeżeń.

Nadzieje na sektor przedsiębiorstw

Brown wierzy, że sektor przedsiębiorstw może stać się niespodziewanym sprzymierzeńcem w walce o dokładność AI. Firmy używające sztucznej inteligencji do decyzji kredytowych, ubezpieczeniowych czy rekrutacyjnych martwią się odpowiedzialnością prawną i „będą chciały, żebyś optymalizował dla uzyskania właściwych wyników”.

Jej doświadczenie z Facebooku pokazało, co się dzieje, gdy platforma optymalizuje niewłaściwe metryki. Program fact-checkingu, który zbudowała, już nie istnieje. „Optymalizacja dla zaangażowania była fatalna dla społeczeństwa i sprawiła, że wielu ludzi jest mniej poinformowanych”, powiedziała.

Obecny krajobraz compliance Brown określa jako „żart”. Gdy Nowy Jork przyjął pierwszą ustawę wymagającą audytów AI w rekrutacji, kontroler stanu stwierdził, że ponad połowa przypadków miała naruszenia, które pozostały niewykryte. Prawdziwa ocena wymaga ekspertyzy dziedzinowej do pracy nie tylko ze znanymi scenariuszami, ale także z przypadkami granicznymi, które „mogą sprowadzić problemy, o których ludzie nie myślą”.

Brown zauważa przepaść między autopromocją branży AI a rzeczywistością użytkowników. Podczas gdy liderzy Big Techu mówią, że „ta technologia zmieni świat”, zwykli użytkownicy zadający podstawowe pytania chatbotom „wciąż otrzymują dużo śmieci i błędnych odpowiedzi”. Zaufanie do AI pozostaje na bardzo niskim poziomie, co jej zdaniem jest w wielu przypadkach uzasadnione.

Forum AI stara się przekształcić rosnące zainteresowanie compliance w stały model biznesowy, choć pozostaje to wyzwaniem w sytuacji, gdy większość rynku zadowala się powierzchownymi auditami i standardowymi benchmarkami.