Naukowcy opracowali CLIPR, system który pozwala AI lepiej rozumieć ukryte preferencje użytkowników i przenosić je między zadaniami z minimalnych interakcji.

Źródło zdjęcia: arXiv.org

Sasha Luccioni z Hugging Face zakłada Sustainable AI Group, by pomóc firmom ograniczyć wpływ AI na środowisko. Postuluje licznik energii w ChatGPT i większą transparentność.

Startup łączy firmy gamingowe z laboratoriami AI, umożliwiając sprzedaż danych z gier do trenowania modeli świata potrzebnych w robotyce.
Naukowcy z University opracowali nowy framework CLIPR, który pozwala dużym modelom językowym (LLM) lepiej rozumieć niewyraźne preferencje użytkowników i podejmować bardziej zgodne z nimi decyzje. Badanie opublikowane w arXiv przedstawia rozwiązanie jednego z kluczowych problemów sztucznej inteligencji — jak sprawić, by AI działała zgodnie z ludzkim myśleniem.
Duże modele językowe coraz częściej służą jako moduły rozumowania w różnych aplikacjach. Choć sprawdzają się w określonych zadaniach, często mają trudności z tworzeniem rozwiązań zgodnych z ludzkimi oczekiwaniami. Podejmowanie decyzji zgodnych z człowiekiem wymaga uwzględnienia nie tylko jawnie sformułowanych celów, ale także ukrytych preferencji użytkowników, które określają sposób rozwiązywania niejednoznacznych sytuacji.
Dotychczasowe podejścia do włączania takich preferencji albo wymagają obszernych i powtarzających się interakcji z użytkownikami, albo nie potrafią uogólniać ukrytych preferencji między różnymi zadaniami i kontekstami. To ogranicza ich praktyczne zastosowanie w rzeczywistych scenariuszach.
Autorzy badania — Alina Hyk i Sandhya Saisubramanian — zaprojektowali CLIPR (Conversational Learning for Inferring Preferences and Reasoning) jako framework, który uczy się praktycznych, transferowalnych zasad w języku naturalnym reprezentujących ukryte preferencje użytkowników. System wymaga jedynie minimalnych danych wejściowych z rozmów.
Framework działa w środowisku, gdzie LLM odpowiada za rozumowanie wysokiego poziomu i wnioskowanie o ukrytych preferencjach użytkowników na podstawie ograniczonych interakcji. Te wyuczone preferencje następnie kierują podejmowaniem decyzji w dalszych procesach. CLIPR iteracyjnie udoskonala swoje zasady poprzez adaptacyjne mechanizmy zwrotne i stosuje je zarówno do zadań z rozkładu treningowego, jak i do nowych, niewidzianych wcześniej zadań w różnych środowiskach.
Kluczową innowacją jest zdolność systemu do tworzenia zasad w języku naturalnym, które można przenosić między kontekstami. To oznacza, że preferencje wyuczone w jednym obszarze mogą być skutecznie aplikowane do zupełnie różnych sytuacji decyzyjnych.
Przeprowadzone ewaluacje na trzech zestawach danych oraz badanie z udziałem rzeczywistych użytkowników pokazały, że CLIPR konsekwentnie przewyższa istniejące metody w poprawianiu zgodności z oczekiwaniami ludzi, jednocześnie redukując koszty inferencji. To podwójne osiągnięcie — lepsza jakość przy niższych kosztach — czyni to rozwiązanie szczególnie atrakcyjnym dla praktycznych zastosowań.