Agent automatycznie zbudował interaktywną galerię 3D zabytków Paryża, łącząc generator obrazów z narzędziem rekonstrukcji 3D bez ręcznej integracji.

Źródło zdjęcia: huggingface.co
Agent wykorzystał łańcuch dwóch przestrzeni Hugging Face, aby automatycznie stworzyć galerię 3D z zabytkami Paryża. Deweloper Mishig Davaadorj opisał w swoim artykule, jak agent samodzielnie wygenerował obrazy i modele 3D, łącząc różne narzędzia AI bez żadnej ręcznej integracji.
Proces był w pełni zautomatyzowany — agent najpierw wygenerował obrazy zabytków na ciemnym tle, następnie przekształcił je w modele 3D Gaussian Splats, a na koniec stworzył interaktywną przeglądarkę internetową. Cały projekt pokazuje, jak agenty AI mogą łączyć różne specjalistyczne narzędzia w złożone pipeline'y multimedialnych aplikacji.
Mitchell Hashimoto opisał niedawno zjawisko „ekonomii bloków konstrukcyjnych” — efektywne oprogramowanie powstaje już nie jako dopracowany monolit, lecz przez składanie małych, dobrze udokumentowanych komponentów. Jego główna obserwacja: AI radzi sobie średnio z budowaniem wszystkiego od zera, ale doskonale łączy gotowe elementy.
Ta teza dotyczyła dotąd głównie bibliotek kodu, ale te same siły wpływają na multimedialną AI. Naтруdność w używaniu najnowszych modeli obrazów, wideo, TTS czy rekonstrukcji 3D nigdy nie leżała w samym modelu — problem stanowiła integracja: SDK, wagi, GPU, formaty wejściowe, odpytywanie. Gdyby każdy model był udokumentowanym, wywoływalnym blokiem, agent mógłby je łączyć tak samo, jak składa pakiety npm.
To właśnie stały się przestrzenie Hugging Face.
Hub hostuje tysiące najnowocześniejszych modeli (znaczna część z otwartymi wagami), z których większość jest wdrożona jako interaktywne przestrzenie. Każda przestrzeń Gradio udostępnia również plik tekstowy agents.md, który mówi agentowi dokładnie, jak ją wywołać.
Wywołanie curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md zwraca wszystko, co potrzebne: URL schematu, szablony wywołań i odpytywania, sposób przesyłania plików oraz wskazówki autoryzacji. Brak biblioteki klienta, brak zakodowanej na stałe integracji — agent czyta to i może obsługiwać przestrzeń od początku do końca.
Prawdziwym przełomem jest łańcuchowanie: wyjście jednej przestrzeni staje się wejściem dla następnej. Prompt → obraz → 3D. To cały pipeline stojący za galerią.
Agent połączył dwie przestrzenie. Pierwsza — generator obrazów — przekształciła każdy zabytek w czysty obraz „próbki” na ciemnym tle. Druga — VAST-AI/TripoSplat — zrekonstruowała z każdego pojedynczego obrazu model 3D Gaussian Splat (.ply).
Agent wykonał również pracę „łączącą”. Zauważył, że wyjścia TripoSplat mają odwróconą orientację Y i poprawił je, automatycznie wykadrował każdy zabytek, skompresował pliki .ply do formatu .ksplat (3× mniejsze, szybsze ładowanie), zbudował przeglądarkę Three.js z interfejsem przewijania i przeciągania, a następnie wdrożył całość jako statyczną przestrzeń.
Kilka z tych kroków było reakcją agenta na rzeczywistość. Szeroka szklana piramida źle się splata. Cienki obelisk jest nudny. Rekonstrukcja z jednego widoku domyśla tył obiektu. To dokładnie pętla „outsourcowanego R&D i szybkich iteracji”, którą przewiduje ekonomia bloków konstrukcyjnych, z tą różnicą, że R&D odbywało się poprzez rozmowę.
Deweloper podkreśla znaczenie tego podejścia: modele stają się komponowalne, agenty preferują to, co jest udokumentowane i dostępne, a bariera integracyjna w dużej mierze znika. „Przekształcenie promptu w obracający się monument 3D” było wcześniej projektem — tutaj stało się krokiem w pipeline'ie.

Google podpisał z SpaceX kontrakt warty 920 mln USD miesięcznie za dostęp do 110 tys. GPU NVIDIA. Umowa obowiązuje od października 2026 do czerwca 2029.

Claude Mythos 5 wykrył 10 tys. luk w systemach i samodzielnie zaktualizował 50 mln linii kodu. Anthropic ostrzega przed drastycznym ryzykiem nowej AI.

Meta testowała funkcję tworzącą clickbaitowe artykuły AI z błędnymi informacjami i obrazami rzeczywistych osób, wycofując ją po interwencji The Verge.