Modele AI18 kwietnia 20263 min czytania

Google DeepMind prezentuje Gemini Robotics-ER 1.6 z lepszą percepcją dla robotów

Nowy model Google DeepMind poprawia zdolności robotów do planowania i percepcji. Współpraca z Boston Dynamics przynosi przełom w odczycie przyrządów.

Źródło zdjęcia: The Decoder

Google DeepMind zaprezentował Gemini Robotics-ER 1.6, ulepszoną wersję modelu przeznaczonego do zaawansowanego rozumowania w robotyce. Nowy model działa jako warstwa wysokopoziomowego myślenia, pomagając robotom lepiej rozumieć otoczenie i planować zadania w sposób autonomiczny.

Model może korzystać z zewnętrznych narzędzi, takich jak Google Search czy modele vision-language-action, gdy potrzebuje dodatkowych informacji lub możliwości działania. Według Google DeepMind, Gemini Robotics-ER 1.6 przewyższa zarówno poprzednią wersję 1.5, jak i Gemini 3.0 Flash w kluczowych zadaniach robotycznych.

Kluczowe wnioski

Lepsza percepcja: Model znacznie poprawił zdolności wskazywania obiektów, liczenia i rozpoznawania pomyślnego wykonania zadań
Odczyt przyrządów: Dzięki współpracy z Boston Dynamics, robot może teraz czytać manometry i wizjery kontrolne z większą precyzją
Zaawansowane przetwarzanie obrazu: System łączy agentyczne analizowanie obrazów z wykonywaniem kodu, pozwalając na powiększanie detali i obliczanie proporcji
Praktyczne zastosowania: Robot Spot firmy Boston Dynamics wykorzystuje te funkcje do inspekcji systemów przemysłowych
Dostępność dla deweloperów: Model jest dostępny przez Gemini API i Google AI Studio z przykładami w Colab

Przełom w percepcji robotycznej

Gemini Robotics-ER 1.6 wykazuje znaczące ulepszenia w podstawowych zadaniach percepcyjnych. Model lepiej radzi sobie ze wskazywaniem konkretnych obiektów w przestrzeni, precyzyjnym liczeniem elementów oraz oceną, czy zadanie zostało wykonane pomyślnie. Te zdolności stanowią fundament dla bardziej zaawansowanych operacji robotycznych.

Szczególnie imponujące są możliwości rozpoznawania wzrokowego. Robot może teraz analizować złożone sceny wizualne, identyfikować kluczowe elementy i podejmować decyzje na podstawie tego, co "widzi" w swoim otoczeniu.

Współpraca z Boston Dynamics

Kluczowym osiągnięciem nowej wersji jest zdolność do odczytu instrumentów pomiarowych, opracowana we współpracy z Boston Dynamics. Model łączy kilka zaawansowanych technik: powiększa obraz, aby wychwycić drobne szczegóły na wyświetlaczach, wykorzystuje funkcje wskazywania i kod do obliczania proporcji oraz skalowania odległości, a następnie stosuje wiedzę o świecie do interpretacji odczytów.

Podobne Publikacje

Modele AI

Claude 4.7 zużywa 47% więcej tokenów niż deklaruje Anthropic - pomiary na rzeczywistych danych

Niezależne testy pokazują, że nowy tokenizer Claude 4.7 wymaga 1,47x więcej tokenów na dokumentacji technicznej, przekraczając oficjalne szacunki 1,35x.

4 min18 kwietnia 2026

Modele AI

OpenAI’s former Sora boss is leaving

OpenAI traci kolejnych kluczowych pracowników — po rezygnacji z rozwoju narzędzia do generowania wideo Sora w marcu, firmę opuścił Bill Peebles, który kierował tym projektem. Odchodzi również Kevin We