
Źródło zdjęcia: The Decoder
Google DeepMind zaprezentował Gemini Robotics-ER 1.6, ulepszoną wersję modelu przeznaczonego do zaawansowanego rozumowania w robotyce. Nowy model działa jako warstwa wysokopoziomowego myślenia, pomagając robotom lepiej rozumieć otoczenie i planować zadania w sposób autonomiczny.
Model może korzystać z zewnętrznych narzędzi, takich jak Google Search czy modele vision-language-action, gdy potrzebuje dodatkowych informacji lub możliwości działania. Według Google DeepMind, Gemini Robotics-ER 1.6 przewyższa zarówno poprzednią wersję 1.5, jak i Gemini 3.0 Flash w kluczowych zadaniach robotycznych.
Gemini Robotics-ER 1.6 wykazuje znaczące ulepszenia w podstawowych zadaniach percepcyjnych. Model lepiej radzi sobie ze wskazywaniem konkretnych obiektów w przestrzeni, precyzyjnym liczeniem elementów oraz oceną, czy zadanie zostało wykonane pomyślnie. Te zdolności stanowią fundament dla bardziej zaawansowanych operacji robotycznych.
Szczególnie imponujące są możliwości rozpoznawania wzrokowego. Robot może teraz analizować złożone sceny wizualne, identyfikować kluczowe elementy i podejmować decyzje na podstawie tego, co "widzi" w swoim otoczeniu.
Kluczowym osiągnięciem nowej wersji jest zdolność do odczytu instrumentów pomiarowych, opracowana we współpracy z Boston Dynamics. Model łączy kilka zaawansowanych technik: powiększa obraz, aby wychwycić drobne szczegóły na wyświetlaczach, wykorzystuje funkcje wskazywania i kod do obliczania proporcji oraz skalowania odległości, a następnie stosuje wiedzę o świecie do interpretacji odczytów.
Niezależne testy pokazują, że nowy tokenizer Claude 4.7 wymaga 1,47x więcej tokenów na dokumentacji technicznej, przekraczając oficjalne szacunki 1,35x.

OpenAI traci kolejnych kluczowych pracowników — po rezygnacji z rozwoju narzędzia do generowania wideo Sora w marcu, firmę opuścił Bill Peebles, który kierował tym projektem. Odchodzi również Kevin We
Robot Spot firmy Boston Dynamics już wykorzystuje tę funkcjonalność do przeprowadzania inspekcji systemów przemysłowych, co pokazuje praktyczne zastosowanie nowych możliwości w rzeczywistych warunkach pracy.
Google DeepMind udostępnił model deweloperom przez Gemini API i Google AI Studio. Firma przygotowała również przykłady implementacji w Colab, co ma ułatwić programistom eksperymentowanie z nowymi funkcjami i integrację ich z własnymi projektami robotycznymi.
Gemini Robotics-ER 1.6 reprezentuje znaczący krok naprzód w rozwoju inteligentnych robotów, łącząc zaawansowane przetwarzanie wizualne z praktycznymi możliwościami działania w rzeczywistym świecie.