Google DeepMind udostępnił DiffusionGemma — eksperymentalny model wykorzystujący dyfuzję tekstową do 4x szybszego generowania treści niż tradycyjne LLM.

Źródło zdjęcia: Google
Google DeepMind przedstawił DiffusionGemma, eksperymentalny model open source, który wykorzystuje technologię dyfuzji tekstowej do generowania treści nawet 4 razy szybciej niż tradycyjne modele autoregresywne. Model został udostępniony pod licencją Apache 2.0, oferując nowe możliwości dla deweloperów budujących interaktywne aplikacje AI wymagające niskich opóźnień. Szczegóły zostały opublikowane w oficjalnym blogu Google DeepMind.
DiffusionGemma to model Mixture of Experts (MoE) o łącznej wielkości 26 miliardów parametrów, który podczas wnioskowania aktywuje jedynie 3,8 miliarda parametrów. W przeciwieństwie do standardowych modeli językowych generujących tekst token po tokenie, DiffusionGemma tworzy całe bloki tekstu jednocześnie — nawet 256 tokenów w pojedynczym przejściu.
Tradycyjne modele językowe działają jak maszyna do pisania, generując słowa jedno po drugim od lewej do prawej. Choć takie podejście sprawdza się w chmurze, gdzie serwery mogą grupować tysiące zapytań użytkowników, to w przypadku lokalnego wdrożenia dla pojedynczego użytkownika pozostawia GPU lub TPU niewykorzystane — większość czasu spędza na oczekiwaniu na kolejny „znak”.
DiffusionGemma odwraca tę nieefektywność. Zamiast przewidywać słowa sekwencyjnie, szkicuje cały 256-tokenowy akapit jednocześnie. Dając procesorowi większy fragment pracy naraz, model wykorzystuje sprzęt w pełni — jak przejście od pojedynczej maszyny do pisania do masowej drukarni, która odbija cały blok tekstu równocześnie.
Proces dyfuzji tekstowej przypomina generatory obrazów AI — model rozpoczyna od losowych tokenów-wypełniaczy i iteracyjnie je udoskonala, blokując poprawne tokeny i używając ich jako wskazówek kontekstowych do dopracowania reszty, aż tekst osiągnie wysoką jakość.
DiffusionGemma został zaprojektowany dla badaczy i deweloperów eksplorujących przepływy pracy krytyczne pod względem szybkości, takie jak edycja w linii, szybkie iteracje czy generowanie nieliniowych struktur tekstowych. Dwukierunkowa uwaga umożliwia każdemu tokenowi „zwracanie uwagi” na wszystkie inne tokeny, co daje znaczące przewagi w domenach nieliniowych, takich jak uzupełnianie kodu, sekwencje aminokwasów czy grafy matematyczne.
Model sprawdza się szczególnie dobrze w zadaniach wymagających równoległego przetwarzania. Przykładem może być fine-tuning wykonany przez Unsloth, który dostosował DiffusionGemma do rozwiązywania Sudoku — zadania, z którym modele autoregresywne mają trudności, ponieważ każdy token zależy od przyszłych tokenów.
Jednak przyspieszenie DiffusionGemma jest zaprojektowane głównie dla lokalnego wnioskowania o niskiej współbieżności. W przypadku serwowania w chmurze z wysoką liczbą zapytań na sekundę, modele autoregresywne mogą być wdrażane tak, aby efektywnie nasycić moc obliczeniową, więc równoległe dekodowanie DiffusionGemma oferuje malejące korzyści i może skutkować wyższymi kosztami obsługi.
DiffusionGemma jest dostępny już teraz na Hugging Face pod licencją Apache 2.0, a Google udostępnił również szczegółowy przewodnik deweloperski oraz wizualny przewodnik wyjaśniający mechanikę działania modelu. Choć priorytetem jest szybkość kosztem jakości w porównaniu do standardowych modeli Gemma 4, DiffusionGemma otwiera nowe możliwości dla aplikacji wymagających interaktywnego generowania tekstu w czasie rzeczywistym.
Innowacyjna gra ekonomiczna, gdzie każdy agent działa na innym małym modelu językowym z czterech laboratoriów — od OpenAI po NVIDIA.

OpenAI uruchomiło Lockdown Mode dla ChatGPT — nową funkcję zabezpieczającą wrażliwe dane przed atakami prompt injection w firmach i organizacjach.

Google aktualizuje NotebookLM o model Gemini 3.5, wyszukiwanie źródeł przez AI i możliwość uruchamiania kodu w chmurze. Nowe formaty eksportu i ulepszone badania.