Eksperyment z modelem o 600M parametrów pokazuje, jak małe LLM można przekształcić w skuteczny klasyfikator pytań domowych.

Źródło zdjęcia: teachmecoolstuff.com
Deweloper Torgeir Helgevold przeprowadził eksperyment z dostrojeniem lokalnego modelu językowego Qwen 3:0.6B do kategoryzacji pytań domowych. Wyniki pokazują, jak mały model z zaledwie 600 milionami parametrów może zostać przekształcony w skuteczny klasyfikator po odpowiednim treningu. Szczegóły badania opisuje w swoim artykule na blogu.
Projekt miał na celu stworzenie chatbota odpowiadającego na pytania domowe za pomocą systemu RAG (Retrieval-Augmented Generation). Kluczowym elementem była kategoryzacja pytań przed przeszukiwaniem bazy wektorowej, co miało zawęzić przestrzeń wyszukiwania tylko do odpowiednich metadanych.
Helgevold wykorzystywał dwa różne modele Qwen 3 w swoim projekcie. Większy model 4B parametrów służył do odpowiadania na pytania, podczas gdy mniejszy 0.6B był dedykowany wyłącznie do klasyfikacji. Taki podział miał na celu przetestowanie hipotezy, czy tak mały model może zostać skutecznie wyspecjalizowany w konkretnym zadaniu.
Zbiór danych treningowych składał się z pytań domowych przypisanych do 18 kategorii, takich jak „pool”, „car”, „hvac”, „cooking”, „gutters” czy „water heater”. Przykładowe pytania obejmowały: „Kto czyści nasze rynny?” (kategoria: gutters) czy „Jakie są wymiary filtrów powietrza do domowej klimatyzacji?” (kategoria: hvac).
Do dostrajania autor zastosował framework Unsloth z metodą QLora. Jak podkreśla, domyślne parametry Unsloth stanowią dobry punkt wyjścia, a kluczowe jest przygotowanie odpowiednich danych treningowych.
Test bazowy ujawnił poważne ograniczenia niewystrojonego modelu. Model nie tylko osiągał bardzo niską dokładność, ale też wykazywał charakterystyczne wzorce błędów. Nadmiernie często przypisywał pytania do szerokich kategorii i nie trzymał się listy dozwolonych kategorii, co pokazują przykłady z raportu testowego.
W jednym przypadku pytanie „Kiedy wymieniliśmy dolny system klimatyzacji?” zostało błędnie zakategoryzowane jako „electric” zamiast poprawnego „hvac”. W innym przypadku model zwrócił kategorię „apartments”, której w ogóle nie było na liście dozwolonych opcji.
Eksperyment potwierdził, że bardzo małe modele językowe mogą być skutecznie wyspecjalizowane w konkretnych zadaniach klasyfikacji, pod warunkiem odpowiedniego dostrojenia na reprezentatywnym zbiorze danych.

OpenAI zaprezentowało GPT-5.5-Cyber, który osiąga 85,6% w benchmarku CyberGym, przewyższając konkurencyjny Mythos 5. Nowy model automatyzuje proces od wykrycia luk do łatek.

iOS 27 wprowadza funkcje AI zintegrowane z istniejącymi aplikacjami: dzielenie rachunków, aktualizowanie haseł i inteligentne sugestie w Wiadomościach.

AI pozwala cyberprzestępcom tworzyć bardziej wiarygodne oszustwa przed największymi Mistrzostwami Świata w historii. Zarejestrowano już ponad 13 000 podejrzan