Modele AI17 kwietnia 20264 min czytania

Nvidia udostępnia wielojęzyczny model OCR trenowany na syntetycznych danych

Nemotron OCR v2 osiąga 34,7 stron/s na A100 GPU i obniża błędy NED do 0.035-0.069 dla sześciu języków dzięki 12 mln syntetycznych obrazów treningowych.

Źródło zdjęcia: huggingface.co

Nvidia opublikowała szczegóły dotyczące nowego modelu OCR o nazwie Nemotron OCR v2, który wykorzystuje syntetyczne dane do rozpoznawania tekstu w sześciu językach. Model został opisany w artykule technicznym opublikowanym na platformie Hugging Face.

Głównym wyzwaniem w tworzeniu wielojęzycznych modeli OCR jest pozyskanie wystarczającej ilości wysokiej jakości danych treningowych. Istniejące podejścia wiążą się z kompromisami: publiczne zbiory danych jak ICDAR czy Total-Text mają czyste etykiety, ale ograniczoną skalę i koncentrują się głównie na języku angielskim i chińskim. Ręczne oznaczanie danych zapewnia najwyższą jakość, ale jest drogie i czasochłonne. Z kolei pliki PDF pozyskiwane z internetu oferują ogromną ilość danych, ale często zawierają zaszumiony tekst.

Kluczowe wnioski

• Syntetyczne dane jako rozwiązanie: Nvidia wykorzystała 12 milionów syntetycznych obrazów treningowych w sześciu językach, co pozwoliło obniżyć błędy NED z przedziału 0.56-0.92 do 0.035-0.069 dla języków innych niż angielski

• Wysoka wydajność: Model osiąga prędkość 34,7 stron na sekundę na pojedynczym GPU A100 dzięki współdzielonej architekturze z jednym modułem detekcji

• Otwartość: Zarówno zbiór danych (nvidia/OCR-Synthetic-Multilingual-v1) jak i model (nvidia/nemotron-ocr-v2) są publicznie dostępne na platformie Hugging Face

• Uniwersalność podejścia: Pipeline do generowania syntetycznych danych można rozszerzyć na dowolny język, dla którego dostępne są fonty i tekst źródłowy

• Rozszerzona funkcjonalność: Model generuje adnotacje na trzech poziomach (słowo, linia, akapit) oraz grafy relacji określające kolejność czytania

Problem: dane, nie architektura

Poprzednia wersja Nemotron OCR v1 była skuteczna dla języka angielskiego, ale nie została przygotowana do pracy z innymi językami. W testach na zbiorze SynthDoG v1 osiągnął wyniki NED (Normalized Edit Distance) między 0.56 a 0.92 dla języków japońskiego, koreańskiego, rosyjskiego i chińskiego. Przy takich poziomach błędów wyjście modelu miało niewiele wspólnego z rzeczywistym tekstem.

Częścią problemu był ograniczony zestaw znaków. Model v1 obsługiwał tylko 855 znaków, co nie pokrywało skryptów CJK (chińskiego, japońskiego, koreańskiego) ani cyrylicy. Eksperyment z rozszerzeniem zestawu do 14,244 znaków przyniósł jedynie marginalne poprawy. Model teoretycznie mógł generować właściwe znaki, ale nigdy nie nauczył się, jak wyglądają.

Podobne Publikacje

Modele AI

OpenAI wypuszcza GPT-Rosalind — model AI dedykowany naukom przyrodniczym

GPT-Rosalind to nowy model OpenAI zaprojektowany specjalnie dla badań w naukach przyrodniczych, który przewyższa GPT-5 w chemii i projektowaniu eksperymentów.

4 min17 kwietnia 2026

Nvidia udostępnia wielojęzyczny model OCR trenowany na syntetycznych danych

Kluczowe wnioski

Problem: dane, nie architektura

Podobne Publikacje

OpenAI wypuszcza GPT-Rosalind — model AI dedykowany naukom przyrodniczym

Pipeline syntetycznych danych

Źródła