1 artykuł z tym tagiem
Benchmark MirrorCode testuje zdolność modeli AI do odtwarzania programów od podstaw. Claude Opus 4.7 prowadzi z 56% skutecznością.