Det kinesiska AI-bolaget Deepseek har presenterat en ny metod, Manifold-Constrained Hyper-Connections (mHC), som ska göra det möjligt att träna stora språkmodeller mer effektivt och till lägre kostnad, rapporterar South China Morning Post. Metoden är en vidareutveckling av så kallade Hyper-Connections, som ursprungligen togs fram av Bytedance under 2024. Den tekniken bygger i sin tur vidare på den klassiska ResNet-arkitekturen från Microsoft Research Asia. Enligt Deepseek ger mHC stabilare och mer skalbar träning utan att öka beräkningskostnaderna, tack vare särskilda optimeringar på infrastrukturnivå. Forskarna har testat tekniken på modeller med upp till 27 miljarder parametrar med positiva resultat. Enligt experter som South China Morning Post pratat med kan den nya metoden vara en försmak av nästa stora modellsläpp från Deepseek. Företaget lanserade sin uppmärksammade R1-modell i samband med det kinesiska nyåret 2025.
Deepseeks nya metod kan träna AI mer effektivt och billigare
AI Analys
Nyheten handlar om framsteg och innovation inom AI-träning, vilket ger positiva resultat och potential till lägre kostnader.
Gillade du denna positiva nyhet?