Čínský start-up DeepSeek vyvíjí efektivnější modely AI s univerzitou v Pekingu

07.04.2025
Redakce

Čínská společnost DeepSeek spolupracuje s prestižní univerzitou Čching-chua v Pekingu na snižování potřeby trénování svých modelů umělé inteligence (AI). Chce si tak snížit provozní náklady, uvedla dnes agentura Bloomberg. Čínský start-up rozvířil trhy svým nízkonákladovým modelem AI, který se objevil v lednu. Firma se rozhodla ke spolupráci s výzkumníky z pekingské univerzity a v odborném článku popisuje nový přístup k posilování učení, jehož cílem je zvýšit efektivitu modelů.

Nový přístup

Tedy aby byly schopny se učit stejně dobře nebo lépe, ale rychleji a s využitím méně dat a výpočetního výkonu, což sníží náklady. Cílem nové metody je pomoci modelů AI lépe dodržovat lidské preference nabídkou odměn za přesnější a srozumitelnější odpovědi, napsali výzkumníci. Toto posilované učení se ukázalo být efektivní při zrychlování úloh AI v úzce zaměřených aplikacích a sférách.

Rozšíření na obecnější aplikace se však ukázalo náročné, a to je problém, který se tým DeepSeek snaží vyřešit něčím, co nazývá ladění pomocí sebekritického principu. To je metoda, při které model sám kriticky hodnotí své výstupy podle vlastních principů. Tato strategie podle článku překonala stávající metody a modely v různých srovnávacích testech a dosáhla lepších výsledků s menšími nároky na výpočetní zdroje.

DeepSeek-GRM a MoE

DeepSeek tyto nové modely nazývá DeepSeek-GRM, což je zkratka pro generalist reward modeling, tedy obecné modelování odměn. Modely plánuje zveřejnit na bázi open source, což znamená, že budou dostupné zdarma pro všechny a vývojáři si je budou moci upravit a přizpůsobit pro svoji potřebu. Termín ale zatím neupřesnila. Další vývojáři AI, jako je čínská společnost Alibaba či americká OpenAI, se také snaží proniknout do nové oblasti zlepšováním schopnosti uvažování a sebezdokonalování.

Americká internetová společnost Meta Platforms o víkendu představila nejnovější řadu modelů AI Llama 4 a jako první použila architekturu Mixture of Experts (MoE). Tento model je složený z více specializovaných podmodelů a když dostane nějaký úkol, vybere si, který z těchto podmodelů je nejlépe schopen daný úkol zpracovat. Tento přístup může být efektivnější, protože model nevyužívá pro každý úkol všechny své zdroje, ale soustředí se pouze na ty, které jsou skutečně relevantní. Modely DeepSeek se významně spoléhají na MoE, aby efektivněji využívaly zdroje.

Zdroj: ČTK

Redakce Tým redakce

Redakce Tradeinfo.cz se zaměřuje na srozumitelnou a věcnou analýzu aktuálního dění ve světě ekonomiky, investic a byznysu. Naším cílem je přinášet čtenářům informace, které mají skutečnou hodnotu – bez zbytečného balastu, senzací a prázdných slibů. Věnujeme se tématům jako jsou akcie, ETF, komodity, kryptoměny, makroekonomické trendy i finanční gramotnost. Obsah vzniká na základě dat, ověřených zdrojů a dlouhodobého sledování trhů, s důrazem na kontext a praktické souvislosti pro běžné investory. Na této stránce najdete přehled článků redakce. Tradeinfo.cz stojí na nezávislém pohledu, kritickém myšlení a snaze pomáhat čtenářům lépe se orientovat ve světě financí.

Zobrazit více