DeepSeek令人驚訝的是,廉價的AI模型挑戰了行業巨頭。該公司聲稱已經培訓了其強大的DeepSeek V3神經網絡,僅利用2048 GPU,這與競爭對手的費用形成了鮮明的對比。但是,這個數字具有誤導性。
圖像:ensigame.com
DeepSeek V3的創新架構有助於其效率。關鍵技術包括多型預測(MTP),該預測同時預測了多個單詞;專家(MOE)的混合物,采用256個神經網絡來增強處理;和多頭潛在注意力(MLA),重點是至關重要的句子元素以提高準確性。
圖像:ensigame.com
與其公開成本相反,半分析顯示,DeepSeek的基礎設施約為50,000 Nvidia GPU,價值約16億美元,運營成本接近9.44億美元。這項大量投資,加上其研究人員的高薪(每年超過130萬美元),大大超過了最初的600萬美元索賠。
圖像:ensigame.com
DeepSeek的成功源於其獨特的結構:中國對衝基金的高飛行員的子公司擁有其數據中心,從而促進了快速的創新和優化。它的自資助性質增強了敏捷性。盡管“預算友好”的敘述被誇大了,但DeepSeek的整體投資超過5億美元仍然代表了一種相對精益的方法。
圖像:ensigame.com
與競爭對手的對比是驚人的。 DeepSeek的R1型號的價格為500萬美元,而Chatgpt4o的1億美元。 DeepSeek的示例展示了競爭力的途徑,但無可否認,其成功源於大量投資和技術進步,而不僅僅是其據稱是低培訓成本。盡管提出了誇張的說法,但它仍然大大削弱了競爭對手。