Deepseekの驚くほど安価なAIモデルは、業界の巨人に挑戦しています。同社は、競合他社の費用とはまったく対照的である2048 GPUのみを利用して、強力なDeepseek V3ニューラルネットワークをわずか600万ドルで訓練したと主張しています。しかし、この数字は誤解を招くものです。
画像:Ensigame.com
Deepseek V3の革新的なアーキテクチャは、その効率に貢献しています。重要なテクノロジーには、複数の単語を同時に予測するマルチトークン予測(MTP)が含まれます。強化された処理のために256のニューラルネットワークを採用している専門家(MOE)の混合。マルチヘッドの潜在的な注意(MLA)、精度を向上させるために重要な文要素に焦点を当てています。
画像:Ensigame.com
その公表されたコストに反して、Semianalysisは、DeepSeekが約16億ドルと評価された約50,000 NVIDIA GPUの大規模なインフラストラクチャを運営しており、運用コストは9億4,400万ドルに近いことを明らかにしています。この実質的な投資は、研究者の高い給与と相まって(年間130万ドルを超える)、最初の600万ドルの請求を大幅に上回っています。
画像:Ensigame.com
Deepseekの成功は、ハイフライヤーの子会社である中国のヘッジファンドである独自の構造に由来し、データセンターを所有しており、迅速な革新と最適化を促進しています。その自己資金の性質は敏ility性を高めます。 「予算に優しい」物語は誇張されていますが、5億ドルを超えるDeepseekの全体的な投資は依然として比較的無駄のないアプローチを表しています。
画像:Ensigame.com
競合他社との対照は印象的です。 DeepseekのR1モデルは、ChatGPT4Oの1億ドルと比較して500万ドルかかりました。 Deepseekの例は、競争力への道を示していますが、その成功は、トレーニングコストが低いと言われているだけでなく、実質的な投資と技術の進歩に間違いなく根ざしています。膨らんだ主張にもかかわらず、それはまだ競合他社を大幅に覆い隠しています。