DeepSeek의 놀랍게도 저렴한 AI 모델은 업계 거인에게 도전합니다. 이 회사는 경쟁 업체의 비용과는 대조적으로 2048 GPU 만 사용하여 강력한 Deepseek V3 Neural Network를 6 백만 달러에 불과했다고 주장합니다. 그러나이 수치는 오해의 소지가 있습니다.
이미지 : ensigame.com
DeepSeek V3의 혁신적인 아키텍처는 효율성에 기여합니다. 주요 기술에는 여러 단어를 동시에 예측하는 다중 점화 예측 (MTP)이 포함됩니다. 강화 된 처리를 위해 256 개의 신경망을 사용하는 전문가 (MOE)의 혼합물; 그리고 개선 된 정확도를 위해 중요한 문장 요소에 중점을 둔 다중 헤드 잠재주의 (MLA).
이미지 : ensigame.com
Semianalysis는 공개 비용과 달리 DeepSeek은 약 50,000 달러의 NVIDIA GPU의 대규모 인프라를 운영하며 약 16 억 달러의 가치가 있으며 운영 비용은 9 억 9,400 만 달러에 가까워졌습니다. 이 상당한 투자는 연구원들을위한 높은 급여 (연간 130 만 달러를 초과)와 함께 초기 6 백만 달러의 청구를 크게 능가합니다.
이미지 : ensigame.com
DeepSeek의 성공은 고유 한 구조에서 비롯됩니다. 중국 헤지 펀드 인 High-Flyer의 자회사 인 데이터 센터를 소유하여 빠른 혁신과 최적화를 장려합니다. 자체 자금을 지원하는 자연은 민첩성을 향상시킵니다. "예산 친화적 인"이야기는 과장되지만 Deepseek의 전반적인 투자는 5 억 달러를 초과하는 것은 여전히 비교적 희박한 접근 방식을 나타냅니다.
이미지 : ensigame.com
경쟁자와의 대조는 놀랍습니다. DeepSeek의 R1 모델은 ChatGpt4o의 1 억 달러에 비해 5 백만 달러입니다. DeepSeek의 예는 경쟁력의 길을 보여 주지만, 그 성공은 실질적인 투자 및 기술 발전에 뿌리를두고 있으며, 단지 훈련 비용이 낮은 것이 아닙니다. 팽창 된 청구에도 불구하고 여전히 경쟁 업체를 크게 약화시킵니다.