掃呢頁CODE去手機

2025年8月15日 星期五

DeepSeek-R2 大模型發布再度延期 金融時報:中國晶片訓練失敗轉用 NVIDIA

DeepSeek-R2 大模型發布再度延期  金融時報:中國晶片訓練失敗轉用 NVIDIA
中國人工智能初創公司DeepSeek原定今年5月推出全新AI大模型DeepSeek-R2,但據《金融時報》消息,因使用中國產昇騰(Ascend)處理器 ...




中國人工智能初創公司 DeepSeek 原定今年 5 月推出全新 AI 大模型 DeepSeek-R2,但據《金融時報》消息,因使用中國產昇騰(Ascend)處理器訓練過程中遇到持續技術問題,被迫改用 NVIDIA 晶片進行訓練,令新模型發布時間一再推遲。





據《金融時報》引述 3 名知情人士透露,DeepSeek 在今年 1 月成功發布 R1 模型後,在當局鼓勵下嘗試採用昇騰處理器訓練下一代 R2 模型,而非繼續使用 Nvidia 晶片。然而,DeepSeek 在使用昇騰晶片進行 R2 訓練過程中遭遇一系列技術障礙,包括效能不穩定、晶片間連接速度較慢,以及軟件工具包存在限制等問題。



為協助解決訓練問題,華為派遣一支工程師團隊前往 DeepSeek 辦公室提供技術支援。消息指工程師在現場協助,DeepSeek 仍無法在昇騰平台上完成一次成功的訓練運行。最終,該公司決定回到 Nvidia 晶片進行模型訓練,僅保留華為晶片用於推理工作。



創辦人梁文鋒對進展表示不滿

消息人士表示,晶片訓練問題是 R2 模型從原定 5 月發布時間延期的主要原因。DeepSeek 創辦人梁文鋒曾在內部表達對 R2 進展的不滿,強調需要投入更多時間建立先進模型,以維持公司在 AI 領域的競爭地位。



市場原本傳言 R2 模型會在 8 月 15 日至 30 日期間發布,但 DeepSeek 已否認這一傳聞,具體發布日期仍未確定。與此同時,該公司的使用率也從年初的 50% 大幅下降至目前僅 3%。



中國晶片技術仍存在差距

業內專家指出,與 Nvidia 產品相比,中國晶片在穩定性、晶片間連接速度及軟件品質方面仍存在明顯差距。DeepSeek 的困境突顯中國在實現技術自給自足方面面臨的挑戰,特別是在關鍵任務的 AI 訓練領域。



回顧 DeepSeek R1 模型,正正是使用包含 30,000 個 HGX H20、10,000 個 H800 和 10,000 個 H100 在內,總計 50,000 個 Nvidia Hopper 系列 GPU 集群進行訓練。



Nvidia 與美國政府達成收益分享協議

另一方面,Nvidia 近期同意向美國政府上繳其在華 H20 晶片銷售收益的 15%,以恢復在中國市場的銷售。然而,中國政府已約談多家國內科技企業,要求解釋採購 Nvidia H20 晶片的原因,並對當中涉及的資訊安全風險表達關切。



當局擔心 Nvidia 要求企業提交用於美國政府審查的材料可能包含客戶數據等敏感資訊,進一步加劇中美科技競爭的複雜性。



資料來源:Financial Times



分享到 :



最新影片



Follow 我們 :



650k粉絲


155k訂閱


55k跟隨者


22k粉絲


6.8kPosts

本文作轉載及備份之用 來源 source: http://unwire.hk
鍾意就快D Share啦!