中國大陸AI新創公司DeepSeek發布了DeepSeek-R1模型的升級版DeepSeek-R1-0528,該模型在數學、寫程式和通用邏輯等多個基準測評中取得優異成績,接近國際頂尖模型如o3與Gemini-2.5-Pro。新版模型在推理深度、幻覺率降低和長篇作品輸出等方面均有顯著提升。
DeepSeek-R1-0528在多個基準測評中表現優異,接近國際頂尖模型。
新版模型在AIME2025測試中的準確率從舊版的70%提升至87.5%。
新版模型在推理過程中使用更多tokens,表明思考更為深入。
新版模型對於幻覺問題的優化顯著,幻覺率降低45-50%。
新版模型在長篇作品輸出方面有所提升,風格更加貼近人類偏好。
DeepSeek-R1-0528的思維鏈對學術界和工業界具有重要意義。