相比傳統(tǒng)大型語言模型(LLM),Claude 3.7 的獨特之處在于整合了快速本能反應(yīng)與深思熟慮的推理能力,類似于邁克爾·卡尼曼《思考快與慢》中描述的系統(tǒng) 1 和系統(tǒng) 2 思維。傳統(tǒng) LLM 擅長即時生成連貫文本,但在需要逐步推理的任務(wù)(如算術(shù)或復(fù)雜規(guī)劃)上表現(xiàn)有限。Anthropic 通過強化學(xué)習(xí)優(yōu)化 Claude 3.7,利用額外人類數(shù)據(jù)訓(xùn)練模型生成準確答案。研究產(chǎn)品負責人 Dianne Penn 指出,模型特別針對業(yè)務(wù)場景進行了增強,涵蓋代碼編寫與修復(fù)、計算機操作及復(fù)雜法律問題處理。她強調(diào):“我們在技術(shù)領(lǐng)域和長時推理任務(wù)上實現(xiàn)了改進,以滿足客戶將模型應(yīng)用于實戰(zhàn)的需求。”
Claude 3.7 在編碼能力上表現(xiàn)突出,特別是在需要逐步推理的任務(wù)中,超越 OpenAI 的 o1 模型,在 SWE-bench 等基準測試中取得領(lǐng)先成績。為進一步支持開發(fā)者,Anthropic 同步發(fā)布 Claude Code 工具,專為 AI 輔助編碼設(shè)計。Penn 表示:“模型已具備出色編碼能力,而在處理大型代碼庫等復(fù)雜規(guī)劃場景時,額外推理功能尤為關(guān)鍵。”相比 OpenAI 的 o3 和谷歌的 Gemini Flash Thinking,用戶無需切換模型即可享受靈活推理體驗。