xxxx欧美69免费,成人两性视频,边吃胸边摸下

中國電信星辰語義大模型TeleChat2位列SuperCLUE榜單第一梯隊！

2024-11-15 中國電信

近日，權威大模型評測基準SuperCLUE發布最新《中文大模型基準測評2024年10月報告》。其中，由中國電信打造的星辰語義大模型TeleChat2，作為央企大模型代表，憑借出色效果，綜合能力位列大模型第一梯隊。TeleChat2在理科“工具調用”維度排名前二，在Agent智能體總榜排名并列第二。

數據來源：SuperCLUE

TeleChat2-35B以更小參數量和更佳效果獲得開源模型排行榜銅牌，綜合效果超過Llama-3.1-70B-Instruc和 Llama-3.2-90B-Instruct等較大參數模型。

數據來源：SuperCLUE

星辰語義大模型由中國電信創新研發并不斷迭代突破。TeleChat2系列是在星辰語義大模型TeleChat發布以來推出的第二代版本。

今年9月，TeleAI正式發布并開源了首個基于全國產化萬卡集群和國產深度學習框架訓練的千億參數大模型 TeleChat2-115B，近日又進一步開源了TeleChat2-3B、7B和35B，以適配不同場景的應用需求，構建了全尺寸大模型開源布局。

超強工具使用及Agent能力

本次最新的SuperCLUE10月報告覆蓋43個國內外有代表性的大模型，采用多維度、多層次的綜合性測評方案，由理科、文科和Hard任務三大維度構成，評測題目總量超過2900道。理科任務方面，TeleChat2展現了極強的函數調用能力，在工具調用維度排名前二。文科任務方面，TeleChat2在語言理解、長文本等維度表現突出。Hard任務方面，TeleChat2在指令遵循維度表現優異，展現了優秀的復雜推理能力。

為了提高模型性能，TeleAI團隊在數據維度和后訓練階段進行了優化。在數學能力方面，通過抽取知識點合成問答數據，并結合數學RM（獎勵模型）篩選高質量數據。在代碼能力方面，抽取高質量代碼函數合成功能實現代碼，并通過單元測試確保代碼質量。對于指令遵循能力，通過指令進化構建大量數據并進行腳本校驗，從而大幅提升模型效果。在后訓練階段，通過模型微調、權重融合和DPO（直接偏好優化）進一步提升效果。微調階段，使用IFD（指令跟隨難度）和 RFT（拒絕采樣微調）篩選數據，并迭代優化模型。權重融合階段，結合多個模型的優勢獲得新權重。DPO優化階段，專注于中等難度問題，迭代補齊模型能力。

不僅如此，TeleChat2系列模型還完成了Agent能力建設，重點加強了模型在指令跟隨、任務拆解、工具調用等方面的能力和表現。在10月的SuperCLUEAgent總榜中，TeleChat2排名并列第二。

數據來源：SuperCLUE

TeleAI團隊構建了一個基于圖結構和MutltiAgent（多智能體）的框架，通過細分工具場景，創建詳細的依賴關系圖，從而提升訓練數據的真實性和復雜度。

同時，利用MultiAgent的增強交互多樣性，并通過規則檢查，確保交互合理。此外，團隊還將工具調用能力分為多個階段，為每個階段設計多樣化數據，以避免模型僅學習表面格式，這使得模型效果提升了約15%。

全尺寸開源布局適配多場景落地

TeleAI始終積極通過開源推動大模型技術創新和國產化進程，并為產業持續輸送領先的技術能力，加速應用落地。早在今年前半年，就陸續開源了1B、7B、12B和52B參數的第一代TeleChat系列模型。最近，TeleChat2系列也已完成 3B、7B、35B和115B模型開源，逐步構建了全尺寸開源布局，并吸引了國內外廣大開發者的討論和使用。