近日,权威大模型评测基准SuperCLUE颁布最新《中文大模型基准测评2024年10月汇报》。。其中,由中国jackpot官网打造的星辰语义大模型TeleChat2,作为央企大模型代表,凭借杰出成效,综合能力位列大模型第一梯队。。TeleChat2在理科“工具挪用”维度排名前二,在Agent智能体总榜排名并列第二。。
数据起源:::SuperCLUE
TeleChat2-35B以更小参数量和更佳成效获得开源模型排行榜铜牌,综合成效超过Llama-3.1-70B-Instruc和 Llama-3.2-90B-Instruct等较大参数模型。。
数据起源:::SuperCLUE
星辰语义大模型由中国jackpot官网创新研发并不休迭代突破。。TeleChat2系列是在星辰语义大模型TeleChat颁布以来推出的第二代版本。。
今年9月,TeleAI正式颁布并开源了首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 TeleChat2-115B,近日又进一步开源了TeleChat2-3B、、7B和35B,以适配分歧场景的利用需要,构建了全尺寸大模型开源布局。。
超强工具使用及Agent能力
本次最新的SuperCLUE10月汇报覆盖43个国内外有代表性的大模型,选取多维度、、多档次的综合性测评规划,由理科、、文科和Hard工作三大维度组成,评测标题总量超过2900道。。理科工作方面,TeleChat2展示了极强的函数挪用能力,在工具挪用维度排名前二。。文科工作方面,TeleChat2在说话理解、、长文本等维度阐发凸起。。Hard工作方面,TeleChat2在指令遵循维度阐发优异,展示了优良的复杂推理能力。。
为了提高模型机能,TeleAI团队在数据维度和后训练阶段进行了优化。。在数学能力方面,通过抽取知识点合成问答数据,并结合数学RM(嘉奖模型)筛选高质量数据。。在代码能力方面,抽取高质量代码函数合成功能实现代码,并通过单元测试确保代码质量。。对于指令遵循能力,通过指令进化构建大量数据并进行剧本校验,从而大幅提升模型成效。。在后训练阶段,通过模型微调、、权重融合和DPO(直接偏好优化)进一步提升成效。。微调阶段,使用IFD(指令追随难度)和 RFT(回绝采样微调)筛选数据,并迭代优化模型。。权重融合阶段,结合多个模型的优势获得新权重。。DPO优化阶段,专一于中等难度问题,迭代补齐模型能力。。
不仅如此,TeleChat2系列模型还实现了Agent能力建设,重点加强了模型在指令追随、、工作拆解、、工具挪用等方面的能力和阐发。。在10月的SuperCLUEAgent总榜中,TeleChat2排名并列第二。。
数据起源:::SuperCLUE
TeleAI团队构建了一个基于图结构和MutltiAgent(多智能体)的框架,通过细分工具场景,创建具体的依赖关系图,从而提升训练数据的真实性和复杂度。。
同时,利用MultiAgent的加强交互多样性,并通过规定查抄,确保交互合理。。此外,团队还将工具挪用能力分为多个阶段,为每个阶段设计多样化数据,以预防模型仅学习理论体式,这使得模型成效提升了约15%。。
全尺寸开源布局 适配多场景落地
TeleAI始终积极通过开源推动大模型技术创新和国产化过程,并为产业持续输送当先的技术能力,加快利用落地。。早在今年前半年,就陆续开源了1B、、7B、、12B和52B参数的第一代TeleChat系列模型。。最近,TeleChat2系列也已实现 3B、、7B、、35B和115B模型开源,逐步构建了全尺寸开源布局,并吸引了国内外宽大开发者的会商和使用。。

凭借卓越的机能和开源生态贡献,星辰语义大模型在 Gitee开源社区获得了“GVP-Gitee最有价值开源项目”。。前不久,星辰大模型还被中国信息通讯钻研院(信通院)授予“可信开源大模型成熟度能力”认证和“2024年度央国企开源项目典型案例”称号。。
凭借分歧的参数配置和矫捷的架构设计,TeleChat2系列模型可矫捷适配于分歧利用场景、、分歧资源配置、、分歧延时前提、、分歧响应速度的多样化需要。。目前,星辰语义大模型系列已在政务服务、、智慧教育、、经营分析、、公函写作等领域宽泛利用落地。。
在政务场景,星辰语义大模型已利用于智能知识库、、智能受理助手、、智能分类助手、、智能客服机械人、、智能语音座席助手等,助力政务工作提升工作效能。。
在教育领域,星辰语义大模型落地教育听力机,辅助学生进行英语口语对话操练、、中英文写作、、中文诗歌创作等,提升他们的学习兴致和个性化履历。。
在智慧办公场景,基于星辰语义大模型的超强语义理解和总结能力,星辰慧记一站式会议助手可能一键提炼会议纪要,实现会后总结秒天生,推动企业更高效、、更智能发展。。
在本次参选SuperCLUE10月榜单的43个大模型企业中,TeleAI是唯一的央企大模型机构,同时TeleChat2系列大模型是基于全国产化万卡集群和国产深度学习框架训练实现。。
开源地址:::
GitHub:::
https://github.com/Tele-AI/TeleChat2
Gitee:::
https://gitee.com/Tele-AI/tele-chat2
ModelScope:::
https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers:::
https://modelers.cn/models/TeleAI/TeleChat2-115B