近日,浪潮“源 1.0”大模型登顶中文语言能力理解和生成评测基准 CUGE 总榜榜首,并获得语言理解(篇章级)、语言生成、对话交互、多语言、数学推理等 5 项评测最佳成绩。这是继源 1.0 揽获权威中文语言评测基准 CLUE 榜单的零样本学习和小样本学习两类总榜冠军后,再次在评测中展现强大实力。
CUGE (Chinese Language Understanding and Generation Evaluation)智源指数是由清华大学、北京大学、北京智源研究院等高校机构共同建立的中文机器语言能力评测基准,该基准针对当前自然语言处理和人工智能发展新范式,面向具有“通用语言能力”的预训练模型,全面系统、多层次、多维度地评测大模型能力。
源 1.0 领跑多类综合语言场景
在语言生成评测中,源 1.0 仅用时 70 秒,就完成近 800 条摘要内容的生成,登顶该项榜单。源大模型强大的文本生成能力可提升智能问答与对话、新闻摘要、报告生成等场景中 AI 智能化水平,如从长篇幅的新闻资讯等文本中提取出简明扼要的文字描述,便于及时、高效的获取有价值的信息及智能文案、协助写作等场景。
在多语言机器翻译评测中,基于源 1.0 大模型蒸馏出来的翻译模型在完成近 4000 千对中英文互译后,登顶榜首,领先第二名 15%。翻译模型在基于源 1.0 大模型阅读的海量高质量数据集基础上,采用维基百科、书籍、联合国文件及字幕组等近 80G 高质量数据集进行强化训练,因此翻译不仅专业准确,同时更符合中文表述。未来可广泛应用于新闻、哲学、小说等日常的语言翻译场景中。
在对话交互评测中,基于源 1.0 大模型蒸馏出来的对话模型回答了电影、音乐、旅行 3 个领域共近万个主题对话,成绩位居榜首,领先第二名成绩 30%,展现了极强的智能对话能力。在继承源 1.0 大模型能力的基础上,对话模型采用了 2660 万条医疗、法律、保险等不同行业,历史、电影、娱乐等不同场景的对话语料数据进行强化训练,在知识问答、高频闲聊等开放式任务上表现突出,此前已获得业界权威测评 WebQA 开放问答数据集榜单冠军。
源 1.0 在数学推理锋芒初露
当前业界各类大模型在自然语言处理领域展示出了强大的能力,但在数学领域却还存在盲区。数学对逻辑和推理能力有极强的要求,Open AI 开发出多种方法训练 GPT-3 的数学推理能力,但在挑战小学数学应用题时,GPT-3 也尚未及格,数学推理能力甚至低于9-12 岁儿童。
为更好评测大模型逻辑推理能力,CUGE 专门设立了数学推理能力榜单,主要考察模型数值计算能力,即考察对应用情景和任务的理解抽象能力以及数值计算能力,类似于小学数学应用题。数学推理能力榜单数据库内的数学题来自在线教育网站提供的小学数学应用题。
在 CUGE 数学推理评测中,源 1.0 大模型完成 1000 道小学数学应用题,以 76.9 的高分大幅领先高居榜首。
为应对大模型在数学推理方面的挑战,浪潮为源 1.0 开发了一套相似启发式数据增强的方案,给每一个要求解的数学问题从数据库中检索并匹配一个相似的题目并与原题目进行拼接,通过类比学习,启发大模型能够根据两道相似问题更好地学习如何给出解题表达式,进而学会每一类题目的解法,类似于人类在学习过程中会通过连续学习同一类型的题目来提高对这一类型题目的理解能力;同时,浪潮在源 1.0 改进了算法掩码策略,使得模型在学习过程中只关注于连续的相似的题目,不受同一个输入序列中不相关题目的影响,这样模型可以更专注于学习同一类型的题目,极大地提升了解题准确度,全方面培养一个数学学霸。
源 1.0 开源开放计划收效显著
目前,浪潮“源 1.0”已经将模型 API、高质量数据集、模型训练代码、推理代码和应用代码等等工具和能力开源开放,超过 300 家行业用户和开发者,通过“源 1.0”提供的数据和 API 显著提升了金融、互联网、医疗和自动驾驶等行业应用的精度。浪潮源 1.0 将持续助力行业用户和开发者,携手推动技术创新、场景融合、应用开发,共同促进大模型的健康发展与产业落地,加速 AI 产业化和产业 AI 化发展。