当前位置: 网站首页 >资讯星海 >资讯星海 >正文

中国联通业界首次提出大模型能力边界量化基准,避免“高射炮打蚊子”情况

来源:金海游戏园 时间:2025-01-14 10:15:47

本站 12 月 27 日消息,据中国联通官方今日消息,该公司借鉴动物智能演化规律,结合大模型实际落地应用实践,在业界首次提出大模型能力边界量化基准,定量分析主流语言大模型能力边界,详细刻画模型参数量、模型能力与应用场景之间的关系,为语言大模型的应用选型提供理论和经验指导,将有助于降低语言大模型应用门槛。

相关研究成果以 为题发表在自然语言处理权威会议 NLPCC 2024 上,相应的评估基准已向业界开源。

借鉴动物智能演化规律

一般来说,动物的脑神经元越多,脑容量越大,智力水平就越高。另外,不同智力水平的动物擅长的任务种类和难度也各不相同,即使小如乌鸦的大脑,也可以完成“乌鸦喝水”这样的任务。

动物智能演化规律

相似地,在语言大模型中,扩展法则指出模型参数量越大,模型能力越强,相应的算法消耗和应用成本也越高。然而这样的定性分析是不够的,大模型能力边界定量刻画的缺乏,导致在实际应用中经常出现“高射炮打蚊子”的情况。因此对大模型能力边界的定量刻画是必要且紧迫的。

构建大模型能力评估基准

中国联通研究团队从实际应用场景维度出发,对语言大模型主要能力进行归纳、梳理和总结,建立了应用驱动的大语言模型能力评估基准。该评估基准包括文本生成、理解、关键信息抽取、逻辑推理、任务规划等 5 大类能力,又细分为 27 类子能力。

语言大模型主要能力

针对 27 类子能力,中国联通研究团队构建了相应的评测任务和由易、中、难三个难度等级的 678 个问答对构成的评估数据集。为避免数据泄露问题,所有数据均由专家团队人工编写。

应用驱动的语言大模型能力评估数据集

量化主流大模型能力边界

团队设计了专家评估和基于大模型的自动化评估方法,对同一家族 8 个不同规模的模型(0.5B、1.8B、4B、7B、14B、32B、72B、110B)进行测试和评估,避免模型架构、训练数据等非模型参数量因素对评估结果产生干扰,得到了不同参数量模型在各种任务上的可靠的评估结果。从下图的评测结果可以看出,不同参数量模型能力不同,模型参数量越大,模型能力越强,对于复杂任务需要使用大参数量模型。

不同参数量模型在各类任务中的准确率

依据能力要求确定模型参数量

根据语言大模型能力边界测评结果,团队提出了一种简单可行的模型选型方法,指导模型落地应用时的参数选型。总的来说,针对不同任务,任务难度越高要求参数越大;针对同一任务,参数越大模型性能越好。

具体地,可依据某项任务对模型性能的底线要求来选择相应参数的规模,以图中任务为例:

    在用户需求准确率为 80% 的前提下,对于拼写错误校正任务,14B 以上模型可获 90 分以上;

    对于逻辑错误检测任务,110B 以上模型可达 90 分以上;

    如果同时应用多个任务,先为每个任务选择合适的模型,再选择其中参数量最大的模型即可。

    选型过程中不需要用户对大模型有深入了解,这将降低用户选择使用大模型的门槛,促进大模型普惠化。

    模型参数量选择方法示例

    探索设计模型选型使用“说明书”

    在元景大模型应用落地中,中国联通基于上述评估基准,打造评估工具,量化 1B、7B、13B、34B 和 70B 等元景基础大模型的能力边界,并分别将其用于违规短信分类、投诉工单分类、客服助手、渔业知识问答、元景 App 问答等场景,提炼“模型参数量-模型能力-应用场景”关联关系(如下图),作为大模型使用“说明书”,集成到元景 MaaS 平台,为开发者提供选模型指引。

    模型参数量-能力-场景的对应关系图

    本站附论文链接:https://arxiv.org/abs/2406.10307

    评估基准:https://github.com/UnicomAI/UnicomBenchmark/tree/main/A-Eval

上一篇:CSGO暴躁少女高清视频哪里看?免费资源如何获取?
相关资讯 更多+
  • 欧洲尺码与美国尺码的不同:如何根据尺码差异选择合适的服装与鞋子?
    欧洲尺码与美国尺码的不同:如何根据尺码差异选择合适的服装与鞋子?

    在购买鞋子、衣服或其他商品时,常常会遇到欧洲尺码和美国尺码之间的差异问题。许多人对于这两者是否相同产生疑问。事实上,欧洲尺码和美国尺码并不完全相同,它们有各自的标准和计量方式。了解这些差异,能够帮助消费者更好地挑选适合的商品,避免尺码不合适的困扰。 尺码计量方式的不同 欧洲尺码和美国尺码的主要区别在于它们的计量单位和方式不同。欧洲尺码通常是通过厘米来衡量的,而美国尺码则是根据英寸进行划分的。例如

    资讯星海 2023-04-14

  • 如何选择适合自己企业的日本免费SAASCRM系统?20个问题解答,助你做出明智决策!
    如何选择适合自己企业的日本免费SAASCRM系统?20个问题解答,助你做出明智决策!

    日本免费SAASCRM系统在近年来得到了广泛应用,尤其是对于中小型企业而言,它是一种非常有吸引力的选择。这类系统不需要企业投入大量的资金,而且通过云平台的灵活性,使得企业在使用过程中可以享受到更高效、便捷的管理体验。接下来,我们就来详细了解一下日本免费SAASCRM的优势,帮助你更好地理解为何越来越多的企业选择它。 零成本获取高效管理工具 对于任何企业来说,成本控制始终是一个至关重要的因素。日本

    资讯星海 2023-04-14

  • 日系全尺寸SUV的豪华与实用性能究竟如何?
    日系全尺寸SUV的豪华与实用性能究竟如何?

    日系全尺寸SUV的豪华与实用性能概述日系全尺寸SUV的豪华与实用性能究竟如何?此标题满足了用户对日系全尺寸SUV的关注,同时也带有疑问,引导用户去了解这类车型的豪华与实用性能。标题字数超过了20个字符

    资讯星海 2023-04-14

  • 暴躁老奶奶征战CSGO比赛:能否用激情与实力征服电竞世界?
    暴躁老奶奶征战CSGO比赛:能否用激情与实力征服电竞世界?

    暴躁老奶奶征战CSGO比赛:电竞世界的激情与实力之争一、引子暴躁老奶奶征战CSGO比赛:能否用激情与实力征服电竞世界?这个标题结合了暴躁老奶奶的特性和CSGO比赛的场景,同时提出了疑问,即她是否能用自

    资讯星海 2023-04-14

最新录入 更多+
确定