1. 尊龙时凯

    解密“聪明哥”如何重塑企业网络出口
    预约直播
    乐享业务保障服务 丨 守护医疗业务连续稳定
    预约直播
    尊龙时凯睿易 尊龙时凯官方商城

    中文

    • Global / English
    • France / Français
    • Germany / Deutsch
    • Indonesia / Indonesian
    • Italy / Italiano
    • Japan / 日本語
    • Kazakhstan / Pусский
    • Poland / Polski
    • Portugal / Português
    • Spain / Español (España)
    • Thailand / ภาษาไทย
    • Vietnam / Việt Nam
    • LATAM / Español
      (América Latina)
    • Türkiye / Türkçe
    • Brazil / Português(Brazil)
    产品
    < 返回主菜单
    产品中心
    产品

    交换机

    交换机所有产品
    < 返回产品
    交换机主页
    交换机

    无线

    无线所有产品
    < 返回产品
    无线主页
    无线

    无线管理与应用

    云桌面

    云桌面产品方案中心
    < 返回产品
    云桌面主页
    云桌面

    安全

    安全所有产品
    < 返回产品
    安全主页
    安全
    服务支持
    < 返回主菜单
    服务与支持中心
    服务与支持
    服务工具
    服务平台
    • 云桌面服务平台
    • 睿易服务平台
    • 合作伙伴服务平台
    教学服务
    • 尊龙时凯ICT人才教育中心
    • 校企合作
    • 认证体系
    • 培训计划
    合作伙伴
    < 返回主菜单
    合作伙伴中心
    合作伙伴
    成为尊龙时凯伙伴
    售前营销
    • 市场资料库(合作伙伴)
    • 尊龙时凯产品配置器
    • 营销资料平台
    • 售前认证
    • 售前工具包
    • 合作伙伴礼品库
    • e-Learning
    • 产品资质查询
    • 远程POC
    销售与订单
    售后及服务
    • 售后认证
    • 售后工具包
    • iSov 服务运营可视化平台
    • 售后服务认证
    • 售后知识平台
    • 渠道服务管理系统(CSM)
    • SMB渠道客户服务平台(CCSP)
    用户中心
    • 系统指导大全
    • 账号管理
    • 下载电子授权牌
    • 签约信息查看
    • 资质查询
    • 签章管理
    • 返利管理
    • 睿易技术认证查询
    返回主菜单
    选择区域/语言
  2. Global / English
  3. Japan / 日本語
  4. Türkiye / Türkçe
  5. Vietnam / Việt Nam
  6. Indonesia / Indonesian
  7. Thailand / ภาษาไทย
  8. Spain / Español (España)
  9. Portugal / Português
  10. France / Français
  11. Poland / Polski
  12. Kazakhstan / Pусский
  13. Germany / Deutsch
  14. Italy / Italiano
  15. Brazil / Português(Brazil)
  16. LATAM / Español (América Latina))

    技术盛宴 | 浅谈LLM推理性能的影响因子——HBD Size

    作为GenAl时代的全栈服务专家,尊龙时凯网络致力于为企业提供覆盖laaS到PaaS的全栈产品及解决方案。

    • 发布时间:2024-05-31

    • 点击量:

    • 点赞:

    分享至

    我想评论

    随着LLM(大语言模型)技术的飞速发展,市面上出现越来越多的AGI应用,对话式机器人作为最普遍的应用已经深入普罗大众的工作和学习中。最显著的改变就是从搜索引擎查询问题,转变为打开多款对话式机器人的APP进行查询,然后再综合多个解答进行自己的判断。

    那么,“对话式机器人”这类应用是如何根据用户的输入,来进行有逻辑的高质量内容输出的呢?其本质是:先通过大量的“训练”任务使其具备能够理解用户语言、逻辑和思维的能力,再通过用户给出的输入进行“推理”运算,进而输出对应的内容与用户进行高质量互动。 

    一、训练与推理的关系

    LLM(大型语言模型)的训练和推理是模型生命周期中的两个关键阶段,我们可以类比成理论学习和应用实践的结合。

    1.训练阶段(学习阶段):

    该阶段是模型构建的基础,决定了模型的质量和应用效果。

    1)在训练阶段,LLM通过大量的文本数据学习语言的模式、语法、语义和上下文信息。

    2)使用深度学习技术,如神经网络,模型在训练过程中不断优化其参数,以提高对文本数据的建模能力。

    2.推理阶段(应用阶段):

    该阶段不涉及参数更新,将训练学到的知识应用到实际问题上。

    1)推理阶段是指使用训练好的模型对新的输入数据进行处理,以生成输出或做出决策的过程。

    2)在推理过程中,模型会接收新的文本输入,预测或生成文本,执行翻译,或者完成其他特定的NLP任务。

    3.差异性:

    1)目标:训练和推理都旨在实现模型的最佳性能,但训练侧重于学习,推理侧重于应用。

    2)可用性:训练阶段的效果会直接影响推理阶段结果的可用性。

    3)资源消耗:训练通常需要大量的计算资源和数据,而推理则更注重实时性、成本和可扩展性。

    4)持续学习:推理阶段的反馈可以用于改进模型,通过持续学习或增量学习的方式,使模型适应新的数据和场景。
     

    二、推理的过程

    主流 LLM 基本都是 Decoder Only 的 Transformer 模型,推理过程可以分为两个阶段:

     

    Transformer 模型结构图 

    Transformer 模型结构图

     

    1.“预填充(Prefill)”阶段:

    Prefill阶段是模型根据用户输入的Tokens通过一次前向传播来生成第一个输出 Token。在前向传播过程中,输入的Tokens之间以并行方式执行运算,所以具备比较高的执行效率。

    2.“解码(Decoding)”阶段:

    在Prefill阶段生成第一个 Token(A)之后开始进入Decoding阶段。在Decoding阶段中,解码器会以自回归的方式逐个生成输出序列的词元。在每一步,它基于已生成的词元和之前的状态来预测下一个词元,直到生成一个特殊的 Stop Token(或者满足用户设置的某个限制条件,比如超过一定的长度) 生成过程就会停止。Decoding阶段需要执行多次前向传播,而且只能以串行的方式执行,因此效率相对比较低。

    两个阶段对算力芯片的要求也不同,Prefill阶段为计算密集型,适合选用高算力 GPU;Decoding阶段为访存密集型,相应的可以使用算力不是特别强而访存带宽比较大的 GPU。

     

    三、推理的评估指标

    针对 LLM 推理服务通常有两种调用模式,如下表所述:

     

    针对 LLM 推理服务通常有两种调用模式

     

    类似ChatGPT 一样的 Streaming 方式,目前应用比较广泛,主要因为可以给用户带来更好的交互体验,不需要长时间等待即可获得系统反馈,因此本文以Streaming模式下的评估指标来进行分析。

    1.首个词元生成时间(Time To First Token,简称TTFT):

    在用户输入查询的内容后,模型生成第一个输出token所需要的时间。

    2.单个输出词元的生成时间(Time Per Output Token,简称TPOT):

    推理系统根据用户请求生成后续词元所需要的平均时间。在人机实时交互的过程中,让用户得到快速的响应至关重要,延时较高会让客户陷入较长的等待时间,大大影响交互体验,但只要生成速度大于人类的阅读速度就能获得很好的用户体验。

    3.Decoding吞吐:

    通常用来衡量推理服务器在decoding阶段的输出效率,即decoding阶段的所有Token数量除以该阶段所需要的耗时。

    4.单卡吞吐:

    通常用来衡量推理服务器完成本次推理任务的输出效率,即在Prefill阶段以及decoding阶段总共生成的Token数量除以整个推理任务所需要的耗时。

     

    四、推理性能的影响因素

    影响LLM推理性能的因子有许多,本文重点分析不同HBD Size域在不同集群规模以及不同计算精度下对推理性能的影响。

    1.计算精度:

    指浮点数(Floating Point Numbers)的不同精度,比如FP16、FP8、FP4。

    2.实例规模:

    完成本次推理任务所需要的GPU卡数量。

    3.HBD (High Bandwidth Domain)Size:

    一个推理实例内,通过独立的高速通道形成全联接的GPU卡的数量。(跨服务器通过交换柜互联也算同一个HBD)

    我们基于理论建模的和仿真算法,通过控制变量的对比方式,在保证单一因子变化的前提下去分析计算精度、集群规模以及HBD Size对推理性能的影响。

    测试模型采用B200算力卡进行模拟仿真,基于QWen 110B的基础上扩展16个MoE专家,Batch Size为16,Token输入序列为32K,同时假设HBD内通过1.8TB/s的双向带宽互联。

     

    HBD (High Bandwidth Domain)Size 

    如上图数据所示,发现以下现象:

    64张B200的GPU卡规模下,组成该推理实例时。在上述模型推理中,HBD Size从8提升至64,TTFT最大下降46%,单卡吞吐最大提升41%。

    因此可以得出结论:HBD Size对推理性能有正面作用,即高速互联的GPU卡数量越多,推理性能越强。

     

    HBD (High Bandwidth Domain)Size

     

    如上图数据所示,发现以下现象:

    128张B200卡的GPU规模组成推理实例时,在上述模型推理中,HBD Size从8提升至128,TTFT最大下降57%,单卡吞吐最大提升59%;同样证明HBD Size的提升对推理性能有正面作用。

    对比上述两份数据,发现以下现象:

    从64卡扩展到128卡规模时,TTFT指标从下降46%变化为下降57%,收益更明显;再如单卡吞吐从提升41%变化为提升59%,收益更明显。

    因此可以得出结论:当采用更大规模GPU卡时,HBD Size扩增时性能收益提升趋于明显。

     

    HBD (High Bandwidth Domain)Size

     

    从上述表格数据中,我们发现以下现象:

    同为128卡规模下,FP16精度下随着HBD Size提升,Prefill与Decoding阶段的通信时间占比逐步下降,这种现象在FP8和FP4精度下也同样存在。

    当采用更低计算精度时,FP16精度下从8卡提升到128卡,单卡吞吐提升倍率为1.36;而在FP4精度下从8卡提升到128卡,单卡的吞吐提升倍率为1.63。

    因此可以得出结论:在更低的计算精度下,HBD Size扩增时性能收益提升趋于明显。

    五、结论

    1、在相同集群规模和同样的计算精度下,随着HBD Size的提升,推理性能也随之提升。具体表现为TTFT降低,Decoding吞吐及单卡吞吐提升。

    2、在相同计算精度下,集群规模越大,HBD Size的提升收益愈发明显。具体表现为TTFT降低幅度更大,Decoding吞吐及单卡吞吐提升幅度更大。

    3、在相同集群规模下,计算精度越低,HBD Size的提升收益愈发明显。具体表现为Prefill与Decoding阶段的通信时间占比逐步下降幅度越慢,单卡吞吐提升倍率幅度越大。

    尊龙时凯网络,作为GenAI时代的全栈服务专家,致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决方案。我们的产品覆盖高性能网络与GPU算力优化调度,旨在通过创新技术解决方案,帮助客户实现生产效率的飞跃与运营成本的优化。我们坚信,通过我们的努力,能够为客户打造一个更加智能、高效和可靠的未来。让我们携手,共同探索GenAI时代的每一个机遇。

    相关标签:

    点赞

    更多技术博文

    任何需要,请联系我们

    返回顶部

    收起
    请选择服务项目
    关闭咨询页
    售前咨询 售前咨询
    售前咨询
    售后服务 售后服务
    售后服务
    意见反馈 意见反馈
    意见反馈
    更多联系方式