英伟达发布 TensorRT-LLM，可将 H100 推理性能最高提升 8 倍

linx 2024-10-24 09:37:07 1

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

最新消息，IT之家于9月9日披露，全球知名科技公司英伟达近期发布了TensorRT-LLM，这是一款深度定制的开源库。它专为Hopper等先进AI GPU设计，旨在全面提升各类大语言模型的推理速度。英伟达在此次发布中，携手开源社区，借助SmoothQuant、FlashAttention和fMHA等前沿技术，对AI核心进行了优化，显著提升了GPU的运行效率，使得GPT-3（175B）、Llama Falcon（180B）和Bloom模型等都能得到加速处理。

TensorRT-LLM的一大创新是引入了In-Flight batching的调度策略，这一策略使得GPU可以独立于其他任务进行工作流程的进入和退出。通过这一策略，同一GPU在处理大型计算密集型任务时，能够同时动态地处理多个较小规模的查询，极大提升了GPU的处理效能，使H100的吞吐量提升了2倍。

在性能测试环节，英伟达基于A100进行了对比实验，分别测试了H100以及搭载了TensorRT-LLM的H100在GPT-J 6B推理任务上的表现。结果显示，H100的推理速度是A100的4倍，而在启用TensorRT-LLM之后，H100的性能更是达到了A100的8倍。

本文链接：https://www.8btc.com/article/6832422

转载时请务必注明文章来源。

标签:

本文地址: https://www.famikj.com/qkzx/23886.html

文章来源: 酷玩网