最新消息,IT之家于9月9日披露,全球知名科技公司英伟达近期发布了TensorRT-LLM,这是一款深度定制的开源库。它专为Hopper等先进AI GPU设计,旨在全面提升各类大语言模型的推理速度。英伟达在此次发布中,携手开源社区,借助SmoothQuant、FlashAttention和fMHA等前沿技术,对AI核心进行了优化,显著提升了GPU的运行效率,使得GPT-3(175B)、Llama Falcon(180B)和Bloom模型等都能得到加速处理。
TensorRT-LLM的一大创新是引入了In-Flight batching的调度策略,这一策略使得GPU可以独立于其他任务进行工作流程的进入和退出。通过这一策略,同一GPU在处理大型计算密集型任务时,能够同时动态地处理多个较小规模的查询,极大提升了GPU的处理效能,使H100的吞吐量提升了2倍。
在性能测试环节,英伟达基于A100进行了对比实验,分别测试了H100以及搭载了TensorRT-LLM的H100在GPT-J 6B推理任务上的表现。结果显示,H100的推理速度是A100的4倍,而在启用TensorRT-LLM之后,H100的性能更是达到了A100的8倍。
本文链接:https://www.8btc.com/article/6832422
转载时请务必注明文章来源。
标签: