vLLM推理归档 - 小码的CheatSheet

大模型推理优化终极秘籍：解锁vLLM到TGI的部署效率革命，提速50%不是梦！

Tim

0

47

2025-06-19

.NET, AI艺术, TGI框架, vLLM推理, 部署效率

在人工智能领域，大型语言模型（LLM）的推理部署正面临严峻挑战：模型规模爆炸式增长，导致延迟飙升、资源消耗剧增，传统方法如静态批处理或简单量化已无法满足实时需求。据统计，典型千亿参数模型的推理延迟可高达数秒，严重阻碍了生产环境应用。针对这一痛点，业界涌现出两大开源框架——vLLM（Very...

Llama 3 爆显存？手把手教你8G显卡跑130亿私有AI助手

Tim

0

51

2025-06-02

.NET, 3部署, CodeLlama, RAG应用, vLLM推理, 有AI助手, 消费级显卡AI, 源模型实战

大型语言模型（LLM）的私有化部署常被视为高端GPU的专属领域。然而，Meta开源的Llama 3系列模型，特别是其80亿（8B）与700亿（70B）参数版本，凭借卓越的性能和开放的生态，为消费级显卡部署提供了可能。本文将深入剖析在显存资源有限的消费级显卡（如NVIDIA RTX 3060...