生产级AI部署归档 - 小码的CheatSheet

边缘AI破解工业质检难题：ONNX Runtime落地实战深度揭秘

Tim

2025-03-28

tech

.NET, ONNX, Runtime, 生产级AI部署

在工业制造领域，质量检测环节长期面临着检测精度、响应速度与部署成本的三重挑战。传统基于规则算法的视觉检测系统面对复杂缺陷类型时识别率不足60%，而云端AI方案又难以满足产线实时性要求。本文提出基于ONNX...

大模型推理成本直降80%：基于vLLM的服务部署实战手册

Tim

2025-03-24

tech

.NET, AI成本控制, vLLM部署, 生产级AI部署

在AI大模型应用落地的关键阶段，推理成本已成为制约技术商业化的核心瓶颈。某头部科技公司实测数据显示，175B参数模型单次推理的硬件成本高达0.12美元，这迫使行业必须寻求革命性的优化方案。本文将以vLLM框架为核心，深入解析通过技术创新实现推理成本指数级下降的完整技术路径。一、vLLM核心技术突破解