移动端推理归档 - 小码的CheatSheet

突破物理边界：解密如何用结构化剪枝将1800亿参数大模型塞入智能手机

Tim

0

37

2025-04-27

.NET, AI艺术, Falcon-180B, 疏专家模型, 移动端推理, 端侧AI

当业界还在为百亿参数模型的部署问题争论不休时，一项革命性的技术突破正在改写移动端AI的规则。最新研究表明，通过创新性的混合维度剪枝方案，Falcon-180B这种参数量达到1800亿的巨型语言模型，竟能在移动设备上实现实时推理。这背后不仅涉及神经网络架构的深度重构，更开创了面向异构计算平台的动态稀疏

端侧AI革命：苹果CoreML如何驯服70亿参数大模型

Tim

0

48

2025-04-27

.NET, 7B, CoreML, Mistral, 移动端推理, 端侧AI

在移动设备上运行70亿参数的大语言模型，曾被认为是天方夜谭。2023年某国际研究机构数据显示，传统移动端推理框架处理Mistral 7B这类模型时，延迟普遍超过15秒/词，内存占用突破12GB。而苹果最新公布的CoreML优化方案，在iPhone 15...

百亿参数模型瘦身术：突破移动端部署的Llama 2压缩实战

Tim

0

43

2025-04-23

.NET, 知识蒸馏, 移动端推理

在移动设备上部署百亿参数级大语言模型，犹如让大象在平衡木上跳舞。本文以Llama...

突破边界：大模型端侧部署实战指南——从参数压缩到推理优化的完整技术路径

Tim

0

51

2025-04-08

.NET, AI艺术, 大模型部署, 移动端推理, 端侧AI

在人工智能技术快速发展的今天，大语言模型在端侧设备的部署已成为行业突破的关键方向。本文将以典型开源模型为研究对象，系统阐述端侧部署的完整技术体系，涵盖从模型压缩到推理加速的全链路解决方案，为工业界提供可落地的实施框架。一、模型压缩关键技术解析（1）动态分级量化方案 ...