本地LLM运行平台,提供类ChatGPT界面,支持GGUF格式模型,GPU加速开箱即用。LM Studio让本地大模型运行变得前所未有的简单。
5600 条评价
点击了解该能力的详细应用场景
查看该能力在实际使用中的表现
探索该能力如何提升工作效率
了解该能力的最新更新和优化
提示: 大多数AI工具支持API接入,您可以根据需要在第三方应用或自动化工作流中集成使用。 该工具提供免费版本,建议先体验再决定是否付费升级。
最新更新
访问 lmstudio.ai 下载对应系统版本(macOS/Windows/Linux)。macOS版需Apple Silicon或Intel芯片,Windows版需要支持Vulkan的显卡。安装后首次启动约5-10分钟初始化
内置模型浏览器直接搜索如Llama3.2、Mistral、Qwen2.5、DeepSeek系列。点击Download下载到本地,LM Studio自动管理模型文件存储位置。支持GGUF格式模型导入
选择模型后点击Chat开始类似ChatGPT的图形界面聊天。点击Server标签可一键启动本地API服务器,自动提供OpenAI兼容接口 http://localhost:1234/v1/
不想联网或订阅付费API的用户,可用LM Studio加载Llama3.2/Qwen2.5等模型,获得媲美在线服务的聊天体验,支持多轮对话、对话历史保存
启动内置的OpenAI兼容服务器后,无需修改代码即可让现有LangChain/LlamaIndex应用连接本地模型。支持completion和chat两种接口
加载CodeLlama或DeepSeek-Coder模型,用于代码补全、重构、解释。适合飞机上、内网等无网络环境的开发工作
LM Studio提供推理速度(Token/s)、显存占用等性能指标,可方便地在同一界面切换不同模型进行对比评测,选择最适合硬件配置和任务的模型
硬件配置:Mac M系列建议16GB+统一内存,NVIDIA显卡建议8GB+显存。首次加载大模型会缓存到GPU,后续启动更快
上下文长度:Qwen2.5、Llama3.2支持128K上下文,但在低配置机器上长上下文会显著变慢,建议按硬件能力选择
量化版本选择:Q5_K_M平衡质量和速度,Q8_0质量最高但慢,Q4_K_S最快但质量稍差。一般推荐Q5_K_M
GPU卸载:Settings中可调整GPU卸载层数(0-100),更多层到GPU加速推理但占更多显存,建议从50开始调试