中文 EN
Ollama

Ollama

新收录

本地大模型运行工具,一键部署Llama 2/Qwen/DeepSeek等开源模型,支持GPU加速。Ollama是本地运行大语言模型的最佳选择。

核心功能

一键部署
GPU支持
模型管理
REST API
跨平台
热加载模型

评分详情

4.8

7800 条评价

易用性
4.8
功能丰富度
4.6
性价比
4.9

替代工具

能力拓展

一键部署

点击了解该能力的详细应用场景

GPU支持

查看该能力在实际使用中的表现

模型管理

探索该能力如何提升工作效率

REST API

了解该能力的最新更新和优化

提示: 大多数AI工具支持API接入,您可以根据需要在第三方应用或自动化工作流中集成使用。 该工具提供免费版本,建议先体验再决定是否付费升级。

更新说明

最新更新

加载更新信息...

如何使用Ollama

1

安装Ollama客户端

macOS用户下载 dmg 安装包直接安装,Windows用户使用安装包或WSL2环境,Linux用户运行官方安装命令: curl -fsSL https://ollama.com/install.sh | sh。安装完成后在终端运行 ollama --version 验证

2

拉取并运行模型

使用 ollama pull 命令下载模型,如 ollama pull llama3.2 或 ollama pull mistral。首次运行自动下载模型文件到 ~/.ollama/models。常用模型: llama3.2(8B)、mistral(7B)、codellama(代码)、nomic-embed-text(向量)

3

通过API或CLI对话

CLI方式直接运行 ollama run llama3.2 开始对话。支持OpenAI兼容API: 启动服务 ollama serve 后访问 http://localhost:11434/v1/chat/completions。也可配置Ollama作为LangChain、LlamaIndex等框架的后端

适用场景

隐私敏感的本地AI应用

医疗、金融、法律等行业需要数据不出本地时,使用Ollama部署Llama3/Mistral模型,所有对话数据保存在本地机器,配合LangChain构建内部知识问答系统

开发者本地调试LLM应用

使用Ollama的OpenAI兼容API快速原型开发,切换模型只需修改模型名无需改代码。支持流式输出,便于调试ChatGPT插件或Claude API应用

低配电脑体验大模型

7B参数模型如Llama3.2、Qwen2.5可在8GB显存GPU或16GB内存CPU机器运行,4bit量化后更低。适合没有高端显卡但想本地体验大模型的用户

企业内网AI基础设施

在内网服务器部署Ollama作为统一推理服务,支持多用户并发访问。可通过Modelfile自定义模型提示词模板,Docker容器化部署实现快速扩缩容

使用技巧

  • GPU加速:确保安装了NVIDIA驱动+CUDA,Ollama自动识别GPU。Mac M系列芯片自动使用Metal加速,无需额外配置

  • 模型量化:生产环境推荐使用4bit量化模型(如*-q4_0),文件体积减少60%且质量损失最小,显存需求从16GB降至8GB

  • Modelfile自定义:创建 ./Modelfile 编写FROM基础模型+PARAMETER+SYSTEM+TEMPLATE,可打造专属聊天机器人模板

  • 多模型管理:ollama list 查看已下载模型,ollama rm <model> 删除不需要的模型释放空间,模型默认存储在 ~/.ollama/models/

相关工具