Easy 🌍 Regional Pricing
Reliability: High
Ollama本地大模型运行完整指南
Ollama是本地大模型运行工具,一键部署Llama 2/Qwen/DeepSeek等开源模型,支持GPU加速。本文介绍安装配置和模型使用
4.8 (7,800 ratings)
98,000 views Updated 5/18/2024 Ollama本地部署开源模型GPU加速LlamaDeepSeek
一、Ollama简介
Ollama是本地大模型运行工具,一键部署Llama 2、Qwen、DeepSeek、Mistral等开源模型,支持GPU加速,完全免费使用。
核心特点
二、安装部署
macOS安装
使用brew安装
brew install ollama或者下载安装包
https://ollama.com/download
Linux安装
一键安装
curl -fsSL https://ollama.com/install.sh | sh
Windows安装
Docker安装
拉取镜像
docker pull ollama/ollama:latest运行
docker run -d \
-v ollama:/root/.ollama \
-p 11434:11434 \
ollama/ollama:latest
三、模型使用
常用模型
下载模型
ollama pull llama2 # Llama 2
ollama pull deepseek-coder # DeepSeek代码模型
ollama pull qwen # 通义千问
ollama pull mistral # Mistral
ollama pull neural-chat # 神经网络对话查看已下载模型
ollama list删除模型
ollama rm llama2
运行模型
对话模式
ollama run llama2指定参数
ollama run deepseek-coder --temperature 0.7 --top-k 50查看模型信息
ollama show deepseek-coder
硬件要求
| 模型 | 参数量 | 最低内存 | 推荐配置 |
| Llama 2 7B | 7B | 8GB | 12GB+ |
| Llama 2 13B | 13B | 16GB | 24GB+ |
| Qwen 14B | 14B | 16GB | 24GB+ |
| DeepSeek 33B | 33B | 32GB | 48GB+ |
四、API调用
启动API服务
macOS/Linux
export OLLAMA_HOST=0.0.0.0
ollama serveAPI调用示例
curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "Why is the sky blue?"
}'
Python调用
import ollamaresponse = ollama.generate(
model='llama2',
prompt='Write a hello world program in Python'
)
print(response['response'])
OpenAI兼容API
from openai import OpenAIclient = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意字符串
)
response = client.chat.completions.create(
model="llama2",
messages=[{"role": "user", "content": "Hello!"}]
)
print(response.choices[0].message.content)
五、自定义模型
导入GGUF模型
创建Modelfile
echo 'FROM ./my-model.gguf' > Modelfile创建模型
ollama create my-model -f Modelfile运行
ollama run my-model
Modelfile配置
FROM llama2
PARAMETER temperature 0.8
PARAMETER top_p 0.9
SYSTEM """
You are a helpful assistant.
"""
六、常见问题
Q: 报错"No such file or directory"?
A: 确保GPU驱动和CUDA正确安装(Linux)。
Q: 速度很慢?
A: 检查是否使用了GPU加速,或尝试更小的模型。
Q: 如何同时运行多个模型?
A: 启动多个ollama serve实例,或使用Docker容器隔离。