一、Ollama简介

Ollama是本地大模型运行工具，一键部署Llama 2、Qwen、DeepSeek、Mistral等开源模型，支持GPU加速，完全免费使用。

核心特点

一键部署：简单命令即可运行模型

GPU支持：自动使用NVIDIA/AMD GPU加速

模型管理：轻松下载、切换、删除模型

REST API：提供API接口供应用调用

跨平台：支持macOS、Linux、Windows

二、安装部署

macOS安装

使用brew安装

brew install ollama
或者下载安装包

https://ollama.com/download

Linux安装

一键安装

curl -fsSL https://ollama.com/install.sh | sh

Windows安装

访问 ollama.com/download

下载Windows预览版

运行安装程序

Docker安装

拉取镜像

docker pull ollama/ollama:latest
运行

docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  ollama/ollama:latest

三、模型使用

常用模型

下载模型

ollama pull llama2          # Llama 2
ollama pull deepseek-coder  # DeepSeek代码模型
ollama pull qwen            # 通义千问
ollama pull mistral         # Mistral
ollama pull neural-chat     # 神经网络对话
查看已下载模型

ollama list
删除模型

ollama rm llama2

运行模型

对话模式

ollama run llama2
指定参数

ollama run deepseek-coder --temperature 0.7 --top-k 50
查看模型信息

ollama show deepseek-coder

硬件要求

模型

参数量

最低内存

推荐配置

Llama 2 7B

8GB

12GB+

Llama 2 13B

13B

16GB

24GB+

Qwen 14B

14B

16GB

24GB+

DeepSeek 33B

33B

32GB

48GB+

四、API调用

启动API服务

macOS/Linux

export OLLAMA_HOST=0.0.0.0
ollama serve
API调用示例

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "Why is the sky blue?"
}'

Python调用

import ollamaresponse = ollama.generate(
    model='llama2',
    prompt='Write a hello world program in Python'
)
print(response['response'])

OpenAI兼容API

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意字符串
)response = client.chat.completions.create(
    model="llama2",
    messages=[{"role": "user", "content": "Hello!"}]
)
print(response.choices[0].message.content)

五、自定义模型

导入GGUF模型

创建Modelfile

echo 'FROM ./my-model.gguf' > Modelfile
创建模型

ollama create my-model -f Modelfile
运行

ollama run my-model

Modelfile配置

FROM llama2
PARAMETER temperature 0.8
PARAMETER top_p 0.9
SYSTEM """
You are a helpful assistant.
"""

六、常见问题

Q: 报错"No such file or directory"？
A: 确保GPU驱动和CUDA正确安装（Linux）。

Q: 速度很慢？
A: 检查是否使用了GPU加速，或尝试更小的模型。

Q: 如何同时运行多个模型？
A: 启动多个ollama serve实例，或使用Docker容器隔离。

Ollama本地大模型运行完整指南

一、Ollama简介

核心特点

二、安装部署

macOS安装

使用brew安装

或者下载安装包

https://ollama.com/download

Linux安装

一键安装

Windows安装

Docker安装

拉取镜像

运行

三、模型使用

常用模型

下载模型

查看已下载模型

删除模型

运行模型

对话模式

指定参数

查看模型信息

硬件要求

四、API调用

启动API服务

macOS/Linux

API调用示例

Python调用

OpenAI兼容API

五、自定义模型

导入GGUF模型

创建Modelfile

创建模型

运行

Modelfile配置

六、常见问题

相关工具

觉得有用？分享给同学！

评论 (0)