中文 EN
简单 🌍 地区定价 可靠性: 高

Ollama本地大模型运行完整指南

Ollama是本地大模型运行工具,一键部署Llama 2/Qwen/DeepSeek等开源模型,支持GPU加速。本文介绍安装配置和模型使用

4.8 (7,800 条评价)
浏览 98,000 更新于 2024/5/18
Ollama本地部署开源模型GPU加速LlamaDeepSeek

一、Ollama简介

Ollama是本地大模型运行工具,一键部署Llama 2、Qwen、DeepSeek、Mistral等开源模型,支持GPU加速,完全免费使用。

核心特点

  • 一键部署:简单命令即可运行模型

  • GPU支持:自动使用NVIDIA/AMD GPU加速

  • 模型管理:轻松下载、切换、删除模型

  • REST API:提供API接口供应用调用

  • 跨平台:支持macOS、Linux、Windows
  • 二、安装部署

    macOS安装

    使用brew安装


    brew install ollama

    或者下载安装包


    https://ollama.com/download


    Linux安装

    一键安装


    curl -fsSL https://ollama.com/install.sh | sh

    Windows安装

  • 访问 ollama.com/download

  • 下载Windows预览版

  • 运行安装程序
  • Docker安装

    拉取镜像


    docker pull ollama/ollama:latest

    运行


    docker run -d \
    -v ollama:/root/.ollama \
    -p 11434:11434 \
    ollama/ollama:latest

    三、模型使用

    常用模型

    下载模型


    ollama pull llama2 # Llama 2
    ollama pull deepseek-coder # DeepSeek代码模型
    ollama pull qwen # 通义千问
    ollama pull mistral # Mistral
    ollama pull neural-chat # 神经网络对话

    查看已下载模型


    ollama list

    删除模型


    ollama rm llama2

    运行模型

    对话模式


    ollama run llama2

    指定参数


    ollama run deepseek-coder --temperature 0.7 --top-k 50

    查看模型信息


    ollama show deepseek-coder

    硬件要求

    模型参数量最低内存推荐配置

    Llama 2 7B7B8GB12GB+

    Llama 2 13B13B16GB24GB+

    Qwen 14B14B16GB24GB+

    DeepSeek 33B33B32GB48GB+

    四、API调用

    启动API服务

    macOS/Linux


    export OLLAMA_HOST=0.0.0.0
    ollama serve

    API调用示例


    curl http://localhost:11434/api/generate -d '{
    "model": "llama2",
    "prompt": "Why is the sky blue?"
    }'

    Python调用

    import ollama

    response = ollama.generate(
    model='llama2',
    prompt='Write a hello world program in Python'
    )
    print(response['response'])

    OpenAI兼容API

    from openai import OpenAI

    client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama" # 任意字符串
    )

    response = client.chat.completions.create(
    model="llama2",
    messages=[{"role": "user", "content": "Hello!"}]
    )
    print(response.choices[0].message.content)

    五、自定义模型

    导入GGUF模型

    创建Modelfile


    echo 'FROM ./my-model.gguf' > Modelfile

    创建模型


    ollama create my-model -f Modelfile

    运行


    ollama run my-model

    Modelfile配置

    FROM llama2
    PARAMETER temperature 0.8
    PARAMETER top_p 0.9
    SYSTEM """
    You are a helpful assistant.
    """

    六、常见问题

    Q: 报错"No such file or directory"?
    A: 确保GPU驱动和CUDA正确安装(Linux)。

    Q: 速度很慢?
    A: 检查是否使用了GPU加速,或尝试更小的模型。

    Q: 如何同时运行多个模型?
    A: 启动多个ollama serve实例,或使用Docker容器隔离。

    相关工具

    觉得有用?分享给同学!