Ollama 是目前全球最流行的本地大语言模型(LLM)运行工具。
它的核心理念可以用一句话概括:“让在本地运行大模型像运行 Docker 容器一样简单”。你不需要懂复杂的 Python 环境配置、不需要手动下载几十 GB 的模型权重文件,只需一行命令,就能在你的笔记本电脑或服务器上跑起 Llama 3、DeepSeek、Qwen 等顶级开源模型。
截至 2026 年,Ollama 已经从一个极客工具进化为拥有官方桌面应用、完善生态系统的成熟平台。以下是关于它的详细介绍:
极简安装与运行
ollama run llama3.3
就这么简单。它会自动下载模型、配置量化版本(通常是 4-bit 量化,节省显存),并启动一个交互界面。模型库丰富 (Model Library)
Modelfile 类似 Dockerfile 的方式定义)。跨平台与硬件加速
开发者友好的 API
localhost:11434)。2025-2026 新特性
ollama run llava "描述这张图片")。curl -fsSL https://ollama.com/install.sh | sh
在终端输入:
# 运行最新的 Llama 3.3 (70B 或 8B 自动根据显存选择)
ollama run llama3.3
# 运行中文最强的 Qwen2.5
ollama run qwen2.5
# 运行深度思考模型 DeepSeek-R1
ollama run deepseek-r1
第一次运行会自动下载模型,之后秒开。
| 命令 | 说明 |
|---|---|
ollama list |
查看本地已下载的模型 |
ollama pull <模型名> |
下载指定模型 |
ollama rm <模型名> |
删除模型以释放空间 |
ollama cp <源> <目标> |
复制/重命名模型 |
ollama show <模型名> |
查看模型的详细信息(参数、许可证等) |
Ollama 默认在后台运行服务。你可以用 curl 测试:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.3",
"prompt": "你好,请介绍一下你自己"
}'
这也意味着你可以将 OpenClaw、Dify、Chatbox 等软件的模型地址设置为 http://localhost:11434,即可实现本地化 AI 应用。
根据 2025 年 3 月国家网络安全通报中心 的警告,Ollama 在默认配置下存在严重安全风险:
0.0.0.0:11434,且无身份验证。✅ 安全加固方案:
OLLAMA_HOST=127.0.0.1 (macOS/Linux 在 launchd 或 systemd 配置中;Windows 在环境变量设置中)。这样只有本机可以访问。很多开发者会纠结选哪个:
| 特性 | Ollama | vLLM |
|---|---|---|
| 定位 | 个人/小团队本地推理 | 企业级高并发生产部署 |
| 易用性 | ⭐⭐⭐⭐⭐ (一行命令) | ⭐⭐ (需配置 Python 环境、参数复杂) |
| 性能 | 优秀 (针对单用户优化) | 极致 (针对高吞吐量、多用户并发优化) |
| 功能 | 全功能 (含 CLI, API, 桌面端) | 专注推理引擎 (通常需配合前端) |
| 适用场景 | 开发测试、个人助手、小型应用 | 大规模 SaaS 服务、高负载 API 网关 |
结论:
Ollama 是本地 AI 时代的“瑞士军刀”。它降低了大模型的使用门槛,让每个人都能在离线、隐私安全的环境下拥有自己的 AI 大脑。只要注意做好网络隔离,它就是目前最棒的本地模型运行方案。