Ollama框架环境变量与CLI命令详解
Ollama框架、环境变量设置、CLI命令、本地运行大型语言模型、模型管理、性能调度、调试日志 图文教程

Ollama框架环境变量与CLI命令详解

AI中国 AI中国 4 months ago 94 阅读
4.8 (1280 Rating)
15,328 People learned

前言:作为一款强大的本地运行大型语言模型(LLMs)的框架,Ollama 为开发者、数据科学家和技术用户提供了更大的控制权和灵活性。本文介绍 Ollama 的环境变量设置,常用 CLI 命令及其运行示例。环境变量用于配置 Ollama 的运行环境和行为,CLI 命令用于与本地大模型的交互和管理。

环境变量设置

环境变量用于配置 Ollama 的运行环境和行为,以下是一些常见的环境变量及其用途:

网络配置

  • OLLAMA_HOST:定义 Ollama 服务器的协议和主机地址。默认为 127.0.0.1:11434,仅本机地址可通过 11434 端口访问该服务。可以通过此变量自定义 Ollama 服务的监听地址和端口,例如设置为 0.0.0.0:8080 ,可允许其他电脑访问 Ollama(如:局域网中的其他电脑)。默认使用 http 协议。若要使用 https 协议,可设置为:0.0.0.0:443
  • OLLAMA_ORIGINS:配置允许跨域请求的来源列表。默认包含 localhost127.0.0.10.0.0.0 等本地地址以及一些特定协议的来源。通过设置此变量,可以指定哪些来源可以访问 Ollama 服务,例如 OLLAMA_ORIGINS=*,https://example.com 允许所有来源以及 https://example.com 的跨域请求。

模型管理

  • OLLAMA_MODELS:指定模型文件的存储路径。默认为用户主目录下的 .ollama/models 文件夹。通过设置此变量,可以自定义模型文件的存储位置,例如 OLLAMA_MODELS=/path/to/models 将模型存储在指定的路径下。
  • OLLAMA_KEEP_ALIVE:控制模型在内存中的存活时间。默认为 5 分钟。负值表示无限存活,0 表示不保持模型在内存中。此变量用于优化模型加载和运行的性能,例如 OLLAMA_KEEP_ALIVE=30m 可以让模型在内存中保持 30 分钟。
  • OLLAMA_LOAD_TIMEOUT:设置模型加载过程中的超时时间。默认为 5 分钟。0 或负值表示无限超时。此变量用于防止模型加载过程过长导致服务无响应,例如 OLLAMA_LOAD_TIMEOUT=10m 可以将超时时间设置为 10 分钟。
  • OLLAMA_MAX_LOADED_MODELS:限制同时加载的模型数量。默认为 0,表示不限制。此变量用于合理分配系统资源,避免过多模型同时加载导致资源不足,例如 OLLAMA_MAX_LOADED_MODELS=4 可以限制同时加载 4 个模型。
  • OLLAMA_MAX_QUEUE:设置请求队列的最大长度。默认为 512。此变量用于控制并发请求的数量,避免过多请求同时处理导致服务过载,例如 OLLAMA_MAX_QUEUE=1024 可以将队列长度设置为 1024。
  • OLLAMA_MAX_VRAM:设置 GPU 显存的最大使用量(以字节为单位)。默认为 0,表示不限制。此变量用于控制 GPU 资源的使用,避免显存不足导致的问题,例如 OLLAMA_MAX_VRAM=8589934592 可以将显存限制为 8GB。
  • OLLAMA_GPU_OVERHEAD:为每个 GPU 预留的显存(以字节为单位)。默认为 0。此变量用于确保每个 GPU 有一定的显存余量,避免显存不足导致的问题,例如 OLLAMA_GPU_OVERHEAD=1073741824 可以为每个 GPU 预留 1GB 的显存。

性能与调度

  • OLLAMA_NUM_PARALLEL:设置同时处理的并行请求数量。默认为 0,表示不限制。此变量用于优化服务的并发处理能力,例如 OLLAMA_NUM_PARALLEL=8 可以同时处理 8 个并行请求。
  • OLLAMA_SCHED_SPREAD:允许模型跨所有 GPU 进行调度。默认为 false。启用此变量可以提高模型运行的灵活性和资源利用率,例如 OLLAMA_SCHED_SPREAD=1 可以启用跨 GPU 调度。

调试与日志

  • OLLAMA_DEBUG:启用额外的调试信息。默认为 false。开启此变量可以获取更多的调试日志,帮助排查问题,例如 OLLAMA_DEBUG=1 可以启用调试模式。
  • OLLAMA_NOHISTORY:禁用 readline 历史记录。默认为 false。启用此变量可以避免保存命令历史记录,例如 OLLAMA_NOHISTORY=1 可以禁用历史记录。
  • OLLAMA_NOPRUNE:在启动时不清理模型文件。默认为 false。启用此变量可以保留所有模型文件,避免不必要的清理操作,例如 OLLAMA_NOPRUNE=1 可以禁用模型文件的清理。

特性开关

  • OLLAMA_FLASH_ATTENTION:启用实验性的 Flash Attention 特性。默认为 false。此变量用于测试和使用新的注意力机制特性,例如 OLLAMA_FLASH_ATTENTION=1 可以启用 Flash Attention。
  • OLLAMA_MULTIUSER_CACHE:为多用户场景优化提示缓存。默认为 false。启用此变量可以提高多用户环境下的缓存效率,例如 OLLAMA_MULTIUSER_CACHE=1 可以启用多用户缓存优化

代理设置

  • HTTP_PROXY:设置 HTTP 代理服务器地址。此变量用于配置 Ollama 在进行 HTTP 请求时使用的代理服务器,例如 HTTP_PROXY=http://proxy.example.com:8080 可以让 Ollama 使用指定的 HTTP 代理。
  • HTTPS_PROXY:设置 HTTPS 代理服务器地址。此变量用于配置 Ollama 在进行 HTTPS 请求时使用的代理服务器,例如 HTTPS_PROXY=https://proxy.example.com:8080 可以让 Ollama 使用指定的 HTTPS 代理。
  • NO_PROXY:设置不使用代理的地址列表。此变量用于指定哪些地址在进行请求时不使用代理,例如 NO_PROXY=localhost,example.com 可以让 Ollama 在访问 localhost 和 example.com 时不使用代理.

Ollama 还提供了与硬件、底层库相关的环境变量,详情可查看 Ollama 源码。

CLI 命令

Ollama 常用的 CLI 命令见下表:

命令 用途
ollama serve 在本地系统上启动 Ollama。
ollama create <new_model> 从现有模型创建一个新模型,用于定制或训练。
ollama show <model> 显示特定模型的详细信息,例如其配置和发布日期。
ollama run <model> 运行指定的模型,使其准备好进行交互。
ollama pull <model> 将指定的模型下载到您的系统。
ollama list 列出所有已下载的模型。
ollama ps 显示当前正在运行的模型。
ollama stop <model> 停止指定的正在运行的模型。
ollama rm <model> 从您的系统中移除指定的模型。

在终端,输入上面的命令 + '-h',可查看具体命令的帮助文档(如,ollama show -h, 可查看 show 命令的帮助文档)。下面列出每个命令的具体用法和示例。

官方下载地址:Download Ollama on Windows

Rating

4.8 (1280 Rating)

评论 (11)

用户头像

Ollama配置真详细,新手也能轻松上手!

用户头像

这配置,我感觉我的生活从此充满可能!

用户头像

这配置,我感觉Ollama是不是在跟我说话?

用户头像

这配置,我感觉未来一片光明,Ollama要统治世界!

用户头像

这配置,我感觉自己要开始学习魔法了

用户头像

这配置,我感觉世界都安静了,只有Ollama

用户头像

这配置,我感觉自己也变成了一个Ollama大师

用户头像

我感觉自己也想去摸摸它,看看它在想什么

用户头像

这简直是神降临了,配置简直是完美到极致

用户头像

太棒了,像个温柔的引导者,让人感觉没啥压力

睡觉动画