### Ollama 服务器相关参数的设置
Ollama 提供了多种环境变量来配置服务器的行为,这些变量可以帮助您优化模型的加载、内存管理、并发请求处理等。以下是一些常用的环境变量及其设置方法:
#### 1. **OLLAMA_HOST**
- **作用**:定义 Ollama 服务器的监听地址。
- **默认值**:`127.0.0.1:11434`
- **设置方法**:设置为 `0.0.0.0` 可以让 Ollama 监听所有可用的网络接口,从而允许外部网络访问。
```bash
export OLLAMA_HOST=0.0.0.0:11434
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_HOST=0.0.0.0:11434"
```
#### 2. **OLLAMA_PORT**
- **作用**:定义 Ollama 服务器的监听端口。
- **默认值**:`11434`
- **设置方法**:如果默认端口被占用,可以设置一个新的端口,例如 `8080`。
```bash
export OLLAMA_PORT=8080
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_PORT=8080"
```
#### 3. **OLLAMA_KEEP_ALIVE**
- **作用**:控制模型在内存中的存活时间。
- **默认值**:`5m`(5分钟)
- **设置方法**:设置为 `24h` 可以让模型在内存中保持24小时。
```bash
export OLLAMA_KEEP_ALIVE=24h
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_KEEP_ALIVE=24h"
```
#### 4. **OLLAMA_MODELS**
- **作用**:指定模型镜像的存储路径。
- **默认值**:`~/.ollama/models`(Linux 和 macOS),`C:\Users\<username>\.ollama\models`(Windows)
- **设置方法**:设置为 `/data/model/ollama_models` 可以将模型存储在 `/data` 目录下。
```bash
export OLLAMA_MODELS=/data/model/ollama_models
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_MODELS=/data/model/ollama_models"
```
#### 5. **OLLAMA_NUM_PARALLEL**
- **作用**:每个模型同时处理的最大并行请求数。
- **默认值**:`1`
- **设置方法**:设置为 `2` 可以让 Ollama 同时处理两个并发请求。
```bash
export OLLAMA_NUM_PARALLEL=2
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_NUM_PARALLEL=2"
```
#### 6. **OLLAMA_MAX_LOADED_MODELS**
- **作用**:可以同时加载的最大模型数量。
- **默认值**:`1`(对于 CPU 推理),`GPU 数量的 3 倍`(对于 GPU 推理)
- **设置方法**:设置为 `2` 可以同时加载两个模型。
```bash
export OLLAMA_MAX_LOADED_MODELS=2
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_MAX_LOADED_MODELS=2"
```
#### 7. **OLLAMA_MAX_QUEUE**
- **作用**:Ollama 在拒绝额外请求之前可以排队的最大请求数。
- **默认值**:`512`
- **设置方法**:设置为 `100` 可以调整队列的最大长度。
```bash
export OLLAMA_MAX_QUEUE=100
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_MAX_QUEUE=100"
```
#### 8. **OLLAMA_ORIGINS**
- **作用**:允许的来源列表,用于跨域访问。
- **默认值**:空
- **设置方法**:设置为 `*` 可以允许所有来源。
```bash
export OLLAMA_ORIGINS=*
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_ORIGINS=*"
```
#### 9. **OLLAMA_DEBUG**
- **作用**:是否开启调试模式。
- **默认值**:`false`
- **设置方法**:设置为 `1` 可以开启调试模式。
```bash
export OLLAMA_DEBUG=1
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_DEBUG=1"
```
#### 10. **OLLAMA_FLASH_ATTENTION**
- **作用**:是否启用 Flash Attention。
- **默认值**:`true`
- **设置方法**:设置为 `0` 可以禁用 Flash Attention。
```bash
export OLLAMA_FLASH_ATTENTION=0
```
或者在 `ollama.service` 文件中添加:
```ini
Environment="OLLAMA_FLASH_ATTENTION=0"
```
### 应用配置
在修改 `ollama.service` 文件后,需要重新加载和重启服务:
```bash
sudo systemctl daemon-reload
sudo systemctl restart ollama
```
### 验证配置
可以使用以下命令查看 Ollama 服务的状态:
```bash
sudo systemctl status ollama
```
通过以上步骤,您可以根据需要配置 Ollama 服务器,优化模型的加载和处理性能。