使用核显加速AI模型运行

开源大模型平台Ollama，从 v0.12.6 开始支持 Vulkan ，方便用核显加速AI模型运行。我在一台 12700HK (windows) 的笔记本和一台 i7-7700K (linux) 台式机使用GPU运行AI模型。资源使用率原来CPU 100%，在用GPU运行后，CPU使用基本降为0%。

Intel 从第6代酷睿 (Skylake) 开始提供官方 Vulkan 支持。而 AMD 几乎所有 APU 都支持 Vulkan 。

魔塔社区-英特尔亚太研发有限公司出了一个 Ollama 英特尔优化版，仅支持Windows，Ollama 平台版本跟不上官方的更新，新模型无法运行。既然官方支持核显加速，还是优先选择官方Ollama 。

开启Vulkan

Ollama 默认情况下，Vulkan 未开启，需要设置环境变量：OLLAMA_VULKAN="1"

Windows

如果系统是Windows，可以在资源管理器找到Ollama进程结束。也可以在cmd中用命令查找进程，再用 taskkill 结束。

tasklist | findstr "ollama"

taskkill /PID 进程ID /PID 进程ID
结束进程后，设置环境变量，并重启Ollama：

set OLLAMA_VULKAN="1"

ollama serve

再重新开个CMD窗口，用ollama命令运行AI模型

Linux

如果系统是Linux，可以先关闭Ollama服务，再设置环境变量，并重启Ollama：

# 停止ollama服务
systemctl stop ollama

#设置环境变量
export OLLAMA_VULKAN="1"

# 启动ollama
ollama serve

如果希望以后开机都默认启用Vulkan，可以把环境变量写在服务里。

编辑配置文件

vi /etc/systemd/system/ollama.service.d/environment.conf

加上环境变量

保存后重新加载：

# 刷新配置
systemctl daemon-reload

# 重启服务
systemctl restart ollama

运行效果

我的系统是linux，运行qwen3:4b-instruct 。使用intel_gpu_top查看，可以看到有ollama进程在使用：

建议

使用GPU运行AI模型，确实让CPU算力解脱出来。我在 i7-7700K 上用GPU跑AI模型速不如CPU，在 12700HK GPU上效果和CPU持平，推理会稍快一点。建议Intel 12代及以后的核显使用GPU运行，12代以前的用CPU跑。模型参数量用4b及以下的效果会好些，可以满足一些轻量工作需求。

附上一些Ollama常用命令参数：

ollama run qwen3:4b --verbose --keepalive=1h --think=false

--verbose: 输出日志信息
--keepalive: 在内存中存留时间，默认5m(5分钟)，1h(1小时)。如果设为-1m或-1h，会永久保存，除非手动停止
--think: 默认true，开启推理。非必要情况关闭推理可以更快响应

更多ollama参数见官方文档。