书接前文优雅解决国内安装 Ollama 下载慢及卡顿的问题,我们在安装 Ollama 之后,还需要下载模型才能开始 AI 的学习和使用。有些模型并没有上架 Ollama 官方库,需要我们从 Hugging Face 或者 ModelScope 上面下载。AI 的模型动辄十几个 GB 或者几十个 GB,由于网络环境的原因,从这些站点拉取模型往往非常缓慢。

那么我们如何减小因为网络带来的阻碍呢?

CNB.cool 是腾讯云为开发者提供的下一代开发平台,基于 Docker 生态,把环境、缓存、插件一并纳入声明式管理,用更聪明的方式重新定义软件构建。它既是 Git 仓库,也是高性能开发和构建环境(支持 GPU)。 同时,CNB.cool 的仓库原生支持 Docker Model,玩法非常丰富。

模型不落地

所谓“模型不落地”,即直接在云端环境使用高性能 GPU 进行模型的推理和微调,无需将巨大的模型文件拉取到本地电脑。

CNB.cool 提供了 H20 和 L40 的 GPU 资源,单次使用时长最大支持 4 小时。

  • cnb:arch:amd64:gpu:amd64 架构,runner.cpus 固定为 16,GPU 显存最大为 48GB,共享模式
  • cnb:arch:amd64:gpu:H20:amd64 架构,runner.cpus 固定为 32,GPU 显存最大为 96GB,共享模式
  • cnb:arch:amd64:gpu:L40:amd64 架构,runner.cpus 固定为 16,GPU 显存最大为 48GB,共享模式

参考文档:构建节点

内网高速镜像

CNB.cool 在内网通过 ai-models 组织镜像了一系列热点 AI 模型,方便大家在 CNB 环境中通过内网高速拉取。

大家可以多利用 CNB.cool 的搜索功能,根据模型 ID 搜索,直接使用内网镜像的模型资源。如果内网还没有你需要的模型,可以通过 ai-models/issue 提交 Issue 申请下载,一般 1~2 天就会上线。

自建模型镜像

除了使用官方提供的镜像,你也可以自建仓库来镜像你自己需要的模型。CNB.cool 目前对常见的镜像模型平台有流量加速,速度非常可观。

推荐你把镜像的 AI 模型仓库配置成公开仓库,这样也可以方便其他同学使用。

镜像模型不需要性能过高的云原生开发资源,所以可以使用 CPU 环境,并配置一个 2C 的环境来节省核时。

CNB 环境中内置了 cnb-init-from 工具。除了可以帮你迁移 Git 仓库,它同样也能帮你迁移模型仓库,并自动同步 Git LFS 管理的大文件。

1
2
# 将外部 Git 仓库完整镜像到 CNB 仓库
cnb-init-from https://your-git.com/your-repo.git

Docker Model 支持

除了使用 Ollama 玩转模型,Docker Model 也是一个不错的选择。

Docker Model Runner(DMR)是一个开源工具,使您可以像运行容器一样轻松拉取和运行 AI 模型(项目链接)。

它为模型提供统一的运行时(Runtime),类似于 Docker 标准化应用部署的方式。在底层,它使用优化的后端(例如 llama.cpp)以实现顺畅、硬件高效的推理。

一句话交互:

1
docker model run ai/gpt-oss:20B-UD-Q4_K_XL "Hi"

交互式聊天:

1
docker model run ai/gpt-oss:20B-UD-Q4_K_XL

总结

利用 CNB.cool 提供的内网高速网络和高性能 GPU 环境,我们可以优雅地解决 AI 模型下载慢、本地显存不足等痛点,专注于模型本身的微调与推理,提升开发效率。


AIGC 声明:本文使用了 LLM 对文章结构和内容进行了优化,题图使用 Gemini 进行生成。