计费

如何查看 GPU 容器实例的价格?

您可以在价格计算器页面查看 GPU 实例的价格及其配置项(系统盘、云存储等)费用。

算力市场显示的为参考价格,具体以控制台实际下单结果为准。

GPU 容器实例从什么时候开始计费?

从实例拉取镜像阶段开始计费。

实例

实例停止后为什么无法再开机?

停止实例后,实例所属资源会被释放,如果实例所属资源已被抢占,则会造成无法再开机的情况。如果实例本地盘没有数据,您可以基于该实例保存镜像,然后基于保存的镜像来创建新的实例。

保存实例镜像后,系统盘的数据会随镜像被一起保存,而本地盘的数据不会。对于持久性要求比较高的数据,建议使用云存储保存。

实例状态异常,如何处理?

请先查看日志和错误信息,然后根据日志和报错进行处理。如果无法解决,可联系我们

如何查看实例的显卡使用情况?

由于 Docker 容器的 PID 隔离限制,无法使用 nvidia-smi 命令查看进程。您可以安装 py3nvml 库,通过 Python 脚本查看进程占用显卡情况:

# 安装 py3nvml 库
$ pip install py3nvml
# 查看显卡使用情况
$ (base) root@ab9beba1ecf*****:~# py3smi
Fri Sep 20 12:17:39 2024
+-----------------------------------------------------------------------------+
| NVIDIA-SMI                        Driver Version: 550.54.14                 |
+---------------------------------+---------------------+---------------------+
| GPU Fan  Temp Perf Pwr:Usage/Cap|        Memory-Usage | GPU-Util Compute M. |
+=================================+=====================+=====================+
|   5 35%   28C    8   11W / 450W |   353MiB / 24564MiB |       0%    Default |
+---------------------------------+---------------------+---------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
| GPU        Owner      PID      Uptime  Process Name                   Usage |
+=============================================================================+
+-----------------------------------------------------------------------------+

具体安装及详细使用方法,请参考py3nvml 库官方文档

容器

容器内如何启动加速?

进入容器后,运行source /etc/proxy/net_proxy即可启动加速。

容器运行时显存不足,如何处理?

一般是由于模型过大,无法加载导致 OOM。请确认显存使用情况。

镜像

是否支持自定义镜像?

支持。在创建和升级实例时,可以指定自定义镜像。如果镜像存放在私有镜像仓库,您需要提供镜像仓库认证凭证才可以拉取。

保存镜像失败,怎么办?

任务管理页面,找到对应的保存镜像任务,您可以通过查看日志来确认问题。

一般出现此问题是由于镜像仓库认证有误。如果要保存镜像到指定的私有镜像仓库,需要提供该仓库的认证信息,您可以在安全凭证管理页面添加和确认镜像仓库认证信息。

如果无法解决,可联系我们

官方模板不符合要求,怎么办?

您可以自行构建镜像或者直接使用 NVIDIA、DockerHub 的官方镜像。如需更多支持,也可以联系我们

CUDA

没有符合要求的 CUDA 版本,怎么办?

CUDA 版本向前兼容。例如,如果您的服务依赖 12.1 版本的 CUDA,可以选择带有大于或等于 12.1 版本 CUDA 的实例规格。

如何查看平台支持的最大 CUDA 版本?

您可以在算力市场页面,通过「支持CUDA版本」下拉列表确认支持的 CUDA 版本信息。

网络

如何配置端口映射?

  • 创建实例时,可以配置对外 HTTP 端口和 TCP 端口。
  • 对于已有实例,支持修改对外 HTTP 端口和 TCP 端口。

能否支持独享 IP /独享带宽/专线?

可以支持。目前平台暂未对外开放这个能力。如有需求,请联系我们

SSH 连接

实例处于运行中,为什么无法看到 SSH 登录信息?

一般是由于容器发生 OOMkilled,不影响运行。您可以先通过 Web Terminal 进入容器。

基于 SSH 连接的 VS Code 无法使用/连接不稳定/连接时间太短,怎么办?

建议在容器中安装标准 sshd。

当前派欧云平台提供的官方模板已经默认安装。如果是私有镜像,需自行安装 sshd 并配置 22 端口映射。

当前平台为了保证平台能力不侵入用户容器,SSH 和 Web Terminal 是用一个 Sidecar 方式提供登录能力,所以容器中并没有真正启动 sshd 服务。您可以后续在容器中配置启动 sshd,两者之间并不冲突。

存储

系统盘、本地盘和云存储有什么差异?

  • 系统盘
    • 不支持动态扩容,只能在创建实例时指定容量。
    • 挂载目录为/(不支持自定义)。
    • 保存镜像时会保存数据。
    • 支持 130GB 的免费额度,超过免费额度后会对超出部分收费。详情请参见系统盘计费说明
  • 本地盘
    • 支持动态扩容。
    • 默认挂载目录为/workspace(可自定义)。
    • 保存镜像时不会保存数据。
    • 读写速度与系统盘一致。
  • 云存储
    • 支持动态扩容。
    • 默认挂载目录为/network(可自定义)。
    • 云存储具有独立的生命周期,即使删除实例,云存储的数据依然存在。
    • 读写速度整体比系统盘或本地盘慢(以具体使用情况为准)。
    • 云存储按照容量和使用时长单独收费。详情请参见云存储计费说明

单个实例是否可以挂载多个云存储?

控制台操作时,单个实例目前智能挂载一个云存储。如果有多目录等复杂结构的需求,可以采用 API 操作。使用 API 创建实例时,可以挂载多个云存储。