首次操作时,请先完成账号的注册、实名认证和账户充值。详情请参见新手指引

本文以部署一个 ComfyUI:SD3 为例,介绍如何创建一个 Serverless Endpoint。

1. 准备容器镜像

您需要提前将运行环境打包成 Docker 镜像,并上传至镜像仓库。支持指定公共镜像仓库地址私有镜像仓库地址(需提供镜像仓库认证凭证)。

  • 您可以将镜像上传至 Docker Hub,目前平台已针对该站点提供加速服务。详情请参见使用加速服务
  • 您也可以将镜像上传至平台的私有镜像仓库,以便统一管理镜像。详情请参见管理容器镜像

本示例使用 ComfyUI:SD3 模型镜像:image.ppinfra.com/prod-gpucloudpublic/comfyui:sd3,您可以直接使用该镜像地址。

2. 选择实例规格

目前 Serverless Endpoint 仅支持以下两种 GPU 实例规格:

  • RTX 4090 24GB
  • RTX 3090 24GB

如有更多需求,请联系我们

3. 创建云存储(可选)

如果有共享存储和持久化存储的需求,可以在存储管理页面创建云存储,然后在创建实例时为容器挂载云存储。详情请参见管理云存储

4.创建 Endpoint

  1. 进入Serverless GPUs 页面,选择规格,单击「创建 Endpoint」。
  2. 完成 Endpoint 的参数配置。
  • Endpoint 名称:用于标识 Endpoint。系统会自动生成一个默认名称,支持自定义。

  • 应用名称:应用名称是 Endpoint URL 的组成部分,默认为 Endpoint ID,支持自定义(仅支持小写字母、数字和 - )。

  • Worker 配置

    配置项说明
    最小 Worker 数Endpoint 最少需要保留的实例数。设置最小实例数可以帮助减少冷启动时间。如果设置为0,则服务没有请求时不会保留任何实例,这可能会导致无法快速响应后续的请求,因此对于响应时间要求较高的场景,请谨慎设置为0。
    最大 Worker 数Endpoint 最大可以扩展的实例数。当服务请求增加,触发自动扩容机制时,会增加 Worker 数,因此限制最大 Worker 数可以帮助控制成本。
    空闲超时(秒)当触发自动缩容机制而准备释放 Worker 时,在指定的时间内(即空闲超时),平台会为您保留该 Worker ,以便快速应对后续可能上涨的请求量。请注意,平台会收取这段时间对应的 Worker 费用。
    最大并发数每个 Worker 能处理的请求最大并发数,当并发数超过最大值时,会将请求调度到其他 Worker 上。如果所有 Worker 并发都被打满,则会将请求存放到队列中等待被执行。
    GPUs / Worker每个 Worker 占用的 GPU 卡数。
    CUDA 版本支持指定 CUDA 版本。
  • 弹性策略

    • 队列延迟策略:根据队列中请求的等待时间调整 Worker 数量。此时您需要配置队列等待时间,当队列中请求的等待时间超过该值时,会触发自动扩容,小于该值时,会触发自动缩容。
    • 队列请求数策略:根据队列中的请求数调整 Worker 数量。此时您需要配置队列最大请求数,当队列中的请求数超过该值时,会触发自动扩容,小于该值时,会触发自动缩容。

    缩容时,系统会自动结合空闲超时来决定 Worker 具体的释放时间。

  • 镜像配置

    • 镜像地址:要部署的镜像的地址。例如 vllm/vllm-openai:latest
    • 镜像仓库凭证:如果指定的镜像为私有镜像,需要配置镜像仓库访问凭证才能拉取镜像。您可以在安全凭证管理页面创建凭证。
    • HTTP 端口:Worker 对外开放的 HTTP 端口。
    • 容器启动命令:容器启动时执行的命令。
  • 存储配置

    • 系统盘:每个 Worker 的 系统盘容量大小。
    • 本地存储:按需配置本地存储,包括本地盘容量和挂载路径。
    • 云存储:如果要挂载云存储,请选择云存储。详情请参见管理云存储
  • 其他

    • 健康检查路径:使用 HTTP 请求方式进行健康检查时,要检测的路径。通过判断返回的状态码是否为 200 来决定是否将请求转发到该 Worker 上。
    • 环境变量:设置服务所需的环境变量,以便在 Worker 启动时自动初始化。 示例如下:
      • HUGGING_FACE_HUB_TOKEN={您在 Hugging Face 上的 Access Token(有读权限)}
      • HTTP_PROXY=http://172.17.0.1:1081
      • HTTPS_PROXY=http://172.17.0.1:1081
  1. 确认费用信息,单击「一键部署」。

5.访问服务

  1. Serverless GPUs 页面,找到新创建的 Endpoint,确认状态已变为服务中。
  2. 确认 Endpoint 中至少有一个 Worker 处于运行中。
  3. 复制 URL,使用curl命令访问部署好的服务。