Serverless GPUs 是专为 AI 推理场景设计的 GPU 弹性容器云产品。它提供了弹性伸缩和负载均衡的按需算力,您仅需指定容器镜像地址并根据您的业务场景稍作配置,即可快速部署一个 AI 推理服务。

功能特性

  • 按需付费

    仅需为 GPU 容器实例的实际运行时长付费,按秒计费,避免资源闲置,有效降低成本。

  • 秒级启动

    通过 GPU 容器实例保留、镜像预热以及高性能硬件等技术,能实现秒级冷启动,从容应对流量高峰。

  • 弹性伸缩

    支持弹性伸缩能力,可以在业务流量高峰期自动快速扩容,流量低谷期自动缩容。在保证服务稳定性的同时,尽可能为您节省成本。

  • 负载均衡

    内置高效负载均衡算法,确保请求均匀分布到各 GPU 容器实例。

  • 实时日志

    提供完整的日志功能,支持查询实时日志流,帮助您快速发现并解决潜在问题。

产品架构

一个 Serverless Endpoint 包含了多个Worker,以及弹性伸缩器、负载均衡器等组件,并且可以对外提供 URL 访问。

  • Worker:用于处理具体请求的 GPU 容器实例,一个 Worker 对应一个 GPU 容器实例。
  • 弹性伸缩器:基于配置的弹性策略进行弹性伸缩,在流量高峰时自动扩容,流量低谷时自动缩容。
  • 负载均衡器:自动进行健康检查和负载均衡,确保请求均匀分布到 Worker。

产品计费

采用按量计费的方式,对实际使用的 Worker、系统盘、云存储等进行计费。详情请参见Serverless GPUs 计费说明

产品使用

您可以通过控制台或者 API 创建和管理 Serverless Endpoint。