产品简介
Serverless GPUs
Serverless GPUs 是专为 AI 推理场景设计的 GPU 弹性容器云产品。它提供了弹性伸缩和负载均衡的按需算力,您仅需指定容器镜像地址并根据您的业务场景稍作配置,即可快速部署一个 AI 推理服务。
功能特性
-
按需付费
仅需为 GPU 容器实例的实际运行时长付费,按秒计费,避免资源闲置,有效降低成本。
-
秒级启动
通过 GPU 容器实例保留、镜像预热以及高性能硬件等技术,能实现秒级冷启动,从容应对流量高峰。
-
弹性伸缩
支持弹性伸缩能力,可以在业务流量高峰期自动快速扩容,流量低谷期自动缩容。在保证服务稳定性的同时,尽可能为您节省成本。
-
负载均衡
内置高效负载均衡算法,确保请求均匀分布到各 GPU 容器实例。
-
实时日志
提供完整的日志功能,支持查询实时日志流,帮助您快速发现并解决潜在问题。
产品架构
一个 Serverless Endpoint 包含了多个Worker,以及弹性伸缩器、负载均衡器等组件,并且可以对外提供 URL 访问。
- Worker:用于处理具体请求的 GPU 容器实例,一个 Worker 对应一个 GPU 容器实例。
- 弹性伸缩器:基于配置的弹性策略进行弹性伸缩,在流量高峰时自动扩容,流量低谷时自动缩容。
- 负载均衡器:自动进行健康检查和负载均衡,确保请求均匀分布到 Worker。
产品计费
采用按量计费的方式,对实际使用的 Worker、系统盘、云存储等进行计费。详情请参见Serverless GPUs 计费说明。