阿里云国际人工智能平台 PAI – AI调度引擎v2.0,实现多级任务抢占

人工智能平台 PAI – AI调度引擎v2.0,实现多级任务抢占
适用客户

互联网公司、大模型创业公司、AI科研机构

新增功能/规格

PAI 基于Quota的调度引擎,通过任务类型分级(如训练/推理/开发 和 优先级)与动态优先级评估算法,触发抢占机制,确保高优先级任务可以快速执行;同时结合AIMaster抢占式回滚技术,被中断任务自动保存中间状态并进入排队队列,资源释放后优先恢复执行,最终实现资源紧张场景下的高效调度。

抢占策略

PAI提供了多级资源配额(Quota)能力,支持您将PAI算力资源按层级进行划分,以便灵活管理和分配资源。此外,您可以启用本级或子级算力抢占功能,允许在当前资源配额中提交的任务抢占同级或子级资源配额的算力资源,从而充分利用算力资源。

资源配额(Quota)层级说明

PAI支持将算力资源按照企业组织架构的层级划分为父子级资源配额,形成如下图所示的树状结构(简称QuotaTree),以实现更灵活和精细的资源管理和分配。这种层级划分不仅使资源管理更加符合企业的实际需求,还提高了资源使用的效率和灵活性。

image

如上图所示,将算力资源拆分为了三级。其中,第一级Quota是第二级Quota的父级,第二级Quota是第一级Quota的子级,第二级和第三级Quota同理;第一级、第二级和第三级内的Quota视为同级。

  • 第一级:Root Quota

  • 第二级:Quota-1、Quota-2…Quota-n

  • 第三级:Quota-1.1、Quota-1.2、Quota-2.1…Quota-n.1

您可以基于组织或项目来划分和使用资源配额(Quota),从而更好地管理和使用各自的任务及资源。当资源紧张时,您可以构建多级资源配额(Quota),开启产品提供的抢占策略,实现资源的最大利用率:

  • 开启本级算力抢占

    • 适用场景:当使用同级资源配额(例如,第二级的Quota-1、Quota-2或Quota-n)创建的任务需要优先执行且资源紧张时。

    • 处理机制:系统将通过灵活的资源调度机制,从同级资源配额中调度算力资源,确保关键任务能够获得所需的计算资源。

  • 开启子级算力抢占

    • 适用场景:当同级资源配额紧缺,不能满足任务需求时。

    • 处理机制:系统将通过灵活的资源调度机制,从子级资源配额中调度算力资源,确保关键任务能够获得所需的计算资源。

开启本级算力抢占

操作方法

在创建或编辑资源配额时,为资源配额开启本级算力抢占。image

当多个任务同时提交到该资源配额时,系统将依据最优策略来分配抢占当前层级的计算资源,具体策略说明如下:

抢占策略

描述

高优先级

支持抢占本级算力资源的任务执行优先级。取值范围:[1,9],支持单选或按范围选择。其中数字越大表示优先级越高,数字越小表示优先级越低。

抢占低优先级

支持被抢占算力资源的任务执行优先级。取值范围:[1,9],支持单选或按范围选择。其中数字越大表示优先级越高,数字越小表示优先级越低。

说明

设置的抢占低优先级需小于设置的高优先级。

可被抢占模块

当资源配额的算力资源不足时,系统支持抢占同级资源配额下指定模块的算力资源,包括DLC、DSW或EAS模块。

使用示例

  • 抢占配置

    按照下图设置抢占配置:image

    • 高优先级:按范围,设置为6~9。

    • 抢占低优先级:按单选,设置为4。

    • 可被抢占模块:选择DLC和DSW。

  • 效果

    当使用该资源配额创建的任务优先级为6~9且算力资源不足时,系统可以抢占同级资源配额下,优先级为4的DLC或DSW模块的算力资源。

开启子级算力抢占

操作方法

在创建或编辑资源配额时,为资源配额开启子级算力抢占。image当使用父级资源配额提交任务且算力资源不足时,系统会按照最优策略回收子级Quota中正在运行的任务的算力资源,以保障父级资源配额任务的运行。具体策略说明如下:

抢占策略

描述

可被抢占优先级

支持被抢占的使用子级资源配额创建的任务执行优先级。取值范围:[1,9],支持按范围进行选择。其中数字越大表示优先级越高,数字越小表示优先级越低。

可被抢占模块

当父级资源配额的算力资源不足时,系统支持抢占使用子级资源配额创建的指定模块的算力资源,包括DLC、DSW或EAS模块。

使用示例

  • 抢占配置

    按照下图设置抢占配置:image

    • 可被抢占优先级:设置为1~3。

    • 可被抢占模块:选择DLC和DSW。

  • 效果

    当使用父级资源配额创建任务且算力资源不足时,系统可以抢占使用子级资源配额创建的,优先级为1~3的DLC或DSW模块的算力资源。

 

相关新闻

  • 阿里云GPU服务器怎么保护数据与模型泄露?

    一、引言 在AI时代,训练数据和模型算法是企业的核心资产,其价值远超硬件本身。据统计,一次核心模型泄露可导致企业直接损失数百万美元,并丧失市场竞争优势。阿里云GPU服务器作为AI研发的基础设施,通过多层次安全防护和加密技术,可构建端到端的数据安全体系,有效防止从外部攻击到内部泄露的各种风险。正确的安全配置能将数据泄露风险降低90%以上,同时满足等保2.0、GDPR等合规要求。 二、系统化数据与模型保护方案 1. 基础架构安全加固 存储加密全面覆盖: 云盘加密:创建GPU实例时,为系统盘和数据盘启…

    使用指南 2025年11月26日
  • 阿里云轻量应用服务器-到期或欠费说明

    阿里云轻量应用服务器-到期或欠费说明

    本文介绍轻量应用服务器、轻量应用负载均衡、轻量容器服务和轻量数据库服务到期及其欠费说明。 背景信息 警告 出现到期或者欠费后有停机风险,系统会提醒或通知您,请及时续费,避免对您的业务造成影响。 到期说明 轻量应用服务器、轻量应用负载均衡、轻量容器服务和轻量数据库服务到期后的影响及相关操作如下表所示。 到期时长 到期后影响 后续操作 实例到期后15天内 实例到期后,将会立刻停止服务,即不能再访问该实例。续费后即可恢复访问。 升级或续费说明 实例到期超过15天后 实例到期后第16天,实例释放,实例从…

    使用指南 2026年1月7日
  • 阿里云计算巢-如何使用包含Helm Chart文件的代码仓库来创建计算巢K8s集群服务?

    阿里云计算巢-如何使用包含Helm Chart文件的代码仓库来创建计算巢K8s集群服务?

    计费说明 计算巢本身不收费,但在部署实例时需要使用云资源,会产生相关的资源费用,请参见云资源计费规则。 准备工作 创建包含Helm Chart文件的代码仓库,本文以Forkspring-boot-chart到您的GitHub个人仓库为例。 操作步骤 步骤一:选择创建服务方式 登录计算巢控制台。 在左侧导航栏中,选择我的服务,并在我的服务页面中选择我创建的服务,然后单击创建新服务。 在创建新服务界面,选择通过仓库创建服务同时根据您的实际情况选择仓库平台,本文以GitHub为例。 单击前往授权,根据…

    使用指南 2025年11月24日
  • 域名实名认证方法(“.cn”域名实名认证)

    域名实名认证方法(“.cn”域名实名认证)

    “.cn”域名实名认证 注册“.cn”域名后需尽快完成实名认证,域名才能正常使用。本文为您介绍cnnic模板实名认证和“.cn”域名实名认证的操作流程。 前提条件 已完成域名持有者的邮箱验证。 背景信息 “.cn”域名是中国国家顶级域名,是以“.cn”为后缀的域名,包括在“.cn”下直接注册的二级域名和在“.cn”二级域下注册的三级域名。 “.cn”域名属于国家地区顶级域名(CCTLD),cn代表中国。中国互联网络信息中心(CNNIC)是“.cn”域名注册管理机构,负责运行和管理相应的“.cn”…

    阿里云国际 2023年12月29日
  • GCash 与阿里云合作,通过采用 IaaS、MaxCompute 数据仓库平台、Elastic MapReduce 大数据平台和 Web 应用防火墙等多种解决方案来迎接挑战。

    GCash 与阿里云合作,通过采用 IaaS、MaxCompute 数据仓库平台、Elastic MapReduce 大数据平台和 Web 应用防火墙等多种解决方案来迎接挑战。 GCash 与阿里云合作克服了这些挑战。它采用了包括 IaaS、MaxCompute 数据仓库平台、Elastic MapReduce 大数据平台和 Web 应用防火墙在内的多种解决方案。在阿里云工程师的指导下,GCash 部署了这些解决方案,同时遵循三个黄金原则:灰度开发;监控部署并制定应急计划。 关于GCash 为菲…

    客户案例 2023年6月14日
  • 阿里云国际人工智能平台 PAI - DLC支持存储服务挂载配置读写权限

    阿里云国际人工智能平台 PAI – DLC支持存储服务挂载配置读写权限

    人工智能平台 PAI – DLC支持存储服务挂载配置读写权限 优化内容 PAI 训练服务DLC, 阿里云存储实例(OSS、NAS、 CPFS等)挂载时支持配置读写权限,支持用户存储实例权限的精细化管理。 在DLC训练任务中使用云存储 在提交DLC训练任务时,您可以通过代码配置或挂载的方式配置OSS、NAS、CPFS或MaxCompute存储,从而方便地在训练过程中直接读写相应存储中的数据。本文为您介绍如何在DLC训练任务中进行OSS、MaxCompute、NAS或CPFS的存储配置。…

    行业动态 2025年3月7日
联系我们

联系我们

电报:@yunshuguoji

邮件:yunshuguoji@outlook.com

工作时间:早上8:00-晚上11:00

认准电报
认准电报
分享本页
返回顶部