人工智能平台 PAI – AI调度引擎v2.0,实现多级任务抢占
适用客户

互联网公司、大模型创业公司、AI科研机构

新增功能/规格

PAI 基于Quota的调度引擎,通过任务类型分级(如训练/推理/开发 和 优先级)与动态优先级评估算法,触发抢占机制,确保高优先级任务可以快速执行;同时结合AIMaster抢占式回滚技术,被中断任务自动保存中间状态并进入排队队列,资源释放后优先恢复执行,最终实现资源紧张场景下的高效调度。

抢占策略

PAI提供了多级资源配额(Quota)能力,支持您将PAI算力资源按层级进行划分,以便灵活管理和分配资源。此外,您可以启用本级或子级算力抢占功能,允许在当前资源配额中提交的任务抢占同级或子级资源配额的算力资源,从而充分利用算力资源。

资源配额(Quota)层级说明

PAI支持将算力资源按照企业组织架构的层级划分为父子级资源配额,形成如下图所示的树状结构(简称QuotaTree),以实现更灵活和精细的资源管理和分配。这种层级划分不仅使资源管理更加符合企业的实际需求,还提高了资源使用的效率和灵活性。

image

如上图所示,将算力资源拆分为了三级。其中,第一级Quota是第二级Quota的父级,第二级Quota是第一级Quota的子级,第二级和第三级Quota同理;第一级、第二级和第三级内的Quota视为同级。

  • 第一级:Root Quota

  • 第二级:Quota-1、Quota-2…Quota-n

  • 第三级:Quota-1.1、Quota-1.2、Quota-2.1…Quota-n.1

您可以基于组织或项目来划分和使用资源配额(Quota),从而更好地管理和使用各自的任务及资源。当资源紧张时,您可以构建多级资源配额(Quota),开启产品提供的抢占策略,实现资源的最大利用率:

  • 开启本级算力抢占

    • 适用场景:当使用同级资源配额(例如,第二级的Quota-1、Quota-2或Quota-n)创建的任务需要优先执行且资源紧张时。

    • 处理机制:系统将通过灵活的资源调度机制,从同级资源配额中调度算力资源,确保关键任务能够获得所需的计算资源。

  • 开启子级算力抢占

    • 适用场景:当同级资源配额紧缺,不能满足任务需求时。

    • 处理机制:系统将通过灵活的资源调度机制,从子级资源配额中调度算力资源,确保关键任务能够获得所需的计算资源。

开启本级算力抢占

操作方法

在创建或编辑资源配额时,为资源配额开启本级算力抢占。image

当多个任务同时提交到该资源配额时,系统将依据最优策略来分配抢占当前层级的计算资源,具体策略说明如下:

抢占策略

描述

高优先级

支持抢占本级算力资源的任务执行优先级。取值范围:[1,9],支持单选或按范围选择。其中数字越大表示优先级越高,数字越小表示优先级越低。

抢占低优先级

支持被抢占算力资源的任务执行优先级。取值范围:[1,9],支持单选或按范围选择。其中数字越大表示优先级越高,数字越小表示优先级越低。

说明

设置的抢占低优先级需小于设置的高优先级。

可被抢占模块

当资源配额的算力资源不足时,系统支持抢占同级资源配额下指定模块的算力资源,包括DLC、DSW或EAS模块。

使用示例

  • 抢占配置

    按照下图设置抢占配置:image

    • 高优先级:按范围,设置为6~9。

    • 抢占低优先级:按单选,设置为4。

    • 可被抢占模块:选择DLC和DSW。

  • 效果

    当使用该资源配额创建的任务优先级为6~9且算力资源不足时,系统可以抢占同级资源配额下,优先级为4的DLC或DSW模块的算力资源。

开启子级算力抢占

操作方法

在创建或编辑资源配额时,为资源配额开启子级算力抢占。image当使用父级资源配额提交任务且算力资源不足时,系统会按照最优策略回收子级Quota中正在运行的任务的算力资源,以保障父级资源配额任务的运行。具体策略说明如下:

抢占策略

描述

可被抢占优先级

支持被抢占的使用子级资源配额创建的任务执行优先级。取值范围:[1,9],支持按范围进行选择。其中数字越大表示优先级越高,数字越小表示优先级越低。

可被抢占模块

当父级资源配额的算力资源不足时,系统支持抢占使用子级资源配额创建的指定模块的算力资源,包括DLC、DSW或EAS模块。

使用示例

  • 抢占配置

    按照下图设置抢占配置:image

    • 可被抢占优先级:设置为1~3。

    • 可被抢占模块:选择DLC和DSW。

  • 效果

    当使用父级资源配额创建任务且算力资源不足时,系统可以抢占使用子级资源配额创建的,优先级为1~3的DLC或DSW模块的算力资源。

 

相关新闻

  • 阿里云轻量应用服务器与ECS对比

    一句话简单总结就是:阿里云轻量 vs阿里云 ECS: 轻量 = 简化版、套餐化、含大流量包、易上手但灵活/性能上限低; ECS = 专业版、配置灵活、性能上限高、生态丰富但更复杂、流量额外计费。   产品定位: 轻量应用服务器 (Light Application Server) 定位:一站式、开箱即用的新手友好型服务器。 云服务器 ECS (Elastic Compute Service) 定位:专业、高弹性的企业级计算单元。   关键维度: 关键维度 轻量应用服务器 (L…

    阿里云国际 2025年8月27日
  • 借助阿里云,印尼鹰航成功使网络延迟大幅缩短。通过此次合作,印尼鹰航在 2 周内成功地将超过 85 个虚拟机和 3 个数据库迁移到阿里云,并且最大限度地减少了业务中断。

    借助阿里云,印尼鹰航成功使网络延迟大幅缩短。通过此次合作,印尼鹰航在 2 周内成功地将超过 85 个虚拟机和 3 个数据库迁移到阿里云,并且最大限度地减少了业务中断。 通过阿里云,印尼鹰航成功地显着减少了网络延迟。在迁移期间,Indosat Ooredoo提供了网络骨干网的设计和实施,而ViBiCloud提供了具有项目管理功能的迁移支持。通过此次合作,印尼鹰航成功地迁移了85多个 在2周内将虚拟机和3个数据库迁移到阿里云,而对业务的干扰最小。 关于印尼鹰航(Garuda Indonesia) 印…

    客户案例 2023年6月14日
  • 世界,您好!

    欢迎使用WPCOM。这是您的第一篇文章。编辑或删除它,然后开始您的博客!欢迎使用WPCOM。这是您的第一篇文章。编辑或删除它,然后开始您的博客!

    公司新闻 2016年12月20日
  • 阿里云计算巢管理服务实例-申请部署链接权限

    阿里云计算巢管理服务实例-申请部署链接权限

    当服务商未给您开通部署链接权限时,您需要先申请部署链接权限,再部署服务实例。本文介绍如何申请部署链接权限并查看申请进度。 操作步骤 登录计算巢控制台。 在左侧导航栏中,选择服务目录。 在服务目录页签中,找到您需要申请部署链接权限的服务,申请联系服务商或者申请部署链接权限。 若您只需要与服务商建立联系时,可执行如下操作。 单击服务的电话图标。 在弹出的弹框中填写姓名、手机号码、邮箱等信息。 勾选我已阅读并同意《计算巢服务协议》,授权阿里云将以上信息转发给该服务的提供商,单击确定。 若你需要申请服务…

    计算巢服务 2025年9月8日
  • 阿里云计算巢服务升级场景说明-通过容器部署物创建并更新服务

    阿里云计算巢服务升级场景说明-通过容器部署物创建并更新服务

    阿里云计算巢服务升级场景说明-通过容器部署物创建并更新服务   本文介绍服务商如何通过容器部署物管理容器镜像版本,创建关联部署物的服务,向用户提供创建和更新服务实例功能。 准备工作 本示例中,将在ACK集群中创建容器资源。因此需要提前准备一个可用的ACK集群。关于创建ACK集群操作,请参见创建ACK托管集群。 本示例中,使用Nginx镜像模拟部署物升级流程,并将镜像版本从nginx 1.7升级至nginx 1.8。您需要将镜像提前下载到本地。   docker pull nginx:1…

    计算巢服务 2025年8月1日
  • 如何使用CDN加速访问OSS存储的图片资源?

    如何使用CDN加速访问OSS存储的图片资源?

    当您需要加速OSS上的图片或视频等静态资源时,可以通过阿里云CDN加速OSS域名,实现静态资源的访问加速。使用阿里云CDN产品加速OSS上的图片资源时,可以提升访问速度、节约数据传输成本,接下来就详细介绍怎么样通过CDN控制台实现OSS加速访问存储的图片资源。 一、首先为什么要使用阿里云CDN产品加速OSS上的图片资源呢? 这就要考虑到这个方案的一些优势了: l 节省费用:CDN流量单价低于直接访问OSS产生的外网流出流量,使用CDN加速图片资源访问时,在忽略回源费用的情况下,以1个月1TB流量…

    阿里云CDN 2025年8月26日
联系我们

联系我们

电报:@yunshuguoji

邮件:yunshuguoji@outlook.com

工作时间:早上8:00-晚上11:00

认准电报
认准电报
分享本页
返回顶部