如上图所示一直处于running状态,查看日志发现一直重复弹出同一个info:


2024-10-18 16:57:32,739 [INFO] [AMRM Callback Handler Thread] |rm.YarnTaskSchedulerService|:

Allocated: <memory:0, vCores:0>

释义: 当前应用程序没有分配到任何内存(memory:0)和虚拟核心(vCores:0)。这意味着 YARN 还没有给该作业分配任何资源来启动任务。

Free: <memory:1024, vCores:1>

释义: 当前集群中可用的资源包括 1024MB 的内存和 1 个 vCore(虚拟核心)。虽然有一些空闲资源,但可能不够或者未被分配给当前作业。

pendingRequests: 6

释义: 当前作业还有 6 个任务在等待资源分配。YARN 还没有为这些任务找到可以运行的容器,作业因此被阻塞。

delayedContainers: 0

释义: 没有任何延迟分配的容器。通常,当 YARN 没有立即分配到符合要求的资源时,容器会被延迟,直到合适的资源可用。

heartbeats: 3551

释义: ApplicationMaster (AM) 与 ResourceManager (RM) 之间已经进行了 3551 次心跳通信。这是 YARN 用来监控资源和应用状态的机制。每个心跳之间,RM 会更新 AM 关于资源的状态。

lastPreemptionHeartbeat: 3550

释义: 这是第 3550 次心跳发送时,ResourceManager 发送的最后一次“抢占心跳”(Preemption Heartbeat)。抢占是 YARN 在资源紧张时的机制,用于重新分配低优先级任务的资源给更高优先级的任务。

highestWaitingRequestWaitStartTime: 1729241801061

: 当前队列中等待时间最长的资源请求的开始时间。这个数值是时间戳,通常是从1970年1月1日 UTC 时间以来的毫秒数,代表该任务的等待时间较长

highestWaitingRequestPriority: 32

释义: 这是当前等待资源的最高优先级请求的优先级值。通常,优先级值越小,优先级越高。32 代表该请求的优先级较低,因此它可能在调度过程中优先级靠后。

重点是:Allocated: <memory:0, vCores:0>和Free: <memory:1024, vCores:1>

先看集群总内存和cores情况,总共132G,75cores:

整个集群明显还有空闲资源,再看对于aviation队列的设置:

configured capacity=5%,表示队列的初始容量百分比,即avation队列在最开始可以使用132G*5%=6.75G,75*5%=3.75cores。

configured max capacity=10%定义了队列使用集群资源的上限,即使其他队列资源空闲,aviation 队列也不能超过这个上限,即132*10%=13.2G,75*10%=7.5cors

尝试调大configured max capacity至30%,

成功解决:

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部