RDD的执行流程（简略）

从计算的角度来讲，数据处理过程中需要计算资源（内存 & CPU）和计算模型（逻辑）。执行时，需要将计算资源和计算模型进行协调和整合。流程概括：①准备资源②创建Driver和Executor节点②然后将应用程序的数据处理逻辑分解成一个一个的计算任务task。③然后将任务task发到已经分配资源的计算节点executor上,按照指定的计算模型进行数据计算。最后得到计Driver和Executor都是运

斯沃福德

1783人浏览 · 2022-06-23 22:03:09

斯沃福德 · 2022-06-23 22:03:09 发布

从计算的角度来讲，数据处理过程中需要计算资源（内存 & CPU）和计算模型（逻辑）。执行时，需要将计算资源和计算模型进行协调和整合。

流程概括：
①准备资源
②创建Driver和Executor节点
②然后将应用程序的数据处理逻辑分解成一个一个的计算任务task。
③然后将任务task发到【已经分配资源】的计算节点executor上, 按照指定的计算模型进行数据计算。最后得到计算结果

1. 启动 Yarn 集群环境（准备资源）

在这里插入图片描述

2. Spark 通过申请资源创建调度节点Driver和计算节点Executor

在这里插入图片描述

Driver和Executor都是运行在NodeManager上面的！
ResourceManager是用于管理的，所以真正运行任务的是NodeManager

3. Spark 框架根据需求将计算逻辑根据分区划分成不同的task任务

在这里插入图片描述

Driver用于在Executor节点之间调度task任务
多个RDD会组合形成关联，再分解为多个Task任务，并放到TaskPool任务池中（因为需要调度task任务）

4. 调度节点Driver将任务根据计算节点状态发送到对应的计算节点进行计算

在这里插入图片描述
（ Executor 通过自身块管理器为用户程序中要求缓存的RDD提供内存式Cache存储）

调度节点Driver会将Task从任务池中取出，然后根据节点状态、首选位置来发送到不同的Executor进行计算
从以上流程可以看出 RDD 在整个流程中主要用于将逻辑进行封装，并生成 Task 发送给Executor 节点执行计算

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

从快照到电影：哈佛流等变神经网络开启AI运动理解新时代

脑启社区

生物计算提示工程薪资报告：提示工程架构师平均薪资曝光，技能溢价有多高？

生物计算提示工程架构师的高薪，不是偶然的市场泡沫，而是技术革命与产业需求碰撞的必然结果。他们是连接生命科学奥秘与AI算力的桥梁，用精准的提示策略让AI真正"理解"生物学，从而加速药物研发、优化基因治疗、推动合成生物学产业化——这种工作的价值，不仅体现在薪资数字上，更在于对人类健康和生命科学的深远影响。对于求职者，这是一个"窗口期"——未来3-5年，随着生物AI模型进一步成熟和普及，人才供给将逐步增

脑启社区

AGI真的需要“实体可调神经元”吗？从冯·诺依曼瓶颈到类脑硬件的三条出路

AGI之争，早已不是“能不能推出来”的线性竞赛，而是“以什么代价、用何种路径、在多大规模上普惠”的系统工程。存算分离是今天的瓶颈之一，类脑的“就地存算、事件驱动、可塑性”提供了重要方向；但更现实的未来，可能是数字与类脑的握手言和：让每一份比特尽量少走冤枉路，让每一次学习尽量就地发生。你的看法呢？你更看好哪条路：持续演进的数字加速器、从头重塑的类脑/存内，还是两者的异构融合？在你的业务或研究里，最痛