分布式调度
- 阿里云飞天分布式调度
- 任务调度
- 资源调度
- 容错机制
- 规模挑战
- 安全与性能隔离
分布式调度的两大任务
任务调度和资源调度
分布式调度系统
Hadoop MR
(规模扩展存在瓶颈;容错性差,Job Tracke单点灭有failover;不利于功能扩展 )
YARN
Mesos
Aliyun-Fuxi
分布式调度
shuffle的介绍是错的。。。
Hadoop 1.0:
Job Tracker负责资源调度和任务调度
Task Tracker是从机
规模扩展的瓶颈
JobTracker宕机 容错性差
Hadoop 2.0-YARN:
资源管理-节点管理
只支持内存维度的调度
调度是一个背包问题(cpu,磁盘,网络)
隔离任务调度和资源调度
mesos的问题:
1.调度器和mesosmaster之间不能描述精确的资源需求。
2.一次资源分配需要两次通信交互,即offer和accept,调度效率低
3.不支持资源抢占
资源调度:app master------app worker-----instance
任务调度:client---------fuximaster-------tubo
资源多性能未必好
硬件故障 主板 内存
软件bug down机 内存越界
1、正在运行任务 不中断
2、对用户透明
3、自动回复故障
1、多线程异步
aliyun-fuxi
最大化集群资源利用率
最小化资源等待时间
支持资源配额
任务抢占