分布式计算入门

分布式计算入门

9课时 |
10246人已学 |
(10 评论)

加入学习
加入学习

核心技术

数据收集:

输入

           拉:   kafka hbase hdfs

         推:需要实现Http处理模块

输出

订阅:结果数据写入消息队列,业务方订阅

服务:

Shuffle 机制:

Pull 

Push 上游 - 下游

计算

LongLive :不同的调度方式,不同 的消息机制

容错:任务跟踪机制

增量计算语义

消息机制

分发 -》 接收 -》 处理

难题

消息源头重发

节点内部重放

有状态计算

 

 

分布式挑战:集群规模上限是多少 计算作业是否可以线性增加

数据倾斜问题:用户可以重新定义等价的DAG来避免数据倾斜(牺牲性能)

倾斜带来超市,雪崩。数据动态的服务变化

 

服务化诉求:数据高可靠(数据中间状态) 服务的可用性(集群扩容,系统代码升级是否要停止服务)

单节点故障是否导致整个服务的不可用

 

增量计算语义

batch ==> delta f()

 

[展开全文]
小亮222 · 2017-06-17 · 阿里计算核心技术概述 0

授课教师

云生态下的创新人才工场
阿里云开发者社区全面升级
一站式体验,助力云上开发!
进入新社区

相关课程

查看更多 >