分布式计算入门

分布式计算入门

9课时 |
10246人已学 |
(10 评论)

加入学习
加入学习

增量,流式计算

我想问为什么会放一个高校邦

[展开全文]
peakfighter2017 · 2017-08-26 · 流式计算概述 1

Strom: Topology 有向无环图

       Spout 收集数据的任务

       Bolt  进行计算

       Task 最小任务单位

       Acker 负责消息跟踪

异或: 成对出现 结果为0

 

[展开全文]
大漠风尘 · 2017-06-24 · 流式计算典型系统技术分析 0

全量

增量

[展开全文]
大漠风尘 · 2017-06-24 · 流计算与批量计算的区别 0

离线ji'suan

批量计算

实时计算

增量计算

流式计算

流:有向 无界

[展开全文]
大漠风尘 · 2017-06-24 · 流式计算概述 0

离线、在线或者:IO Qos

长进程rt sla 与cpu平均利用率的矛盾

minCPU/maxCPU

Priority

Cgroup

申请方式、部署方式 拉起方式 包管理

资源约束

 

[展开全文]
小亮222 · 2017-06-17 · 有状态计算实现方式 0

核心技术

数据收集:

输入

           拉:   kafka hbase hdfs

         推:需要实现Http处理模块

输出

订阅:结果数据写入消息队列,业务方订阅

服务:

Shuffle 机制:

Pull 

Push 上游 - 下游

计算

LongLive :不同的调度方式,不同 的消息机制

容错:任务跟踪机制

增量计算语义

消息机制

分发 -》 接收 -》 处理

难题

消息源头重发

节点内部重放

有状态计算

 

 

分布式挑战:集群规模上限是多少 计算作业是否可以线性增加

数据倾斜问题:用户可以重新定义等价的DAG来避免数据倾斜(牺牲性能)

倾斜带来超市,雪崩。数据动态的服务变化

 

服务化诉求:数据高可靠(数据中间状态) 服务的可用性(集群扩容,系统代码升级是否要停止服务)

单节点故障是否导致整个服务的不可用

 

增量计算语义

batch ==> delta f()

 

[展开全文]
小亮222 · 2017-06-17 · 阿里计算核心技术概述 0

Twritter

Strom

Topology:完整的流计算作业

Spout 收集数据的任务

Bolt 进行相关计算的任务

Task SpoutBolt负责某一数据分片的实体(调度的最小单位)

Acker:跟踪节点的处理状态

 

系统架构

Nimbus - > zookeeper - > Supervisor

容错:

Strrom

 

优点:

消息在框架内不落地,处理非常高效

保证消息至少被处理

Transactional Topology 为消息去重提供了去重

缺点

 

Transactional Topolgy 对Batch 串行执行

 

Kinesis

动态调整并发度

MillWhell 微软流计算框架

 

 

[展开全文]
小亮222 · 2017-06-17 · 流式计算典型系统技术分析 0

增量计算的特点

 

Temporal SQL

Update 语义

 

[展开全文]
小亮222 · 2017-06-17 · 流计算与批量计算的区别 0
增量计算 优势: 中间计算结果实时产出 平摊计算 中间计算状态不膨胀 有状态的failover 批次运算,克服数据倾斜的影响,系统计算往往受最慢的那个 影响。 增量计算和流式计算的应用场景 日志采集与在线分析 大数据的预处理 风险监控与告警 网站与移动应用统计分析 网络安全监测 在线服务计量计费 工业4.0 物联网 实时计算,流式计算 增量计算和流式计算的特点 数据特点:流 不可控 处理粒度最小 处理算子对状态影响不同 输出要求 计算特点:时效高,质量高,容错稳,多样性多,精确
[展开全文]
小亮222 · 2017-06-17 · 流式计算概述 0

授课教师

云生态下的创新人才工场
阿里云开发者社区全面升级
一站式体验,助力云上开发!
进入新社区

相关课程

查看更多 >