大数据开发技术Storm介绍

1、离线计算

离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示;

代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据azkaban/oozie任务调度。

 

2、流式计算

流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示;

代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果。

 

 

 

3、离线计算和实时计算的区别:实时收集、实时计算、实时展示

1)Storm

Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。

2)Storm和Hadoop的区别

(storm实时流处理,每秒可处理数万条消息;hadoop批处理,HDFS和MapReduce处理大量数据通常需要几分钟到几小时)

Storm用于实时计算,Hadoop用于离线计算。

Storm处理的数据保存在内存中,源源不断;Hadoop处理的数据保存在文件系统中,一批一批。

Storm的数据通过网络传输进来;Hadoop的数据保存在磁盘中。

Storm与Hadoop的编程模型相似

 

 

 

4、Storm核心组件(重要)

 

1)Nimbus(主节点):负责资源分配和任务调度。

2)Supervisor(从节点):负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。---通过配置文件设置当前supervisor上启动多少个worker。worker的数量根据端口号来的!

3)Worker(进程):运行具体处理组件逻辑的进程(其实就是一个JVM)。Worker运行的任务类型只有两种,一种是Spout任务,一种是Bolt任务。

4)Task(线程)......      全文:http://blog.sina.com.cn/s/blog_17c01ad2f0102yr8a.html

 

5、Storm编程模型(重要)

1)Topology:Storm中运行的一个实时应用程序的名称。

2)Spout:在一个topology中获取源数据流的组件。 通常情况下spout会从外部数据源中读取数据,然后转换为topology内部的源数据。


很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习扣扣740041381,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。


更多精彩内容