大数据开发技术Storm介绍

1、离线计算

离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示；

代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据azkaban/oozie任务调度。

2、流式计算

流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示；

代表技术：Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

一句话总结：将源源不断产生的数据实时收集并实时计算，尽可能快的得到计算结果。

3、离线计算和实时计算的区别：实时收集、实时计算、实时展示

1）Storm

Storm用来实时处理数据，特点：低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口，便于开发。

2）Storm和Hadoop的区别

（storm实时流处理，每秒可处理数万条消息；hadoop批处理，HDFS和MapReduce处理大量数据通常需要几分钟到几小时）

Storm用于实时计算，Hadoop用于离线计算。

Storm处理的数据保存在内存中，源源不断；Hadoop处理的数据保存在文件系统中，一批一批。

Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中。

Storm与Hadoop的编程模型相似

4、Storm核心组件（重要）

1）Nimbus（主节点）：负责资源分配和任务调度。

2）Supervisor（从节点）：负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程。---通过配置文件设置当前supervisor上启动多少个worker。worker的数量根据端口号来的！

3）Worker（进程）：运行具体处理组件逻辑的进程（其实就是一个JVM）。Worker运行的任务类型只有两种，一种是Spout任务，一种是Bolt任务。

4）Task（线程）...... 全文：http://blog.sina.com.cn/s/blog_17c01ad2f0102yr8a.html

5、Storm编程模型（重要）

1）Topology：Storm中运行的一个实时应用程序的名称。

2）Spout：在一个topology中获取源数据流的组件。通常情况下spout会从外部数据源中读取数据，然后转换为topology内部的源数据。

很多初学者，对大数据的概念都是模糊不清的，大数据是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习扣扣群：740041381，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

更多精彩内容