1、离线计算
离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示;
代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据azkaban/oozie任务调度。
2、流式计算
流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示;
代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。
一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果。
3、离线计算和实时计算的区别:实时收集、实时计算、实时展示
1)Storm
Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。
2)Storm和Hadoop的区别
(storm实时流处理,每秒可处理数万条消息;hadoop批处理,HDFS和MapReduce处理大量数据通常需要几分钟到几小时)
Storm用于实时计算,Hadoop用于离线计算。
Storm处理的数据保存在内存中,源源不断;Hadoop处理的数据保存在文件系统中,一批一批。
Storm的数据通过网络传输进来;Hadoop的数据保存在磁盘中。
Storm与Hadoop的编程模型相似
4、Storm核心组件(重要)
1)Nimbus(主节点):负责资源分配和任务调度。
2)Supervisor(从节点):负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。---通过配置文件设置当前supervisor上启动多少个worker。worker的数量根据端口号来的!
3)Worker(进程):运行具体处理组件逻辑的进程(其实就是一个JVM)。Worker运行的任务类型只有两种,一种是Spout任务,一种是Bolt任务。
4)Task(线程)...... 全文:http://blog.sina.com.cn/s/blog_17c01ad2f0102yr8a.html
5、Storm编程模型(重要)
1)Topology:Storm中运行的一个实时应用程序的名称。
2)Spout:在一个topology中获取源数据流的组件。 通常情况下spout会从外部数据源中读取数据,然后转换为topology内部的源数据。
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习扣扣群:740041381,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。