Storm 简介
1. 什么是Apache Storm?
Apache Storm是一个分布式实时大数据处理系统。Storm设计用于以容错和水平可伸缩方法处理大量数据。这是一个流媒体数据框架,具有最高的摄取率。虽然Storm是无状态的,但它通过Apache ZooKeeper管理分布式环境和集群状态。这很简单,您可以并行执行各种对实时数据的操作。
Apache Storm继续成为实时数据分析的领导者。Storm很容易设置,操作,并且保证每个消息至少通过拓扑结构处理一次。
2. Apache Storm vs Hadoop
基本上Hadoop和Storm框架用于分析大数据。它们两者相辅相成,在某些方面有所不同。Apache Storm执行除持久性以外的所有操作,而Hadoop擅长于一切,但缺乏实时计算。下表比较了Storm和Hadoop的属性。
Storm | Hadoop |
---|---|
Real-time stream processing | Batch processing |
Stateless | Stateful |
Master/Slave architecture with ZooKeeper based coordination. The master node is called as nimbus and slaves are supervisors. | Master-slave architecture with/without ZooKeeper based coordination. Master node is job tracker and slave node is task tracker. |
A Storm streaming process can access tens of thousands messages per second on cluster. | Hadoop Distributed File System (HDFS) uses MapReduce framework to process vast amount of data that takes minutes or hours. |
Storm topology runs until shutdown by the user or an unexpected unrecoverable failure. | MapReduce jobs are executed in a sequential order and completed eventually. |
Both are distributed and fault-tolerant | |
If nimbus / supervisor dies, restarting makes it continue from where it stopped, hence nothing gets affected. | If the JobTracker dies, all the running jobs are lost. |
3. Apache Storm的使用案例
Apache Storm对于实时大数据流处理非常有名。出于这个原因,大多数公司都将Storm作为其系统的一个组成部分。一些值得注意的例子如下 -
Twitter - Twitter正在将Apache Storm用于其“发布商分析产品”系列。 “发布商分析产品”在Twitter平台中处理每个推文和点击。Apache Storm与Twitter基础架构深度整合。
NaviSite - NaviSite将Storm用于事件日志监视/审计系统。 系统中生成的每个日志都将通过Storm。Storm将根据配置的正则表达式集检查消息,如果匹配,那么该特定消息将被保存到数据库中。
Wego - Wego是位于新加坡的旅行元搜索引擎。 旅游相关数据来自世界各地不同时间的许多来源。Storm帮助Wego搜索实时数据,解决并发问题并找到最终用户的最佳匹配。
4. Apache Storm的好处
这里列出了Apache Storm提供的好处:
- Storm是开源的,强大的和用户友好的。它可以用于小公司以及大公司。
- Storm容错,灵活,可靠,并支持任何编程语言。
- 允许实时流处理。
- Storm的速度令人难以置信,因为它具有处理数据的巨大能力。
- 通过线性增加资源,Storm即使在负载增加的情况下也能保持性能。它具有高度的可扩展性。
- Storm在数秒或数分钟内执行数据刷新和端到端交付响应取决于问题。它具有非常低的延迟。
- Storm拥有运营智能。
- 即使群集中的任何连接节点死亡或消息丢失,Storm仍可提供有保证的数据处理。