Storm 教程

Storm教程

Storm 是 Twitter 开源的分布式实时大数据处理框架,被业界称为实时版 Hadoop,已成为分布式实时处理系统的标准。Storm 最初由 Nathan Marz 和 BackType 团队创建,后被被 Twitter 收购并开源,使用 Java 和 Clojure 编写。

本教程将讲解 Apache Storm的 原理、安装、分布式消息传递、创建 Storm 拓扑、部署 Storm 集群,Trident的工作流程以及应用案例。


 

1. Storm 应用场景

随着越来越多的场景对 Hadoop 的 MapReduce 高延迟无法容忍,大数据实时处理解决方案的应用日趋广泛,目前已是分布式技术领域最新爆发点,而 Storm 更是流计算技术中的佼佼者。

Storm 应用场景包括:实时推荐系统、金融系统、预警系统、网站统计(实时销量、流量统计)、交通路况实时系统等。

 

2. Storm 特性

1) 适用场景广泛

Storm 可以实时处理消息和更新数据库,对一个数据量进行持续的查询并返回客户端(持续计算),对一个耗资源的查询作实时并行化的处理(分布式方法调用,即DRPC),Storm 的这些基础 API 可以满足大量的场景。

2) 可伸缩性高

Storm 的可伸缩性可以让 Storm 每秒可以处理的消息量达到很高。扩展一个实时计算任务,你所需要做的就是加机器并且提高这个计算任务的并行度 。Storm 使用ZooKeeper 来协调集群内的各种配置使得 Storm 的集群可以很容易的扩展。

3) 保证无数据丢失

实时系统必须保证所有的数据被成功的处理。 那些会丢失数据的系统的适用场景非常窄, 而 Storm 保证每一条消息都会被处理, 这一点和 S4 相比有巨大的反差。

4) 健壮性

Storm 集群非常容易管理,轮流重启节点不影响应用。

5) 容错性好

在消息处理过程中出现异常, Storm 会进行重试。

6) 语言无关性

Storm 的 topology 和消息处理组件(Bolt)可以用任何语言来定义, 使得任何人都可以使用 Storm。

 

3. 适合人群

本教程是为有志于使用 Apache Storm 框架从事大数据分析工作的专业人员准备的。

本教程将为您在分布式环境中创建和部署 Storm 群集提供足够的知识。

 

4. 预备知识

在继续本教程之前,您必须很好地理解 Core JavaLinux 操作。

 

5. Storm教程导航

Storm教程 Storm简介 Storm核心概念 Storm集群结构 Storm工作流程
Storm分布式消息系统 Storm安装 Storm示例 Storm Trident Storm Twitter
Storm应用场景 Storm应用程序