我们的架构设计的思路跟美团大同小异,也是分为agent层,collector层和store层。
下面是我们自己的架构图:
总体架构
数据流图
下面的图描述一条日志消息从客户端产生,经过了怎样的过程最终被消费的。
架构说明
美团的文档中已对这个架构的优越性进行了说明,比如可用性,可靠性和可扩展性,这里就不赘述了。
美团自己在Flume的基础做了一些改进和优化,总结如下:
- 美团的各个Flume节点统一使用了dual channel,美团并没有开源。但官方提供了实现类似功能的spillable-memory-channel,但这只是实验版本,并不推荐在生产环境中使用。
- 美团使用的HDFS Sink做了一些优化,比如设置了一个开关,如果HDFS集群维护时关掉;b/m/s优化减少HDFS的压力;自动创建压缩索引等。我们使用的官方HDFS sink则没有这些功能。
在我们实际使用的过程中酌情考虑这些优化。
其他说明
- 在API中还增加了一个嵌入式的模式,就是说把agent层的Flume进程嵌入到了应用程序进程,这样是为了方便测试,这样在测试阶段就不需要在本地再部署一个Flume进程了。
- 关于对Flume整套系统的监控和报警(接入Zabbix)和性能测试以及各种异常测试在另外的文章叙述。
- 客户端简单封装下即可。此处暂时不介绍了~
后续会有部署指南和API封装等方面的相关介绍。
相关推荐
#资源达人分享计划#
Kafka+FlumeNG+Storm+HBase构架设计
01_项目技术架构介绍 ... 08_SDK的设计思路及重要事件类型的介绍 09_JS SDK 与 JAVA SDK的代码实现 10_Nginx中配置自定义收集方案 11_Flume进行数据采集 12_Flume的负载均衡及故障转移及美团的使用案例
日志收集系统Flume的基本架构、关键组件,以及分层日志收集架构的设计与实践;分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。 第三部分(第8~9章):详细讲解了企业大...
项目架构: 主要是基于Flume+Kafka+Sparkstreaming +HBase+ES来实现实时的用户信息存储轨迹查询任务。 1、资源内容: 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、...
5.使用什么脚本可以查看flume有没有往Kafka传输数据做软件开发的都知道模块化思想,这样设计的原因有两方面:一方面是可以模块化,功能划分更加清晰,从“数据采集--数据接入--流失计算--数据输出
2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。...
配置简单,偏重数据前期处理,分析方便 从两者的设计思想来看,Flume 最初并不是为了采集日志而设计,而是定位在把数据传入 HDFS 中,这和 Logstash 有根本的区别。所以它理所应当侧重于数据的传输和平安,且需要更...
#资源达人分享计划#
24_GOF-设计模式$ k0 Y6 b) s& m% J 25_qq消息通信2 T! n* ^2 ? | l# ]- ^ 26_qq消息通信2 27_qq消息通信-群聊 28_qq消息通信-群聊-手动刷新好友列表-下线通知0 P+ D" ]/ f. q* O! d9 Z& L 29_qq消息通信-群聊-私聊...
4. 逻辑架构设计 5. 功能描述 6. 系统架构 第二章 离线数据入库 1. 数据上传 2. 创建数据表 3. 数据拆分 4. 数据表加载 第三章 离线数据整理 1. 业务SQL语句编写 2. 整理SQL语句生成结果表的结构及字段 3. 根据结果...
同时Kudu能够与Hadoop生态的其他组件比如Impala、Spark、Flume和Kafka等组件集成,大大降低了对快速变化的数据进行准实时分析的架构设计和实现的门槛。本演讲主要对Kudu的动机、背景,以及架构进行简单介绍,并通过...
同时Kudu能够与Hadoop生态的其他组件比如Impala、Spark、Flume和Kafka等组件集成,大大降低了对快速变化的数据进行准实时分析的架构设计和实现的门槛。本演讲主要对Kudu的动机、背景,以及架构进行简单介绍,并通过...
本课程基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。 不管是零基础的大数据技术爱好者...
11.5.5 自主设计实战之 Flume、 整合方案………………….. 390 Kafka 和 Storm 的整合……410 11.5 案例实践…………………….. 391 11.6 更多的思考………·……………·424 11.5.1 数据模式的设计……....... . ...
offline部分架构 部分架构 本⽂从⼤框架上介绍推荐系统架构,在许多公司⾯试中会给你⼀个推荐或者数据挖掘的问题,⽐如让你简单设计⼀个feed流推荐系统,所以 需要对推荐系统的整体框架要了解。下⾯是⼀个推荐系统...
源码下载地址:http://pan.baidu.com/s/1bnxt0dx 架构设计考虑 可用性 1:agent挂掉 1):机器挂掉导致agent挂点,这个没影响,机器挂了不会产生日志 2):agent进程挂点,按下面两种方式来提高系统的可用性。...
4,企业级方案设计,完全匹配工作场景。 适用人群 1、对大数据感兴趣的在校生及应届毕业生。 2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。 3、对大数据行业感兴趣的相关人员。 ...
Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,高扩展,高效性,高容错等...
1.数据采集2.数据存储3.数据处理4.数据展现(可视化,报表和监控)其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的...Flume最初是由Cloudera的工程师设计用于合并日志数据的系