专栏名称: IT大咖说
大咖干货,不再错过。 让不在大会现场的程序猿、攻城狮也能体验现场的精彩瞬间。
目录
相关文章推荐
AIGC开放社区  ·  AI紧箍咒!OpenAI发布CoT监控,阻止 ... ·  2 天前  
AIGC开放社区  ·  AI紧箍咒!OpenAI发布CoT监控,阻止 ... ·  2 天前  
科技美学官方  ·  苹果17Air难怪变薄了 ·  2 天前  
深圳应急管理  ·  广东省2024年度安全生产责任制和消防工作考 ... ·  2 天前  
51好读  ›  专栏  ›  IT大咖说

腾讯云大数据产品研发实战(由IT大咖说整理)

IT大咖说  · 公众号  · 科技自媒体  · 2017-09-15 20:56

正文

一、 TDF (数据工坊)简介

TDF 简介

源于腾讯云数智大数据套件的轻量云上大数据产品,提供基于 SQL 的大数据计算框架。

适用于需要动态灵活获取大数据计算能力进行批量计算、日志处理或数据仓库应用的场景。

因为公有云上的用户需要简单,所以要有一个可视化的集成开发环境,在这环境中可以进行数据血缘管理、工程 / 工作流管理、用户管理和告警 / 日志。通过一些工具把数据导入到数据存储里面,然后对数据进行处理,最终输出数据。下层的任务和资源调度是用来调度用户的任务在各个资源上运行起来。底层就是腾讯云的基础设施。

二、 CDP (数据管道)实现详解

CDP 整体架构 设计

上图是我们刚开始在开发之前做的设计。最左边有很多客户的数据点,比如 log DB Binlog 、自建的 Kafka 以及自定义数据。我们会利用一些工具开发一个 Flume 插件,帮助它把数据上云。

数据到达中间部分,对数据进行校验和处理。处理完成后根据用户的需求通过插件的方式实时导入到 TDF COS 或者其它存储里面。

CDP 整体架构 目前

上图是目前我们已经实施的工作。我们自己开发了一个 Flume 插件,把数据实时发送到腾讯公有云的数据接收器 endpoint 上。数据接收器会根据用户的选择来决定用 Kafka 还是 CKafka CKafka 也是腾讯云内部自行研发的一套兼容转换协议的消息系统,基于 C++ 开发,性能方面会比原生的提升很多。把数据导入到 Nifi 里进行二次开发,最终导到 Hive 中。

Flume 简介

FlumeNG 是一个分布式、可靠、可用的系统。它能够将不同数据源的海量日志进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的 Flume OG 到现在的 Flume NG ,进行了架构重构,并且现在 NG 版本完全不兼容原来的 OG 版本。经过架构重构后, FlumeNG 更像是一个轻量级的小工具,非常简单,容易适应各种方式日志收集,并支持 failover 和负载均衡。

Flume 的架构主要有一下几个核心概念:

Event :一个数据单元,带有一个可选的消息头。

Flow Event 从源点到达目的点的迁移的抽象。

Client :操作位于源点处的 Event ,将其发送到 Flume
Agent

Agent :一个独立的 Flume 进程,包含组件 Source Channel Sink

Source :用来消费传递到该组件的 Event

Channel :中转 Event 的一个临时存储,保存有 Source 组件传递过来的







请到「今天看啥」查看全文