病毒实时数据_大规模数据场景下的实时数据分析

大数据技术经过近十年的快速发展,已经渗透到各行各业。数据的爆炸式增长给海量数据的处理能力带来了挑战。与此同时,用户对海量数据的及时性要求越来越高。用户不再需要T+1数据报告,他们希望实时看到大数据带来的价值,这样他们就可以首先对业务发展做出判断和决策。例如,电子商务推广和金融风控制等场景。延迟的数据分析结果已经失去了它们的价值和意义。

为了满足大数据高实时性的发展需求,出现了许多实时计算和在线交互式数据分析技术,包括Flink、Spark、Presto、Druid、Clickhouse、Delta、胡迪和Iceberg等。甚至一些新技术也开始离线合并数据分析方向。利用一套技术完整的方案提供实时和离线数据分析,我们将邀请一批来自国内外一线互联网企业的技术专家分享QCon实时计算和数据分析技术的新发展趋势,并通过大量实际生产实践案例给大家带来新的启示。

如何基于Apache胡迪

Apache胡迪构建企业级数据湖是Uber开源的数据湖框架,在分布式文件系统上提供大型分析数据集的摄取、管理和查询2019年1月,他加入阿帕奇孵化器进行孵化。他加入孵化器半年多了。在发布了第一个Apache版本后,他很快被AWS EMR团队集成到了EMR 5.28.0版本中。这也是亚马逊电子病历集成中唯一一个仍处于孵化阶段的开源项目。胡迪从2016年开始在优步进行研发,2017年开始上线生产环境。它在一个表中构建了超过10PB的数据湖,1000条管道,每天处理100TB的数据。

这一共享将为我们全面系统地介绍胡迪框架的功能、特性和使用场景。同时,我们将介绍胡迪在T3旅游相关场景中的做法。胡迪是一个包容和开放的社会。我们还将介绍社区正在进行的与胡迪和Flink计算引擎集成相关的工作。

扬声器

病毒实时数据

华阳,T3旅行大数据平台负责人,阿帕奇胡迪委员会的作者,阿帕奇弗林克贡献者,阿帕奇麒麟的弗林克立方体引擎曾经在腾讯引领Flink框架落地的前腾讯高级工程师,经历了Flink从零到平均每天支持近20万亿条消息的整个过程。

观众利益

9阿帕奇胡迪简介;

为什么胡迪是建设数据湖的正确选择;

虎地T3航次着陆实践:

Hudi社区的路线图以及与Flink集成的进展

适合人群

OLAP、数据仓库以及大数据计算和分析的相关从业者字节跳动

德鲁伊的优化与实践

如何快速有效地分析来自大量事件的数据在决策中起着至关重要的作用德鲁伊是流行的开源OLAP引擎之一,被国内外许多公司使用。一方面,德鲁伊可以因为当时的数据导入而被查询,从而满足数据的实时性要求。另一方面,当数据达到一定规模后,集群的稳定性、数据的获取性能和查询延迟成为瓶颈。本次分享会议将介绍字节跳动如何在大规模数据环境中管理和优化德鲁伊,以满足其在字节跳动的需求。

字节跳动大数据架构工程师张云帆于2015年加入字节跳动。先后负责动物园管理员、卡夫卡、暴风、弗林克等组件的开发和优化。目前,他主要致力于OLAP方向的查询优化。

病毒实时数据

黄辉,字节跳动高级研发工程师,负责字节跳动广告数据平台Druid引擎的相关工作,在性能优化和应用方面进行了深入探索。他在滴滴出行的大数据架构部门工作,负责与蜂巢相关的工作。他在Hive数据治理和权限管理方面进行了探索和实践。

内容概要

Druid性能优化,主要包括实时数据摄取优化、查询性能优化、气相色谱优化和一些补丁;社区的贡献;

字节跳动如何管理大规模德鲁伊集群:包括集群的日常部署和运行、元数据治理、集群稳定性构建等。由

承担的业务场景的介绍主要介绍了字节跳动使用德鲁伊处理的业务需求,以及遇到的问题和解决方案。

Druid实时物化视图的设计与实现包括:物化视图在线构建&离线回溯、代理查询替换、KIS发布策略优化等。

Druid实时物化视图方案在字节跳动的实践包括:在广告系统的AB测试场景下,大大提高实时查询性能,如何解决数据偏斜和避免物化视图扩展等。

观众利益

了解德鲁伊的操作和氨苄在近1000台机器的规模;管理挑战;

理解德鲁伊在字节跳动的商业场景;

理解字节跳动在大规模数据场景中为满足德鲁伊而进行的一些优化和实践

适合人群

最好有一些德鲁伊或相关OLAP系统的知识

大家都在看

相关专题