首页 > 科技未来 > 内容

技术纯粹享受会:Tapdata LDP产品发布暨开源说明会

发布于:2024-06-18 编辑:匿名 来源:网络

近十年来,以Hadoop为代表的大数据技术发展如火如荼,各种数据平台、数据湖、数据中台等产品解决方案层出不穷。

这些解决方案最常用的场景包括企业数据的统一聚合以及对这些线下数据的分析和洞察,以达到辅助决策或辅助营销的目的,例如传统的BI报表、数据大屏、标签画像、但除了这种分析型业务(OLAP)之外,还有一些对数据实时性要求较高的交互业务场景(OLTP或Operational Applications),比如电商行业常见的统一商品或订单查询,金融行业的实时风控、服务行业的客户CDP等,这些场景对于企业来说往往是关键任务。

除了OLTP场景之外,很多新一代运营分析(Operational Analytics)也逐渐成为主流数据应用。

技术纯粹享受会:Tapdata LDP产品发布暨开源说明会

运营分析的特点是还需要业务系统的最新实时数据来帮助客户做出更及时的业务响应。

对于这些交互APP或者运营分析场景,传统大数据平台由于对实时数据的支持有限,无法有效支撑。

今天我们将探讨有关实时数据的问题:? 什么是实时数据? ? 如何获取实时数据,目前有哪些解决方案?问题是如何解决的?优缺点都有什么? ? 理想的实时数据架构应具备哪些特征? ? 如何用新一代实时架构升级或替代传统解决方案? 1.什么是实时数据?一般来说,实时数据是指在数据刚产生的短时间内发生的数据传输、处理或最终交付,例如实时同步、实时消息处理等。

用于衡量数据实时性的指标。

衡量实时性是指数据从生产端到消费端的传输延迟。

另一类实时数据是指对查询或计算的响应是否足够快,更针对数据库内置的分析或查询引擎。

这种实时数据技术的衡量标准是响应时间。

如果传输延迟或响应时间可以控制在亚秒或秒内,我们可以将这些技术称为“实时数据”技术。

从用户的角度来看,他们能够体验到的是一种“交互”的体验。

例如,如果我执行查询或检索最新的统计信息,通常会在 1-3 秒内返回结果,这是理想的情况。

实时体验。

如果我们把实时数据技术放到一个完整的数据架构图中,可能会更容易理解实时数据意味着什么。

A16Z 的 Matt Bornstein 在《现代数据基础设施的新兴架构》一文中很好地总结了新一代数据基础设施的主要组成部分。

他将数据基础设施的整个生命周期分为几个阶段:摄取、存储、查询和处理、转换、分析和输出。

以此框架为参考,我们可以对离线数据技术和实时数据技术进行比较: 如图所示,实时数据包括实时采集和同步、实时计算、实时存储在实际工作中,这些技术支持的场景案例如下: 实时采集同步/实时集成 以数字化防疫场景为例,在疫情特殊阶段疫情防控期间,“核酸码”、“健康码”成为日常出行的必需品,特别是在核酸检测频率较高的时期,因检测结果影响日常工作和生活的情况很多。

没有及时显示。

应对这一问题的核心环节是核酸检测数据的实时、准确采集。

实时计算以数据可视化大屏的应用场景为例。

实时产能大屏作为传统制造业实现数字化转型的常用辅助工具,可以为自动化生产提供数据基础;实时监控运行情况并及时发出警告;并帮助企业分析产品。

循环实现精准洞察,助力业务发展。

实现这些目标的基础是实时数据——通过对所有系统数据的实时采集和实时计算,可以使数据分析和显示更加高效。

实时分析以金融行业反欺诈平台为例。

随着用户数量不断增加,客户历史行为数据不断积累。

为了在不影响交易行为的情况下对数据进行分析和处理,新时代的风控工作面临着更多实时性的挑战,传统的数据仓库架构逐渐无法满足相应的需求。

因此,需要结合多渠道性能,对客户行为数据进行实时分析和反馈,快速区分欺诈交易和正常交易,便于快速决策。

实时查询和服务银行个人贷款、互助小额贷款、保险等在线金融服务需要对客户进行实时风险控制。

通过实时数据服务,可以统一汇总来自金融系统和外部系统(征信、司法、公安等)的个人数据,在申请过程中实时查询客户的风险信息并提供给用于决策的算法引擎。

2、实时数据技术的来源:实时数据集成。

无论是哪一种实时数据处理技术,都离不开一个事实:我们需要实时数据源。

Doris作为实时数据仓库,只有第一时间获取新鲜数据,才能获得即时有效的洞察; Flink的实时流计算需要Kafka提供数据;而Kafka作为消息队列,需要用户对源数据负责。

数据被推送到Kafka Topic。

可以说,所有的实时数据技术都离不开源头——实时数据的采集和整合。

对于实时数据集成,常见的技术解决方案包括以下几种: ? 自定义API集成或使用低代码API ? ETL工具 ? ESB或MQ ? Kafka 让我们分别看看这些解决方案的优缺点。

API、ETL 和 ESBAPI 集成是一种不需要第三方工具的解决方案。

通常,研发团队可以根据数据共享的需求定制开发相应的API接口,并测试上线以支持下游业务。

这种方式的优点: ? 无需购买商业解决方案,因地制宜 ? 可高度定制化 缺点也很明显: ? 当需求增加时,开发成本会更高,API 管理会出现新的问题 ? 性能对源库有相当大的影响,一般是核心业务系统所不能容忍的。

? API方式不适合全量或大量数据下发的场景。

ETL通过提取所需数据将其复制到下游系统。

根据需求,可以编写一些定时运行的脚本,或者使用一些成熟的ETL工具。

优点:? 对源数据库性能影响不大,可以安排在半夜等业务高峰时段执行。

? 实现比较简单,可以用很多开源或商业的软件来实现工具。

缺点:? 定期执行,无法支持对数据时效性要求较高的应用。

场景 ? ETL无法复用,每次新增业务都需要大量ETL链路,导致数量激增,管理困难。

作为企业数据总线,ESB 将独立的软件系统连接到通过总线连接在一起的中央。

如果每个系统需要向另一个系统传输数据或消息,可以通过ESB进行传输。

ESB的架构优势体现在: ? 消除了多个系统之间的重复交互 ? 降低了系统之间互连的成本,只需要与标准ESB中间件交互 ? 数据实时可用 然而,ESB已经被证明成为“过去的事情”。

其主要问题是: ? 接口定义极其繁琐; ? 性能低下,无法支持新一代大量实时数据处理需求; ? 与系统耦合度较高,有可能更新上游系统会影响下游系统 ? 成本高,只有商业解决方案 当今主流:Kafka ETL 十年前,随着大数据技术的发展,一种叫Kafka的消息中间件开始流行,并迅速在实时领域流行起来数据集成主导架构。

作为消息事件平台最主流的代表,Apache Kafka最初只是一个分布式日志存储。

后来逐渐增加了Kafka Connect和Kafka Streams功能。

基于这些能力,我们可以利用Kafka构建实时ETL链路,满足企业内部业务系统之间实时数据集成的需求。

然而,这种基于Kafka进行实时ETL的架构有非常明显的缺点: ? 需要自身具有连接和实现数据收集的能力,这往往意味着双写应用程序(代码入侵!)或额外的开源组件 ? 需要Java代码开发,超出一般数据工程师的能力 ? 节点多、环节长、数据容易中断、排查困难。

DaaS:以服务化的方式解决数据集成问题。

综上所述,现有的技术方案在一定程度上满足了需求。

在此前提下,存在一些明显的痛点: ? API 开发过于繁琐,对源端性能影响较大 ? ETL 实时性不够,无法有效复用,导致意大利面条式卡顿 ? ESB 有具有中心化优势,但成本太高 性能太弱,已经过时 ? Kafka架构复杂,开发成本高,关键数据排查困难。

DaaS(Data as a Service)是一种新型的数据架构,将数据进行物理或逻辑聚合,然后以标准化的方式为下游提供数据支持,如下图所示: 该架构的优点是: ? 数据集中化,可以在一处为多个业务提供数据,充分提高数据复用能力 ? 接口标准化 ? 数据采集只需完成一次,结合元数据管理技术,为企业构建全面的数据目录,可以快速发现所需数据 ? 解耦:数据仓库和数据服务分离,无耦合性 但是,传统的 DaaS 解决方案,例如数据中间件实现,有一个很大的局限性,就是通过批量采集的方式来收集数据,导致数据不够新鲜和真实。

-时间,直接影响传统DaaS的商业价值。

3、新一代DaaS解决方案:实时ETL的数据服务平台。

展望新十年,完全自主研发的新一代实时数据平台“Tapdata实时数据平台”作为实现DaaS架构的新型数据平台应运而生。

Tapdata LDP的核心突破点是能够实现完整的基于CDC的异构数据实时融合+计算建模能力。

通过不断实时采集数十个源数据库并传输到DaaS存储,保证DaaS的数据始终实时更新,实现了Incremental DaaS,增量数据服务平台的理念。

通过这次DaaS的实时性增强,Tapdata将肩负起将企业ETL数量从N个减少到1个的使命。

凭借“全链路实时”的核心技术优势,Tapdata将加速连接、统一数据孤岛打造一站式实时数据服务基地,为企业数据驱动业务“仓库原生”提供全面、完整、准确的生鲜数据支撑。

一张图看懂Tapdata LDP的工作模式和特点? 第一个同时支持TP和AP业务场景的实时数据平台? 两大核心技术能力:实时数据集成(ETL)和实时数据服务(DaaS) ) ? 首创DaaS方式 解决实时数据集成问题,数倍减少ETL链路数量 ? 40+数据源实时复制能力,瞬间打通企业数据孤岛 ? 多线程等实时流计算能力-流式合并和复杂宽表构建?对于程序员:首创Fluent ETL,用代码代替SQL处理数据?对于数据工程师:完全可视化,拖拽完成开发建模?开放+开源,使用PDK自行-拓展更多对接处理能力,免费获取实时能力的同时回馈社区实时应用场景 ? 实时数据管道:可以用Tapdata替代CDC+Kafka+Flink,快速构建几分钟完成数据采集+循环管道,避免CDC数据采集易出错、Kafka阻塞、链路排查困难等重大坑。

? 实时ETL:Tapdata 可用于替代ETL 工具或脚本,例如Kettle / Informatica 或Python。

基于JS或Python的UDF函数可以无限扩展处理能力;分布式部署能力可以提供更高的处理性能;基于拖放的新一代数据开发更加容易。

此外,还支持通过自定义算子快速扩展平台的数据处理和处理能力。

? 宽表实时构建:从大数据分析到数据仓库构建再到Dashboard,数据工程师使用大量的批处理任务生成宽表或视图进行展示和分析。

这些宽表的构建通常需要大量的资源,并且数据更新不及时。

但是,如果您利用 Tapdata 独特的增量宽表构建功能,您可以以最低的成本提供最新鲜的数据结果。

? 实时数据服务:企业在数字化转型过程中需要构建大量新业务,这些业务往往需要来自其他业务系统的数据。

传统的基于ETL的数据传输方案存在很大的局限性,比如链路复杂、无法复用、大量数据链路对源端影响很大等。

Tapdata的实时数据服务可以对数据进行最后的ETL,并将其同步到基于MongoDB或TiDB的分布式数据平台。

结合无代码API,可以直接在数据平台上为众多下游业务提供快速的数据API支持。

技术纯粹享受会:Tapdata LDP产品发布暨开源说明会

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 启函生物姊妹公司eGenesis获1.25亿美元融资,将用于跨物种器官移植技术

    启函生物姊妹公司eGenesis获1.25亿美元融资,将用于跨物种器官移植技术

    3月4日消息,致力于开发与人类相容的器官、组织和细胞的公司eGenesis宣布,已成功完成1.25亿美元C轮融资。 获得的资金将用于推进公司在肾脏和胰岛细胞移植方面的研发项目进入临床研究。 此外,这笔资金将用于继续开发公司专有的基因编辑平台和扩大 GMP 生产规模。 eGenesis由

    06-18

  • 只需15分钟,你的iPhone就可以“复制”你的声音

    只需15分钟,你的iPhone就可以“复制”你的声音

    史蒂芬霍金的“机械电子音”可能是世界上最容易辨认的声音之一。 但这并不是霍金自己的声音。 当霍金因肌萎缩侧索硬化症而失去说话能力时,技术还不足以让他发出自己的声音。 事实上,只有少数人能够使用语音合成器。 如今,ALS患者虽然有了更多的语音合成选择,但整体成本和

    06-21

  • 蓝湖照明完成数千万元Pre-A轮融资

    蓝湖照明完成数千万元Pre-A轮融资

    投资界(ID:pedaily)4月30日,白光激光照明核心零部件研发和制造商蓝湖照明获数千万元融资人民币Pre-A轮融资。 融资方面,投资方为野草创投。 本轮融资将主要用于为方向上多个项目开发新产品。 蓝湖照明科技是一家专注于激光照明领域的研发企业。 公司成立于2011年,通过自

    06-17

  • 悠然牧业香港IPO面向散户投资者超额认购约3.73倍,股票将于6月18日挂牌

    悠然牧业香港IPO面向散户投资者超额认购约3.73倍,股票将于6月18日挂牌

    公告显示,悠然牧业香港公开发售超额认购不足15次,所以重新认购 分配程序没有被采用。 国际发售部分也出现轻微超额认购,相当于国际发售初始可供认购股份总数约3.88倍。 发售价为每股6.98港元。 所得款项净额约为32.4亿港元。

    06-17

  • 古井贡酒:上半年净利润13.79亿元,同比增长34.53%

    古井贡酒:上半年净利润13.79亿元,同比增长34.53%

    古井贡酒发布中期业绩公告。 报告显示,上半年古井贡酒营收70.07亿元,同比增长26.96%;归属于母公司净利润13.79亿元,同比增长34.53%。

    06-17

  • 深亮6英寸VCSEL芯片生产线即将投产,解决3D传感光源燃眉之急

    深亮6英寸VCSEL芯片生产线即将投产,解决3D传感光源燃眉之急

    MEMS 中国首条6英寸VCSEL芯片生产线落户火炬区逸仙微电子产业园广东中山深亮智能科技(中山)有限公司拥有VCSEL核心技术和深厚的行业积累。 即将量产紧缺的VCSEL芯片,满足手机3D传感、光通信、智能驾驶传感等领域的迫切需求,一举解决我国半导体激光器“缺芯”问题。 困境。

    06-06

  • 专注中国-东非跨境贸易,蝶曦科技宣布完成300万种子轮融资

    专注中国-东非跨境贸易,蝶曦科技宣布完成300万种子轮融资

    投资界(ID:pedaily)3月24日消息,专注于中国-东非跨境贸易的跨境海外科技公司蝶曦科技中国-东非贸易项目,完成1万元种子轮融资。 本轮投资主要来自行业相关方,将用于商业模式拓展验证和海外团队建设。 蝶希科技团队认为,在东非国家税收政策调整、一带一路倡议、非洲本土

    06-17

  • 一首Web3小白的《DAO漂流》

    一首Web3小白的《DAO漂流》

    真爱如鬼,人人都在谈论,但没人却真真切切地见过。 从某种意义上来说,把这句话开头的“真爱”换成“Web3”也未尝不可。 今年,Web3已经成为大家都在讨论的一个术语,并且有强烈的趋势将其替换为“元宇宙”。 但与元宇宙不同的是,大多数人只能是消费者和体验者。 以DAO和Pl

    06-18

  • 打造办公社交电商,犀牛GO获数千万天使轮融资

    打造办公社交电商,犀牛GO获数千万天使轮融资

    据投资界8月19日消息,据铅笔路报道,办公社交电商“犀牛GO”获今年一月从道森资本获得数千万资金。 天使轮投资。 据了解,Rhino GO成立于2019年7月,创始人陈俊奇是易果新零售事业群前副总裁。 以犀牛GO的代表产品悦GO为例。 它基于办公室同事与同事之间牢固的社交关系,专

    06-18

  • 钟南山团队已与阿里云达成合作,致力于新冠病毒药物和疫苗的研发

    钟南山团队已与阿里云达成合作,致力于新冠病毒药物和疫苗的研发

    为了尽快研发出新冠病毒相关疫苗和特效药物,2月13日,钟南山团队广东省医学基金会、广州呼吸健康研究院与阿里巴巴云南、马云公益基金会达成合作,加快研发临床治疗COVID-19的关键技术、有效药物和疫苗。 征服新冠病毒的关键步骤之一是尽快缩短新药和疫苗的研发周期。 新药、

    06-17

  • T3旅游获数亿元A+轮融资,洪泰基金行动,

    T3旅游获数亿元A+轮融资,洪泰基金行动,

    投资圈(ID:pedaily)据投资圈(ID:pedaily)7月28日消息,洪泰世家获悉,国家核心智慧出行平台南京灵星科技有限公司(以下简称“T3出行”获得洪泰基金投资的数亿元A+轮融资,本轮融资将主要用于扩大用户规模和运力、孵化生态产品和服务以及投入研究。 据悉,继2018年完成7

    06-18

  • NAND原厂自2月份起陆续涨价5%,部分美光Flash产品涨幅超过15%

    NAND原厂自2月份起陆续涨价5%,部分美光Flash产品涨幅超过15%

    财联社 财联社3月2日讯,今年第一季度DRAM现货价格持续上涨。 预计二季度合同价即将出现变动。 铠侠与西部数据(WD)合资的日本NAND工厂发生原材料污染事件。 全球NAND产量减少的影响有所扩大。 尽管业内预计供应短缺效应将从二季度开始全面显现。 然而,NAND价格较第一季度

    06-06