小米14即将推出高通骁龙8 Gen3,与之前的8系列旗舰芯片有点不同
06-21
背景:5月23-24日,以“欢启”为主题的腾讯“云+未来”峰会云计算大会在广州召开,广东省各级政府机构领导、国内外业界学术专家、行业领袖和技术专家在现场共同探讨云计算和数字产业创新发展。腾讯云大数据产品中心总经理刘宇红在24日下午的AI大数据专题论坛上介绍了大数据时代背景下腾讯如何构建全球数据体系。
今天我们论坛的名字是AI大数据。我们前面的嘉宾讲的是人工智能,我主要讲的是大数据。
AI确实非常强大,可以帮助各行各业解决不同场景下的很多问题。如果说人工智能是武器,那么大数据就是弹药。
没有弹药,武器就很难发挥应有的作用。我今天的主题叫《全域数据体系建设》。
什么是全球数据系统?每个人的理解可能不同。有两种理解,横向的和纵向的。
一是各行业、各领域的融合。比如旅游大数据可能包括文化、交通、餐饮、住宿、保险等行业,全部整合在一起,这就是全球大数据的概念。
还有一个垂直的概念。比如从数据的生命周期来看,数据是从我们业务的线上系统产生的,然后流向我们的分析系统,比如大数据平台,或者数字仓库;然后到应用平台,比如在AI应用平台中进行各种应用,最后返回到我们的线上系统,形成一个循环。
这也是一个全球数据系统。如何构建全球数据体系?众所周知,腾讯其实有很多类型的业务,包括支付、社交、游戏等,这些数据如何整合在一起呢?我们十年前就开始研究大数据。
当时我们就想把腾讯所有的业务数据都整合起来。当然,这不是一件容易的事,而是非常困难的。
数据如何使用,如何采集,进来后如何保存,保存后如何管理,管理后如何使用。众所周知,腾讯拥有大量数据,而且数据形式各异。
比如有的数据比较完整,有的业务甚至不写日志。如果我们想要获取数据,就需要使用在线业务系统。
大家都知道腾讯代理了很多韩国或者其他地方的游戏。当我们发现数据不全,想改的时候,商家说找合作伙伴。
我们应该等一两年才能找到韩国人。开发团队甚至可能被解散。
这种情况经常发生。类型的问题。
数据质量参差不齐,这是我们遇到的一个巨大困难。还有一个困难。
我们实际上面临着人才短缺的问题。我们本来是做业务系统的,但是没有人懂大数据。
我相信很多企业都面临着我们以前遇到过的同样的问题。现在回想起来,我们基本上解决了这些问题。
从技术上讲,腾讯所有业务的数据都集中在这里,而且从技术上讲,这些数据是互联的。但它与业务逻辑隔离,非常安全,而且只要授权就可以随时访问。
大家可以看一下目前整个大数据平台的数据量。我们的平台每天接收13万亿条数据,平台上的各种实时计算每天超过3.5万亿次。
为了支持离线任务,我们的资源调度系统每天启动1.5亿个容器。我们的数据量超过PB。
为了支撑这么大的体量,我们动用了3万多台支撑机器。我们的梦想已经实现了,但是可以看出,实现这个梦想还是非常困难的。
我们用了近10年的时间、大量的青春、大量的人力、大量的硬件资源来做这件事。接下来我想从数据生命周期的角度分享一下我在刚才提到的全球数据的三个方面的经验:在线系统、分析系统和数据应用。
众所周知,一般业务系统的在线系统和我们分析系统的数据是隔离的。线上系统是一套数据库,还必须搭建另一套数据仓库来进行分析。
许多企业仍然这样做。我们从两年前就开始尝试,希望把在线系统和分析系统整合起来。
我们开发了一个名为TBase的系统,它是一个New SQL HTAP分布式数据库。我们希望统一在线交易处理和离线分析系统的数据库。
现在腾讯,包括微信支付,也在使用这个数据库。此外,TBase也已经发布,并通过腾讯云向大家开放。
该数据库支持OLTP和OLAP的集成。 TP上每分钟可处理10,000笔交易,AP分析性能比行业基准高约5倍。
在线和分析系统的融合应该算是当前数据库发展的趋势之一,也是我们的经验。第二步,我们的大数据平台主要是支撑分析系统。
这里最困难、最突出的问题就是刚才提到的数据治理问题。我们的业务非常多,种类很多,而且业务也有很大不同。
每个企业对数据的理解和使用都不同。数据是一种资产,这个资产非常重要,所以我们必须保证我们平台中数据资产的安全和质量。
他们不会错,也不会迷失。数据从哪里来?它流向哪里?数据与数据之间是什么关系?我们都需要了解血缘关系和关系。
腾讯内部业务非常庞大,而且非常独立。我们如何将以前不规范、混乱的数据变成现在更加有序、有效管理的状态?我有三点经验可以分享。
第一,人性化服务。我们花了很长时间整理资料。
我们花了近三年的时间帮助各个业务组进行系统迁移。我们派人坐在他们旁边,帮助他们在各个业务上啃骨头,帮助他们整理和迁移报表。
二是搭建实时数据采集平台。我们从源头收集数据,这样我们就可以控制数据的质量,跳过很多中间环节,自己制定各种数据标准。
第三,我们搭建一个平台给他们使用,我们提供非常强大的计算资源。在这里,我们收集了来自许多其他不同企业的数据。
企业希望连接到我们的平台,享受数据交换的好处,并从我们庞大的资源支持中受益。他会与我们联系,我们会制定规范,这样他就必须遵循规范和标准。
这是我们在数据治理方面的三个经验。分析系统的背后是我们的应用程序。
腾讯的业务那么多,每个公司都想做个性化的应用、个性化的推荐,包括内容和广告推荐,还有游戏中的个性化道具推荐。每个企业都想自己做,所以我们做了最基本的事情。
我们将所有与用户相关的数据汇总在一起。我们从最底层的用户画像开始,建立了一套以用户为中心的用户画像。
支持上层业务发展。底层的基础必须打牢,才能很好地支撑上面的应用。
该用户画像现已支持腾讯全部效果广告,每年带来10%以上的精准效果提升。不要低估10%。
这每年大概有几十亿的收入,还是很可观的。我们必须打好底层数据基础,才能更好地实现上述应用。
我们想把它变成一个数据服务。现在这个服务也是通过腾讯云开放的,叫数字营销。
大家可以尝试使用一下(他二哥注:可以点击公众号菜单中的“技术平台”-“应用”找到这些数据服务)。回顾大数据平台的发展,我们经历了离线计算、实时计算、机器学习三个阶段。
从数据的角度来看,我们都是去中心化的系统。这个系统用于存储,另一个系统用于缓存。
,还有一个做多维度的查询分析,都是分散孤立的,各个数据不互通。后来我们把从数据采集到存储再到可视化的所有数据整合起来,变成了一个套件。
然后我们把这个套件变成一个每个人都可以访问的平台,把它变成一个面向服务的东西,每个人都可以调用我们的服务。在应用方面,我们也符合AI的趋势。
我们在上面搭建了机器学习平台,向智能应用方向发展。本来我们是一个通用的数据平台或者机器学习平台,但是现在我们和行业的结合越来越紧密。
我们根据垂直行业的不同场景需求,为他们提供各种解决方案。发展主线是从碎片化到融合、从通用平台到场景化。
现在我们已经开放了这样的平台。我们将数据收集、分析和挖掘扩展到可视化。
我们通过腾讯云打通了全链条的所有平台。我们希望能够加快大家数据处理的效率,帮助全球体系中的每一个人。
施工时可以使用它。今年7月份的云+未来峰会上我们也发布了一个大数据产品,叫大数据套件——TBDS。
刚才也说了,过去我们很缺人才。很多企业也面临这个问题。
他们想做大数据,但没有大数据人才。该产品让您无需大数据人才即可使用大数据平台。
这就是这个产品的初衷。我们最近更新了很多,对最重要的数据管理功能做了很多改进,今年我们的版本也更新了。
我们在它上面做了很多服务和工具来提高大家的使用效率。值得一提的是,我们不仅支持腾讯内部版本,还兼容业界比较流行的CDH和HDP版本。
除了平台的开放之外,在腾讯云上,如果你留意的话,你会发现很多数据服务,不仅仅是平台,还有数据服务。比如移动分析服务会分析很多APP的行为,还有反欺诈服务,还有其他一些数字营销服务和LBS地理位置服务。
这是可以向用户提供的数据服务。云用户可以将自己的数据与我们的数据服务集成,构建自己的全球数据系统。
这样,它不仅仅是你自己的数据,还可以与其他数据融合、跨界。平台是开放的,我们的数据服务也是开放的。
在云中,不仅仅是平台和服务,还有生态系统。我们有能源、交通、教育等很多行业,这里聚集了各个行业的用户和服务这个行业的开发者。
这是一个真正繁荣的生态社会,每个客户都能找到跨界的可能。例如,能源可以与交通、气象服务结合,更好地服务客户。
就像腾讯内部一样,我们建立了一个大数据平台,整合腾讯内部的所有产品,比如游戏、视频产品,从而产生更多的创新。在我们的云里,每个人都可以做同样的事情,找到跨界的机会,产生更多的创新可能性,挖掘更多的数据价值。
最后,这是一个例子。在昨天上午的圆桌论坛上,中国银行行长也提到,中国银行利用腾讯的一些数据分析能力和我们的平台能力,结合一些公共网络空间数据服务。
他们提供了一些舆情数据服务,升级风控体系,进行风控体系的各项创新,强化风控平台。这是我们使用平台使用我们的数据服务与很多行业的传统场景相结合时发生的化学反应。
这样的案例将会越来越多。我们也希望通过我们的平台能力和我们的数据服务结合你们很多的业务场景,能够产生不一样的效果,带来很多创新。
我们也希望帮助大家发现更多数据的价值,这也是我们做大数据的梦想。这就是我分享的,谢谢大家。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-18
06-18
最新文章
【玩转GPU】ControlNet初学者生存指南
【实战】获取小程序中用户的城市信息(附源码)
包雪雪简单介绍Vue.js:开学
Go进阶:使用Gin框架简单实现服务端渲染
线程池介绍及实际案例分享
JMeter 注释 18 - JMeter 常用配置组件介绍
基于Sentry的大数据权限解决方案
【云+社区年度征文集】GPE监控介绍及使用