首页 > 科技未来 > 内容

对话阿里巴巴达摩院李飞飞：3次涅槃，阿里巴巴的数据库自研之路

发布于：2024-06-18 编辑：匿名来源：网络

2017年，关系数据库之父、IBM研究员E.F. Codd发表了一篇名为《A Relational Modelof Data for Large Shared Data Banks》的论文，首次提出了关系模型。

这一概念已经成为现代数据库产品的主流。

这是数据库历史上的一个重要转折点。

如今，我们看到的大多数主流数据库都是围绕这个模型进行研究的。

2006年，霍尼韦尔开发了Multics Relational Data a Store，开启了商业关系数据库时代。

当时，拉里·Ellison（甲骨文·创始人）在一家名为 Ampex 的软件公司工作，该公司为中央情报局工作。

2006年，Ellison与鲍勃·迈纳（Bob Miner）和埃德·奥茨（Ed Oates）创立了一家名为软件开发实验室（SDL）（Oracle的前身）的计算机公司，并在成立后的第三年推出了第一个商业SQL关系。

数据库管理系统。

2010年，IBM终于将DB2带入商业市场； 2006年，软件巨头微软推出了另一款明星产品——SQL Server。

从此，传统商业数据库几乎成为这些公司的专利，垄断了整个数据库行业市场。

谁将改变数据库“游戏规则”？ 2008年左右出现的开源数据库就是一次改变游戏规则的尝试，而以云厂商为首的云原生数据库则将这种“改变”推向了高潮。

2019年，AWS发布业界首个云原生关系数据库Aurora； 2020年9月，阿里云在国内率先发布自主研发的云原生数据库POLARDB，并于2018年4月正式商用。

作为规则改变者，阿里数据库本身的研究也是一条艰辛的路。

您如何看待数据库云服务的未来？阿里巴巴有哪些核心数据库产品？在阿里云十周年北京峰会上，雷锋网对话了ACM杰出科学家获得者、达摩院数据库与存储实验室负责人李飞飞。

这个李飞飞不是那个李飞飞。

他是谁？达摩院官网上，对李飞飞的介绍是：犹他大学计算机科学系终身教授。

多次获得ACM、IEEE、Visa、Google、HP、华为等奖项，并获得IEEE ICDE 10年最具影响力论文奖、ACM SIGMOD最佳论文奖、ACM SIGMOD最佳系统演示奖、IEEE ICDE最佳论文奖。

曾获美国NSF职业奖、中国国家自然科学基金委海外重点研发奖、ACM年度杰出科学家等。

担任多个国际一流学术期刊编委、主席。

学术会议。

据李飞飞介绍，他于今年5月正式加入阿里巴巴，并成为数据库团队负责人。

他还担任达摩院首席数据库科学家，带领团队投入研发具有自主知识产权的数据库系统。

其团队开发的产品和技术包括新一代分布式数据库、非结构化数据管理、数据安全、智能数据库等。

目前，李飞飞不仅负责云智能数据库产业事业部，还负责数据库和数据库业务。

达摩院旗下存储实验室，覆盖阿里巴巴集团数据库从研发到业务支撑到云业务输出到客户服务的全链条。

路。

阿里巴巴数据库的三个阶段：商业、开源、自研李飞飞表示，阿里巴巴数据库发展到今天并不是一蹴而就的，而是经历了“破茧成蝶”的艰难探索期。

第一阶段，阿里巴巴使用了IBM DB2和Oracle的商业数据库。

阿里巴巴早期是从淘宝起家的。

IBM DB2和Oracle的数据库可以支撑淘宝、天猫的快速发展，因为当时核心主渠道是电子商务，数据库是作为配角出现的。

当时阿里巴巴集团内部数据库团队主要以传统数据库厂商为主。

的角度来理解问题。

这个阶段一直持续到2012年，当时电子商务业务快速发展，对传统Oracle企业级数据库解决方案提出了诸多挑战。

最明显的挑战是成本太高。

当高并发的互联网电子商务发展到巨大规模时，那个成本将是天文数字。

第二阶段，双十一诞生后，阿里巴巴开始大规模使用开源数据库。

很多业务逻辑过于复杂，单纯使用Oracle的弊端开始显现。

比如有些业务场景无法解决，单纯依靠Oracle技术人员解决问题成本很高，时效性阿里巴巴等不起。

如果这里出现问题，几分钟就恢复了，更不用说一天了，你等不了几个小时、几分钟。

不能有一些核心问题解决不了。

打电话给Oracle，厂商就会派人过来——这种模式正在受到挑战。

所以阿里巴巴集团从2018年之后，尤其是双十一诞生之后，就开始考虑所谓简单的业务驱动逻辑，开始大规模使用开源数据库——当时是用中间件来分发表。

。

第三阶段，阿里云快速发展，自主研发的云原生数据库诞生。

云时代，阿里云业务发展迅猛。

另外，在集团业务中，传统的分布式表中间件解决方案已经无法满足日益复杂的业务的挑战（简单的业务可以）。

内部自研云原生数据库迫在眉睫。

POLARDB顺应潮流而生。

云数据库POLARDB是一个什么样的新物种？资料显示，POLARDB是阿里云自研的下一代关系型云数据库。

%兼容MySQL，存储容量高达TB，性能高达MySQL的6倍。

单个数据库最多可扩展至16个节点，适合企业使用。

多样化的数据库应用场景。

POLARDB采用存储计算分离架构，所有计算节点共享数据副本。

POLARDB基于云原生设计理念。

其架构图及特点如下： POLARDB架构 POLARDB的特点主要包括：一次写入，多次读取。

采用分布式集群架构，一个集群包含1个主节点和最多15个只读节点（至少1个以保证高可用性）。

主节点处理读写请求，只读节点仅处理读请求。

主节点和只读节点之间采用Active-Active故障切换方式，为数据库提供高可用服务。

计算和存储分离。

满足公有云环境下用户业务弹性扩展的刚性需求。

数据库的计算节点（DB Server）只存储元数据，而数据文件、重做日志等则存储在远程存储节点（Chunk Server）中。

此外，POLARDB还具备分钟级备份恢复、秒级弹性扩展能力，兼容MySQL 5.6、MySQL 8.0、Oracle、PG等，还可以为企业提供金融级高可用服务。

筏协议。

雷锋网注意到，POLARDB目前在猿辅导、心动网络、百胜软件、EasyCho等平台上使用。

阿里巴巴数据库生态：四大板块，广阔场景但事实上，POLARDB只是阿里巴巴数据库生态的一小部分。

外界眼中“非常庞大、复杂”的阿里巴巴数据库是什么样子的？李飞飞做了简单的总结。

他指出，从形式上看，分为四个部分。

如图所示。

第一块：OLTP——关系型事务数据库。

包括：POLARDB-X（今年即将推出POLARDB分布式版本）：分布式关系数据库系统，水平扩展架构设计，应用于跨IDC多活、双十一等高并发业务场景； POLARDB - 云原生数据库，基于共享存储与计算分离架构的软硬件，一体化设计，弹性伸缩； MySQL/PG/MSSQL/MariaDB/PPAS - 开源和第三方商业数据库。

第二块：OLAP——在线分析数据库。

包括：AnalyticDB——海量数据实时高并发在线分析云服务； Data Lake Analytics - 无服务器联合数据湖交互式分析服务； TSDB - 时间序列时空数据库，用于物联网/城市大脑等。

第三块：NoSQL - 非结构化和专有领域。

包括：GraphDB——高性能分布式缓存系统以及基于它的图数据库； Redis/Memcache——开源缓存云服务； MongoDB——文档数据库等。

第四块：工具产品。

包括：DTS——数据传输服务、异构多活数据同步中心； DBS——数据库云备份服务等。

前面提到，阿里巴巴走过了漫长的探索过程，才形成了今天的数据库生态。

李飞飞觉得，这与阿里的先天优势之一——庞大、丰富的场景密切相关。

传统数据库厂商的做法是开发一个数据库产品，让客户使用后提供反馈，以便他们进行改进。

但阿里巴巴内部天然拥有大量的业务场景，这对任何新产品都形成了巨大的“试验场”。

该技术不会急于在公有云上输出给客户，而是会通过“内部培训”进行验证和保证，以确保可靠性和安全性。

这些任务完成后，将发布给公有云、私有云、混合云的客户。

发布并提供。

这是阿里云、AWS等公司所具有的优势，但传统数据库厂商却没有。

全球数据库大战即将打响！如今的阿里巴巴数据库已经在国内处于领先地位，但您如何看待其在国际市场的地位？李飞飞也有自己的想法。

他以原生分布式数据库技术为例（雷锋网注：原生分布式数据库是分布式数据库的两大解决方案之一，另一个是较早出现的分布式数据库中间件）。

在全球范围内，原生分布式数据库技术的领先者是Google，它首先提出了Spanner，一种可以实现跨数据中心数据一致性的分布式技术（2016年10月25日，Google提出了一个名为Spanner的长期计划。

该计划的原理就是一旦流量激增，硬件超载，数据就会在数以百万计的数据中心之间自动传输。

Spanner：“跨接桥”的意思是：“跨越数据中心，自动进行”。

移动和复制数据。

”）谷歌在Spanner数据中心配备了自己的原子钟和GPS接收器。

这些时间协调设备连接到特定数量的主服务器，然后传输到整个谷歌网络。

其他计算机传输时间。

李飞飞觉得谷歌有一个棘手的过程，那就是使用硬件（原子钟）。

他个人认为，阿里巴巴在分布式领域的积累，可能会在分布式数据库的某些领域和维度上超越谷歌这样的公司。

为什么？ “我认为任何技术都是源于业务推广，只要你有业务场景，我想你的技术就会逐渐发展到最前沿。

阿里巴巴电商双十一场景无论是规模还是金额都是全球独一无二的。

”并发量超过了谷歌和亚马逊，之前举办过类似双十一的活动，数据库直接宕机了。

” （雷锋网注：这次宕机可能是指CNBC报道的亚马逊放弃Oracle数据库，导致Prime Day宕机）值得注意的是，李飞飞还透露了两个重要信息： 1、今年下半年，他们的团队可能会合并云原生数据库POLARDB和分布式关系数据库X-DB 最新开发的就是上面提到的POLARDB的分布式版本。

2、他们团队将在2016年ACM SIGMOD数据管理国际会议（全球数据库领域学术地位最高的国际学术会议）上分享双十一场景下的分布式数据库架构。

据了解，Google Spanner、AWS Aurora等均在SIDMOD大会上首次发布。

这实际上意味着中国厂商在技术上已经与顶级数据库厂商处于同一舞台。

“从技术和商业的角度来看，我们希望永远用商业来推动技术发展，而不是闭门造车，搞研究，没有开发出任何东西。

我们不说我们领先世界，但我们希望永远走在世界前列，与AWS和Oracle密切合作，这些厂商处于技术和商业数据库的第一阵营。

”李飞飞还回答了业界非常关心的不同厂商数据库之间的兼容性问题。

他表示，阿里巴巴会尽力兼容现有的生态，而不是破坏现有的生态。

在业务方面，阿里巴巴将鼓励和支持更多的中小型开发者、合作伙伴、生态伙伴围绕阿里巴巴现有的系统开发上层应用，维护和控制一系列工具和人力投入。

在业务策略上，阿里巴巴将推出专项扶持计划，重点打造金融行业、政府行业、新零售行业典型案例。

当双方的数据库之间形成良性循环，生态系统足够大的时候，你就可以独立开发自己的生态系统。

“当我的热带雨林长大后，它将是一个独立的热带雨林。

对话阿里巴巴达摩院李飞飞：3次涅槃，阿里巴巴的数据库自研之路

从你的热带雨林中分支出来是我的目标。

但我们还没有达到这一点。

这是我们的最终目标。

”在阿里云北京峰会当天，阿里云发布了业界首个兼容Oracle的云原生数据库POLARDB v2.0。

加入阿里巴巴：迎接挑战，带领团队走得更远李飞飞坦言自己也面临一些挑战，但雷锋网认为，这些也是行业内的一些常见挑战。

第一个挑战是内部和外部的压力。

如果我们将传统数据库制造商与汽车制造商进行比较，他们只制造汽车就可以了。

阿里巴巴不仅要造车，还要在云上支撑集团业务、服务外部用户——它既是制造商，又是4S店，既有研发，也有运维。

二是混合云数据架构带来的业务挑战。

虽然现在云计算市场蓬勃发展，但无论是国内的阿里巴巴、腾讯、华为还是海外的AWS、微软Azure，他们都面临着一个问题——上云并不是非黑即白、0与1的问题，而是一些业务可以迁移到云端。

有些业务没有上云（仍然保持传统IT架构）。

如何确保安全、稳定、高效的混合云部署具有挑战性。

三是数据安全和隐私保护。

无论是AWS还是阿里云，这都是一个永恒的话题。

四是智能化系统的大规模实施。

如今，系统形态复杂，数据量不断增加，运维挑战越来越高。

依靠人力投资并不是最好的选择。

必须利用人工智能和机器学习技术尽可能地解决问题，提高运维效率。

但这些挑战是李飞飞在加入阿里巴巴之前就可以想象到的。

作为一名横跨学术界、科研界、工业界的“全能型”技术人员，他深刻洞察到自己在企业界和学术界的职业生涯差异：“企业界更多从应用需求出发，先解决问题，然后再解决问题”。

然后看如何继续运行，如果不知道如何计算，就将其全部分解为1，用工程思维来解决问题，学术界和科研界将集中于一些突破和优化。

单点核心技术，甚至进行前沿布局，但距离融入业务系统还需要一段时间。

”采访最后，在谈到加入阿里巴巴的原因时，李飞飞非常坦诚地表示，阿里巴巴有丰富的业务场景，是天然的数据库圣地，可以支持各种业务培训，技术也很出色，可以。

另外，他坦言，阿里巴巴是高度互联网化、开放性和协作性的，他在美国这么多年，更习惯选择加入阿里巴巴。

这是一个自然的过程，如今全球数据库市场竞争激烈，传统厂商实力雄厚，李飞飞也会带领阿里云数据库和达摩院数据库与存储实验室继续走得更深更远。

如需转载，请前往雷锋网官网申请授权。

站长声明

标签：

上一篇：古茗获得红杉资本中国基金和美团旗下龙珠资本投资

下一篇：Plum完成2000万美元B+轮融资

谷歌大招：Chromebook将支持Android应用

雷锋网消息：谷歌昨天（1月23日）发布通知，从今年开始，未来发布的所有Chromebook都将支持Android应用。在CES上，宏碁和三星分别推出了两款Chromebook，这些Chromebook还配备了支持Android应用程序的最新系统。要在 Chromebook 上安装 Android 应用，需要 Chrome OS 53 或

06-17
京东数科拟登陆科创板IPO，估值高达2000亿元

投资界（ID：pedaily）7月2日消息，据媒体报道，京东数科科技控股有限公司京东数科（以下简称京东数科）国泰君安（17., 0.00, 0.00%）、中信证券（24., 0.00, 0.00%）、五矿证券、华晶证券已与公司签署辅导协议在科创板IPO。京东数科回应：不予评论。 6月26日，京东宣布与京

06-18
睿帆科技荣获第八届中国创新创业大赛广东赛区12强

瑞帆科技荣获第八届中国创新创业大赛广东赛区12强。 2019年8月29日，第八届中国创新创业大赛（广东赛区）暨第七届“珠江天使杯”科技创新创业大赛在广州软件科技园圆满落幕。超过10,000家企业报名参加了整个比赛。经过初赛、复赛、地方、市级决赛的激烈角逐，来自全省的众多

06-17
视频会议、智能报告……钉钉的免费午餐更有诱惑

雷锋网4月26日报道，阿里巴巴旗下企业协作工具钉钉今日在杭州召开春季战略发布会，并发布了包括多个视频在内的视频。产品更新，包括会议和智能报告。一周前，微信光研打造的企业微信刚刚上线。无论是巧合，还是刻意安排，钉钉似乎已经“做好了准备”。钉钉最新数据：已入

06-17
固博科技自主研发国产测试研发协作流程工具，助力芯片设计企业数字化

11月19日，上海固博科技有限公司（简称固博）成为中国首家专业从事半导体测试和研发协作的解决方案提供商。河间科技）受邀出席合作伙伴河间工业软件集团新品发布会，并发布了业界首款国产研发的测试协作流程工具OneTest。这将进一步加速中国芯片设计业的发展。随着我国在智

06-06
小鱼区块链完成3000万元天使轮融资，UBAI投资

4月12日投资界消息，近日，区块链领域创业公司深圳市小鱼区块链技术有限公司获得1万元天使投资轮投资，由深圳优比爱信息技术公司投资。据悉，本轮融资项目谷链是区块链技术与农产品溯源相结合的实际应用。深圳市小鱼区块链技术有限公司成立于2007年，是一家专业从事区块链

06-18
快赢科技获创江科技1000万元Pre-A轮融资，提供智慧旅游服务

投资界消息11月5日，从相关媒体获悉，快赢科技近期完成1000万元Pre-A轮融资本轮融资，投资方为创江科技。　　本轮融资将用于技术投入和市场推广。　　快影科技是今年4月成立的智慧旅游解决方案提供商。　　快影科技优化景区变现能力，提供游前、游中、游后多种营销方式，还

06-17
乔布斯去世八年后，蒂姆·库克是一名合格的苹果首席执行官吗？ 10月5日

，恰逢我国70周年国庆假期，也是苹果创始人乔布斯逝世8周年纪念日。这一天，苹果首席执行官蒂姆库克也在推特上表达了对乔布斯的怀念。推文引用乔布斯的话：“我们拥有的最宝贵的资源就是时间。 ” - 与这条推文相关的是乔布斯在纽约第五大道苹果专卖店前凝视的黑白照片。当

06-17
2015“最强”中国创新创业大赛华东赛区来了，等你来参赛！

关于大赛最“硬”的创新创业大赛。纵观创业的繁荣，纵观历史，从未出现过如此大规模的创业浪潮。正是总理的一句“大众创业、万众创新”点燃了创业的熊熊烈火。，还是因为时代的原因，我们无法回避创业？今天，是创业的繁荣时期，也是创业的艰难时期。如果你加入了创业大军

06-18
“新格视频”完成新一轮近亿元融资，同创伟业领投

据投资界（ID：pedaily）2月20日消息，日前，南京新格视频信息技术有限公司专注于智视大数据的新格视频股份有限公司（以下简称“新格视频”）成功完成新一轮近亿元融资。本轮融资由同创伟业领投。这笔资金将用于进一步完善新格视频全产业链的产品布局和在市场体系领域的持

06-17
睡眠家居品牌“半日闲”获超千万元天使轮融资

睡眠家居品牌“半日闲”近日获得超千万元天使轮融资。本轮投资方为先锋K2VC和朱凡尔，元石资本独家服务财务顾问。本轮融资将主要用于团队建设、产品研发和供应链优化。

06-18
阿里云创新峰会·遂昌专场暨2020遂昌数字生态产业峰会成功举办，阿里云与遂昌政府携手推动遂昌数字化创新发展

11月25日，“开源成长杭翔遂昌”阿里云创新峰会遂昌专场暨遂昌数字生态产业峰会在杭州举行。峰会聚焦遂昌数字生态经济发展，从“科技创新、文化创新、农业创新”三个方向共同探讨遂昌“数字绿谷”建设。目前，一线城市的企业面临着人工成本高、运营成本高、员工交通住房成本

06-17