首页 > 科技未来 > 内容

中科院院士梅宏：大数据给计算系统带来的挑战及对策丨2019数据博览会

发布于：2024-06-18 编辑：匿名来源：网络

在贵州举办的一年一度的数据博览会吸引了国内外各界的关注。

围绕大数据最新技术创新和成果，众多学界、政界学界人士参与交流。

5月25日，在“5G+大数据推动智慧社会数字化转型论坛”上，中国科学院院士梅宏发表精彩演讲，重点探讨了大数据给计算系统带来的挑战以及如何对付他们。

作为大数据领域的权威专家，梅宏对大数据学术研究和工具开发有着深刻的理解。

他提到，大数据让整个信息技术体系进入了重构的前夜，大数据的管理和处理方式正在发生深刻的变化。

比如探索芯片上存储与计算的融合是一个可能的方向；例如，软件定义可以做很多事情；例如，开源软件+开放硬件可能会创造颠覆性机会。

他提到了个人对大数据的理解，并谈到了三个实际挑战。

但挑战的背后，他们的团队集合了最好的大学和阿里巴巴等巨头公司的技术，完成了三批项目。

未来，我们将追求高效率、低延迟、多种计算模型的融合，创造更多核心、关键、原创技术。

演讲原文如下，雷锋网在不改变原意的情况下进行了编辑整理：大数据导致了整个信息技术体系进入重构期的现象，这实际上给了我们颠覆性发展的机遇。

因为它和以前真的不一样了。

我个人对大数据的理解分为四个方面。

一是申请要求。

大数据的应用需求可能会让我们的计算机架构需要重构。

比如过去在单机架构中，我们知道计算机处理方式强调I和O，所以我们以CPU的处理能力为核心，围绕处理能力来组织数据。

现在我们有很多新技术，比如新的存储介质、新的计算设备，这些可能会导致我们的架构发生一定的变化。

如何改变？是否会出现一种以数据为核心、计算围绕数据的结构？现在我们正在探索在芯片上实现存储和计算的融合——这是一个可能的方向。

二是云计算模式领域化、资源过载、资源平台化的大趋势。

我们希望在提升服务质量、新的硬件管理、追求极致性能等方面做大量的工作。

与此同时，我们也看到了从云到边缘的转变。

这种云融合、云与边缘相结合的新计算也在不断涌现，以及软件定义对整个世界的影响。

我们对数据管理、软件开发运营、数据分析等有很多要求，都需要很多新的东西，与过去不同。

第三，沟通。

5G可以解决通信问题，所以我们的网络通信也需要更好的带宽、移动性、过载发展。

关于带宽、移动性、过载等问题，我们看到整个信息技术体系还是沿袭了过去的发展模式。

事实上，理论上还有很大的讨论空间。

基础设备也有很大的讨论空间，比如大数据组织。

、分析等相关技术理论亟待突破。

基础设备、高性能、高时延、高吞吐等极限大数据需求需要高吞吐处理芯片、多通道数字化、视觉设备等。

第四，开源软件和开放硬件正在引发我们产业的一些变革。

生态。

事实上，颠覆性发展的机会或许就在这里。

概念转变：大数据管理和处理管理是数据的存储和组织，处理是将数据并行处理为内容。

对于管理来说，比如传统数据库、关系数据库，它们的目标是什么？应用的通用性、数据的一致性、应用需求的处理方式和响应时间都不同，很难有通用的管理方法。

由于无法定义模式，因此无法保持一致性。

如果无法提前定义数据模式，就无法维护其事务和其他数据的一致性。

在性能方面，由于单表存储和高性能很难实现，这严重降低了大规模、多表相关查询和复杂分析类型的SQL查询的性能。

这是传统数据库在大数据时代无法做到的。

事物。

对于处理来说，其实分为三个阶段：前大数据时代、大数据早期、现在。

早期都是关系数据库，后来是 SQL。

这些是管理层采取的一些路径。

从分析的角度来说，比如大数据分析软件、深度学习的一些发展，一般都是对之前的东西的总结。

当然支撑的东西就是计算中的分布式处理、实时分布等相关概念，这是计算基础的支撑。

虽然传统的关系数据库仍然被广泛使用，但是结构化数据对我们来说仍然是非常有用的。

然而NoSQL和NewSQL都在快速发展。

我们可以看到NoSQL和NewSQL的比例在增长，市场份额在扩大。

这也导致了我们数据库管理系统开发理念的转变。

传统的关系数据库已经成为某一领域的通用平台。

大数据处理——我们为什么要谈论这个？无论大数据和HaDoop如何发展，单机的计算能力都是有限的。

所以我们必须并行处理，并且没有办法构建一台计算机来满足所有处理需求。

例如，最早出现的HaDoop就是批处理。

批处理有什么好处？吞吐率高，适合处理海量预存数据。

二是流处理，适合在线、高速延迟的数据处理。

还有一种新的数据类型是图处理，它使用大量的图数据。

例如，以社交网络为代表的大量图数据拥有数亿个节点。

这么大的社交网络图该怎么办？所以现在这样的系统有很多，而且都是开源的，但是没有一个单一的处理模型可以满足所有的需求。

我们来看看目前存在的问题。

例如，Spark是一个批处理平台。

它采用VP技术来处理流模式。

它将流式计算划分为时间片，并将其分解为小批量。

本质上还是批处理。

只需将每个批次缩小即可。

图处理。

图数据的最大问题是并行性。

它非常庞大，大量数据存在冲突，相互依赖性比较高，导致通信开销比较大。

核心问题在于，从数学上来说，如果能够完成良好的图分割，或许就有可能完成这种图的并行处理。

一般来说，最终还是追求并行处理。

所以你可以看到，回顾我们之前讨论的问题，我们会说存在一些挑战。

这个挑战来自三个维度：一是数据处理方法和数据来源问题。

我们提到我们面临着对数据源的离线数据、在线数据、混合处理的需求，批处理、流处理、混合处理就出现了。

中科院院士梅宏：大数据给计算系统带来的挑战及对策丨2019数据博览会

从计算架构和系统结构来看，我们过去做的传统计算最大的问题就是计算产生的内存需求。

内存需要从外部访问数据，所以很多时间都浪费在内部和外部的重叠上。

所以我们还有内存计算。

这样的话，我们就可以搭建一个大内存，将所有的数据都存储在内存中。

这是一个办法。

二是新架构。

通过整合GPU、其他TPU、数据流等，构建全新的计算架构。

第三，数据类型本身。

数据类型本身有文档等多种模式。

我们目前看到的单一系统无法处理这种混合负载，而混合负载的处理实际上有很多需求。

大数据处理三大挑战挑战一：如何高效处理各种混合负载。

这是我们当前面临的挑战。

混合加工有什么要求？我举个例子，比如双十一交易数据的实时分析。

当日处理时，是实时的用户数据和产品数据，是通过实时数据采集得到的。

但事实上，这两个东西在实时数据、兴趣模型和用户行为预测方面都有局限性。

如果没有离线数据的支持，其准确性和效果不会那么好。

因此，要完成个性化推荐，必须利用离线数据。

这是我们的流处理和批处理会同时发生的场景。

现有的大数据处理系统无法处理这种混合处理。

例如，根据一些传统的例子，需要统计实时销售额前50名的商店。

按照阿里巴巴的做法，供应商表和商店表需要进行批处理，现在新流入的实时数据需要进行流处理。

。

现在，例如Flink运行单个作业时，只能启动批处理环境或流处理环境之一。

运行多个任务时，需要启动相对独立的批处理和流处理环境，它们的交互存在问题。

，没有办法完成这个业务需求的混批流任务。

挑战二：现有大数据的好处是开源，但是HaDoop、Spark、Flink的生态系统都有自己的开源生态系统，甚至有自己的开源许可协议。

我曾经问过很多搞数据的人：为什么这些东西在国际上诞生，而在中国却没有？如果现在大家都用的话，我们创新的机会在哪里？当我们专注于云计算和大数据的研发时，我们面临一个很大的问题：我们是否需要部署像大数据处理这样的系统？如果我构建一个单一系统，如果它在开源方面复制它来反对我，我该怎么办？而且过去把开源的东西当作套路是没有意义的。

所以我一直在想有没有什么创新的机会。

挑战三：对于图数据来说，传统应用计算密集，而图应用计算内存访问比例低、内存随机访问量大、数据依赖复杂、分布非结构化。

这是图形数据。

这些问题与传统应用程序面临的问题不同。

那么我们是否可以探索另一种新的架构来提高其高度并行处理能力呢？这些是我们在匹配各种大数据类型和计算结构后谈到的一些挑战。

为了完成这四项任务和课题，解决这些具有挑战性的问题，国家重点研发计划之一就是云计算和大数据。

总体布局大致分为四个任务。

目前，该指南已连续发布三年，已完成三批任务。

任务一：打造云计算、大数据等基础设施关键设备。

任务2：做一些核心软件、基于云模型、数据驱动的新软件。

任务3：制作大数据分析应用和内容智能。

任务4：云交互、人机交互。

我们要在云计算平台上进行各种大数据处理，大数据的类型和存储方式完全不同。

访问方式包括图数据、KV、列、文档等等。

现在我们要形成一个支持批处理、流处理、混合处理的处理平台。

为了完成这些任务，需要混合多种处理模式。

混合存储之后，我们需要支持人工智能应用，交互式数据分析，进一步支持各种应用。

传统的定制问题，系统选型困难，不同处理系统集成困难，系统调优困难，维护困难，多个系统之间的数据传输也导致效率相对较低——这些都是我们的环境面临的问题。

。

所以我们想做的一件事就是使用软件定义的方法和大数据处理和管理平台，使其功能可编程并针对不同的需求进行定制。

打造“最强”武器：原创技术很多年前，古龙的小说里就有一把最强武器。

那里有一个身穿长衫的黑衣男子，走到哪里都拎着一个盒子。

当他离开这一幕的时候，无论武器有多强大，武功有多高，最终还是败了。

我还记得这个盒子。

这个盒子里居然装着各种武器配件。

当他离开战场时，他将对方的武器暂时组合成可以克敌制胜的东西。

我们想要实现的就是这样一个盒子。

这个盒子能否满足不同应用的需求就是应用的定制。

比如阿里巴巴双十一的应用场景就涉及到这样的事情，确实需要这种混合处理，从它的存储、计算到应用。

我们希望优化资源调度，进一步依托各种数据需求和多模态存储，形成一个能够高效支持多种处理模式的引擎。

这就是我们最初的设想。

这个项目是如何完成的？这就是大数据系统软件国家工程实验室正在做的事情。

该项目包括北京理工大学、中国人民大学、北京大学、复旦大学、阿里巴巴集团等。

在实验室的框架内，我们共同致力于这样一个项目。

该项目的目标是研发高效、可扩展的新一代大数据分析支撑系统和工具平台，用于新型多处理模型融合架构。

我们还是希望能够站在巨人的肩膀上消化吸收。

高效率和可扩展性是其关键词。

我们希望构建一个基于软件定义的新的自适应融合架构。

用一套引擎、一套数据、一套资源来支撑和满足不同处理模型的需求，进一步支撑大数据分析和智能应用。

这些是一些更具体的描述。

我们要追求高效率、低延迟、多种计算模型的融合、自适应优化；在可扩展性方面，我们应该对云计算进行可扩展的调整，处理跨数据中心的平台扩展。

、机器学习模型的扩展，以及一些具体的关键技术。

事情能否完成，取决于我们团队的努力。

我想告诉大家，因为这个应用需求，我总觉得中国的IT还存在很大的问题。

毕竟很多时候我们并不是站在应用的第一线，很多问题并不是我们发现的。

我记得五到十年过去了，我们仍在谈论的问题是巨大的：我有更多的人，我有更多的数据。

所以我们没有原始创新。

我们一直在寻求这种原始创新，这意味着我们必须发现真正的问题在哪里。

这是我们最大的缺点。

我不认为这件事有多伟大，但我想留下一个系统软件开发团队来做这件事。

我们希望通过消化、吸收、碎片化、重组，形成集成创新。

站长声明

标签：

上一篇：iManis Data获首轮1300万美元B轮融资，专注大数据应用安全与管理

下一篇：芯片危机仍在酝酿，三星Note系列手机今年将停产

年薪200万，美元VC挖走了我的员工

暗流涌动。 “我直接开出了1万元的年薪，美元基金从我的团队里挖走了一个投资总监。 ”坐在深圳总部的办公室里，人民币基金掌门人感慨地说。这并不是一个孤立的案例。人民币基金与美元基金之间正在发生微妙的竞争，“挖角”成为最引人注目的一幕。几个月前，一家领先的美元

06-18
IDC最新报告：中国视频云市场增速超58%，阿里云连续三年稳居第一

上头条近日，国际权威咨询机构IDC发布《中国视频云市场跟踪（H1）》。报告显示，上半年中国视频云市场呈现快速增长，市场规模达31.6亿美元。其中，阿里云凭借覆盖广、时延低、稳定性高、交互性强的综合优势，市场份额排名第一，连续三年位居榜首。 IDC指出，上半年中国视频

06-18
首次发布 -百度创投第三期基金募集4亿美元，继续投资新兴科技领域

投资产业前哨站（ID：pedailypro）9月3日消息，BV百度创投近日宣布完成第三期基金募集，总规模达4亿美元。本轮融资完成后，BV管理的基金总规模已超过7亿美元，百度集团将作为投资方继续全力支持。百度风险投资成立于2006年，是百度集团发起设立的独立风险投资机构。百度创

06-17
科技传播助力企业开展线上路演，大数据专题活动成功举办

在抗击新型冠状病毒疫情中，大数据技术广泛应用于形势预判、联防联控、物资调配等方面。 4月16日下午，“科技传播助力企业发展”第八届线上路演行动大数据专场成功举办。活动期间，国科塞斯合伙人段喆、极数云舟CEO周彦伟、江岛科技CEO马云阁进行了线上路演。据介绍，国科赛

06-17
俞渝谈当当网IPO风波：李国庆在微博上说脏话是大错

当当网董事长俞渝成为刚刚结束的“亚布力中国企业家论坛第十一届年会”的主角，“幸福的时刻”中国海外IPO“关注”分论坛几乎成了讨论俞渝、当当网IPO的专门论坛。　　论坛上，总裁、李国庆、大摩女之间的微博口水战再次被提及。除了1月24日召开专门记者会回应口角之外，俞

06-18
【24小时创业】2021年11月13日

投融资 1、EVX Ventures 孵化的生物制药公司 Kodiak Robotics 完成 10,000 美元 Pre-A 轮融资。点击查看2、ESG意识逐步提升，鼎力公司获得豪迈财富股权投资。点击查看3、Kodiak Robotics获得禾赛科技下游客户B轮1.25亿美元融资。点击查看4、嘉贝药业获近亿元A轮融资。杭州

06-17
面对潮流，他表示自己不是共享充电宝公司

张峻荣本人也没想到自己会不小心踩到共享充电宝的潮流。他创办的一点科技成立于2016年6月，定位为“餐厅桌面新媒体平台”。成立第一年，他走访了六个城市，采访了两三千家餐饮企业，研发了产品。当第一代产品推出并在珠海产生一定的运营数据后，他震惊地发现我的产品已经成

06-17
证监会：今年IPO发行保持正常，既没有收紧，也没有放松，

据证监会网站消息，证监会新闻发言人表示，今年以来，IPO发行保持正常发行，既没有收紧，也没有放松。没有任何放松。截至2月19日，证监会已批准或同意注册66家企业IPO。数量同比大幅增长，但环比变化不大。

06-17
北京送出今年第一个创投“红包”

创投行业今年第一个“春节大礼包”来了。昨晚（1月17日），北京正式发布《关于加快建设高质量创业投资集聚区的若干措施》（简称《若干措施》）通知，从募资、投资、退出等角度明确对VC/PE的支持，并推出一系列政策“红”引导社保资金、保险资金、理财资金进入市场，对符合条

06-18
首次发布 -生鲜零食熊猫陌陌半年内获两轮融资

据投资界（ID：pedaily）12月14日消息，近日，“生鲜零食”先锋品牌熊猫陌陌宣布获得融资数千万天使轮投资。资金将用于产品研发和供应链建设。这是熊猫陌陌在过去六个月内获得的第二笔融资。种子轮投资方为齐门灵石孵化。今年6月，熊猫陌陌首家门店在长沙开业，受到消费

06-17
360水科灵溪质量中心完成升级改造，缺陷去除率达99.9%

质量发展是兴国强国之道，也是舒科的生命线。近日，数学自主研发的灵犀质量平台升级项目顺利完成。升级后的系统缺陷清除能力高于99.92%。舒客成立时，连接一家金融机构进行测试需要7周时间；如今，仅用1周时间，就完成了6家机构的对接测试。如此巨大的效率提升并不是简单

06-17
市场消息：快狗打车与汇丰、中金等投行拟今年三季度赴港上市

钛媒体3月29日讯，市场消息：58快车（快狗打车）已与汇丰、中金正在等待投行讨论上市事宜，计划今年第三季度在香港上市。

06-18