首页 > 科技未来 > 内容

中科院院士梅宏:大数据给计算系统带来的挑战及对策丨2019数据博览会

发布于:2024-06-18 编辑:匿名 来源:网络

在贵州举办的一年一度的数据博览会吸引了国内外各界的关注。

围绕大数据最新技术创新和成果,众多学界、政界学界人士参与交流。

5月25日,在“5G+大数据推动智慧社会数字化转型论坛”上,中国科学院院士梅宏发表精彩演讲,重点探讨了大数据给计算系统带来的挑战以及如何对付他们。

作为大数据领域的权威专家,梅宏对大数据学术研究和工具开发有着深刻的理解。

他提到,大数据让整个信息技术体系进入了重构的前夜,大数据的管理和处理方式正在发生深刻的变化。

比如探索芯片上存储与计算的融合是一个可能的方向;例如,软件定义可以做很多事情;例如,开源软件+开放硬件可能会创造颠覆性机会。

他提到了个人对大数据的理解,并谈到了三个实际挑战。

但挑战的背后,他们的团队集合了最好的大学和阿里巴巴等巨头公司的技术,完成了三批项目。

未来,我们将追求高效率、低延迟、多种计算模型的融合,创造更多核心、关键、原创技术。

演讲原文如下,雷锋网在不改变原意的情况下进行了编辑整理:大数据导致了整个信息技术体系进入重构期的现象,这实际上给了我们颠覆性发展的机遇。

因为它和以前真的不一样了。

我个人对大数据的理解分为四个方面。

一是申请要求。

大数据的应用需求可能会让我们的计算机架构需要重构。

比如过去在单机架构中,我们知道计算机处理方式强调I和O,所以我们以CPU的处理能力为核心,围绕处理能力来组织数据。

现在我们有很多新技术,比如新的存储介质、新的计算设备,这些可能会导致我们的架构发生一定的变化。

如何改变?是否会出现一种以数据为核心、计算围绕数据的结构?现在我们正在探索在芯片上实现存储和计算的融合——这是一个可能的方向。

二是云计算模式领域化、资源过载、资源平台化的大趋势。

我们希望在提升服务质量、新的硬件管理、追求极致性能等方面做大量的工作。

与此同时,我们也看到了从云到边缘的转变。

这种云融合、云与边缘相结合的新计算也在不断涌现,以及软件定义对整个世界的影响。

我们对数据管理、软件开发运营、数据分析等有很多要求,都需要很多新的东西,与过去不同。

第三,沟通。

5G可以解决通信问题,所以我们的网络通信也需要更好的带宽、移动性、过载发展。

关于带宽、移动性、过载等问题,我们看到整个信息技术体系还是沿袭了过去的发展模式。

事实上,理论上还有很大的讨论空间。

基础设备也有很大的讨论空间,比如大数据组织。

、分析等相关技术理论亟待突破。

基础设备、高性能、高时延、高吞吐等极限大数据需求需要高吞吐处理芯片、多通道数字化、视觉设备等。

第四,开源软件和开放硬件正在引发我们产业的一些变革。

生态。

事实上,颠覆性发展的机会或许就在这里。

概念转变:大数据管理和处理 管理是数据的存储和组织,处理是将数据并行处理为内容。

对于管理来说,比如传统数据库、关系数据库,它们的目标是什么?应用的通用性、数据的一致性、应用需求的处理方式和响应时间都不同,很难有通用的管理方法。

由于无法定义模式,因此无法保持一致性。

如果无法提前定义数据模式,就无法维护其事务和其他数据的一致性。

在性能方面,由于单表存储和高性能很难实现,这严重降低了大规模、多表相关查询和复杂分析类型的SQL查询的性能。

这是传统数据库在大数据时代无法做到的。

事物。

对于处理来说,其实分为三个阶段:前大数据时代、大数据早期、现在。

早期都是关系数据库,后来是 SQL。

这些是管理层采取的一些路径。

从分析的角度来说,比如大数据分析软件、深度学习的一些发展,一般都是对之前的东西的总结。

当然支撑的东西就是计算中的分布式处理、实时分布等相关概念,这是计算基础的支撑。

虽然传统的关系数据库仍然被广泛使用,但是结构化数据对我们来说仍然是非常有用的。

然而NoSQL和NewSQL都在快速发展。

我们可以看到NoSQL和NewSQL的比例在增长,市场份额在扩大。

这也导致了我们数据库管理系统开发理念的转变。

传统的关系数据库已经成为某一领域的通用平台。

大数据处理——我们为什么要谈论这个?无论大数据和HaDoop如何发展,单机的计算能力都是有限的。

所以我们必须并行处理,并且没有办法构建一台计算机来满足所有处理需求。

例如,最早出现的HaDoop就是批处理。

批处理有什么好处?吞吐率高,适合处理海量预存数据。

二是流处理,适合在线、高速延迟的数据处理。

还有一种新的数据类型是图处理,它使用大量的图数据。

例如,以社交网络为代表的大量图数据拥有数亿个节点。

这么大的社交网络图该怎么办?所以现在这样的系统有很多,而且都是开源的,但是没有一个单一的处理模型可以满足所有的需求。

我们来看看目前存在的问题。

例如,Spark是一个批处理平台。

它采用VP技术来处理流模式。

它将流式计算划分为时间片,并将其分解为小批量。

本质上还是批处理。

只需将每个批次缩小即可。

图处理。

图数据的最大问题是并行性。

它非常庞大,大量数据存在冲突,相互依赖性比较高,导致通信开销比较大。

核心问题在于,从数学上来说,如果能够完成良好的图分割,或许就有可能完成这种图的并行处理。

一般来说,最终还是追求并行处理。

所以你可以看到,回顾我们之前讨论的问题,我们会说存在一些挑战。

这个挑战来自三个维度:一是数据处理方法和数据来源问题。

我们提到我们面临着对数据源的离线数据、在线数据、混合处理的需求,批处理、流处理、混合处理就出现了。

中科院院士梅宏:大数据给计算系统带来的挑战及对策丨2019数据博览会

从计算架构和系统结构来看,我们过去做的传统计算最大的问题就是计算产生的内存需求。

内存需要从外部访问数据,所以很多时间都浪费在内部和外部的重叠上。

所以我们还有内存计算。

这样的话,我们就可以搭建一个大内存,将所有的数据都存储在内存中。

这是一个办法。

二是新架构。

通过整合GPU、其他TPU、数据流等,构建全新的计算架构。

第三,数据类型本身。

数据类型本身有文档等多种模式。

我们目前看到的单一系统无法处理这种混合负载,而混合负载的处理实际上有很多需求。

大数据处理三大挑战挑战一:如何高效处理各种混合负载。

这是我们当前面临的挑战。

混合加工有什么要求?我举个例子,比如双十一交易数据的实时分析。

当日处理时,是实时的用户数据和产品数据,是通过实时数据采集得到的。

但事实上,这两个东西在实时数据、兴趣模型和用户行为预测方面都有局限性。

如果没有离线数据的支持,其准确性和效果不会那么好。

因此,要完成个性化推荐,必须利用离线数据。

这是我们的流处理和批处理会同时发生的场景。

现有的大数据处理系统无法处理这种混合处理。

例如,根据一些传统的例子,需要统计实时销售额前50名的商店。

按照阿里巴巴的做法,供应商表和商店表需要进行批处理,现在新流入的实时数据需要进行流处理。

现在,例如Flink运行单个作业时,只能启动批处理环境或流处理环境之一。

运行多个任务时,需要启动相对独立的批处理和流处理环境,它们的交互存在问题。

,没有办法完成这个业务需求的混批流任务。

挑战二:现有大数据的好处是开源,但是HaDoop、Spark、Flink的生态系统都有自己的开源生态系统,甚至有自己的开源许可协议。

我曾经问过很多搞数据的人:为什么这些东西在国际上诞生,而在中国却没有?如果现在大家都用的话,我们创新的机会在哪里?当我们专注于云计算和大数据的研发时,我们面临一个很大的问题:我们是否需要部署像大数据处理这样的系统?如果我构建一个单一系统,如果它在开源方面复制它来反对我,我该怎么办?而且过去把开源的东西当作套路是没有意义的。

所以我一直在想有没有什么创新的机会。

挑战三:对于图数据来说,传统应用计算密集,而图应用计算内存访问比例低、内存随机访问量大、数据依赖复杂、分布非结构化。

这是图形数据。

这些问题与传统应用程序面临的问题不同。

那么我们是否可以探索另一种新的架构来提高其高度并行处理能力呢?这些是我们在匹配各种大数据类型和计算结构后谈到的一些挑战。

为了完成这四项任务和课题,解决这些具有挑战性的问题,国家重点研发计划之一就是云计算和大数据。

总体布局大致分为四个任务。

目前,该指南已连续发布三年,已完成三批任务。

任务一:打造云计算、大数据等基础设施关键设备。

任务2:做一些核心软件、基于云模型、数据驱动的新软件。

任务3:制作大数据分析应用和内容智能。

任务4:云交互、人机交互。

我们要在云计算平台上进行各种大数据处理,大数据的类型和存储方式完全不同。

访问方式包括图数据、KV、列、文档等等。

现在我们要形成一个支持批处理、流处理、混合处理的处理平台。

为了完成这些任务,需要混合多种处理模式。

混合存储之后,我们需要支持人工智能应用,交互式数据分析,进一步支持各种应用。

传统的定制问题,系统选型困难,不同处理系统集成困难,系统调优困难,维护困难,多个系统之间的数据传输也导致效率相对较低——这些都是我们的环境面临的问题。

所以我们想做的一件事就是使用软件定义的方法和大数据处理和管理平台,使其功能可编程并针对不同的需求进行定制。

打造“最强”武器:原创技术 很多年前,古龙的小说里就有一把最强武器。

那里有一个身穿长衫的黑衣男子,走到哪里都拎着一个盒子。

当他离开这一幕的时候,无论武器有多强大,武功有多高,最终还是败了。

我还记得这个盒子。

这个盒子里居然装着各种武器配件。

当他离开战场时,他将对方的武器暂时组合成可以克敌制胜的东西。

我们想要实现的就是这样一个盒子。

这个盒子能否满足不同应用的需求就是应用的定制。

比如阿里巴巴双十一的应用场景就涉及到这样的事情,确实需要这种混合处理,从它的存储、计算到应用。

我们希望优化资源调度,进一步依托各种数据需求和多模态存储,形成一个能够高效支持多种处理模式的引擎。

这就是我们最初的设想。

这个项目是如何完成的?这就是大数据系统软件国家工程实验室正在做的事情。

该项目包括北京理工大学、中国人民大学、北京大学、复旦大学、阿里巴巴集团等。

在实验室的框架内,我们共同致力于这样一个项目。

该项目的目标是研发高效、可扩展的新一代大数据分析支撑系统和工具平台,用于新型多处理模型融合架构。

我们还是希望能够站在巨人的肩膀上消化吸收。

高效率和可扩展性是其关键词。

我们希望构建一个基于软件定义的新的自适应融合架构。

用一套引擎、一套数据、一套资源来支撑和满足不同处理模型的需求,进一步支撑大数据分析和智能应用。

这些是一些更具体的描述。

我们要追求高效率、低延迟、多种计算模型的融合、自适应优化;在可扩展性方面,我们应该对云计算进行可扩展的调整,处理跨数据中心的平台扩展。

、机器学习模型的扩展,以及一些具体的关键技术。

事情能否完成,取决于我们团队的努力。

我想告诉大家,因为这个应用需求,我总觉得中国的IT还存在很大的问题。

毕竟很多时候我们并不是站在应用的第一线,很多问题并不是我们发现的。

我记得五到十年过去了,我们仍在谈论的问题是巨大的:我有更多的人,我有更多的数据。

所以我们没有原始创新。

我们一直在寻求这种原始创新,这意味着我们必须发现真正的问题在哪里。

这是我们最大的缺点。

我不认为这件事有多伟大,但我想留下一个系统软件开发团队来做这件事。

我们希望通过消化、吸收、碎片化、重组,形成集成创新。

中科院院士梅宏:大数据给计算系统带来的挑战及对策丨2019数据博览会

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 湖南湘投何正春:物流行业潜力巨大,并购退出渠道好

    湖南湘投何正春:物流行业潜力巨大,并购退出渠道好

    据投资界7月12日消息,在“第十三届中国股权投资中期论坛暨金融科技产业融合创新年会”上在清科集团主办的中期论坛上,湖南湘投高科技创业投资有限公司副总经理何正春介绍,他的公司成立于2007年,主要管理湖南省人民政府的资金。   他还简单介绍了目前备受关注的几个产业

    06-17

  • 迷你Mars完成数千万元A轮融资,中青旅独家投资

    迷你Mars完成数千万元A轮融资,中青旅独家投资

    投资界(ID:pedaily)1月27日消息,据36氪报道,一站式亲子空间迷你Mars已完成数千万元融资1万元A轮融资由中青旅独家投资。 据Mini Mars创始人及CEO成庭茂介绍,本轮资金将主要用于团队扩张、新产品设计开发、CRM系统开发等。 Mini Mars于2006年在上海成立,是一家一站式母公

    06-17

  • 区块链科技服务公司成都九宽科技完成1050万天使轮融资,由厦门硅谷火炬领投

    区块链科技服务公司成都九宽科技完成1050万天使轮融资,由厦门硅谷火炬领投

    据投资界11月12日消息,成都九宽科技有限公司(九宽科技为简称)已完成10000天使轮融资。 本轮融资由厦门硅谷火炬领投。 资金将用于区块链算法研究和应用产品开发的同时,还将重点用于市场营销,提升整体产品体验和服务能力。 九宽科技成立于2009年,一直致力于区块链领域相

    06-18

  • 马斯克:SpaceX星舰原型机SN10或本周试飞

    马斯克:SpaceX星舰原型机SN10或本周试飞

    据媒体报道,SpaceX首席执行官埃隆马斯克当地时间周日在推特上表示,其星舰原型机SN10极有可能在本周试飞。 美国联邦航空管理局正在调查周结束 SpaceX 星舰原型 SN9 试飞爆炸事件。 目前,SpaceX 正在等待 FAA 批准更新的许可证。 听,中小企业反馈平台。 倾听用户需求,倾听

    06-17

  • 无极教育云完成A轮融资

    无极教育云完成A轮融资

    据投资界9月28日消息,无极教育云近日宣布完成A轮融资,由华创投资旗下基金投资。 这将为无极教育进一步加大研发投入和人才引进,完善产品,拓展资源,为冲击在线教育行业第一梯队奠定坚实基础。 据了解,浙江无极互联网科技有限公司成立于2007年,主营业务为无极教育云平台

    06-17

  • 神秘穿山甲被“看见”六年后,一部科技“穿山甲”史

    神秘穿山甲被“看见”六年后,一部科技“穿山甲”史

    走穿山甲走过的路有多难? 铁匠定制的一把镰刀,是清理道路、砍除缠绕人的荆棘和杂草的必备品;精油和驱蚊水让人们远离各种蚊子;必需的水和干粮。 维持一天的体力;还有不期而遇的蛇、野猪等各种动物,常常给人带来惊吓和惊喜。 凭借着这种锐意进取的精神,生态环保专家、西

    06-18

  • 小米汽车:智能技术驱动的市场突破与未来愿景

    小米汽车:智能技术驱动的市场突破与未来愿景

    在近日的发布会上,小米汽车展示了其在智能汽车和智能家居领域的最新技术成果,特别是其智能语音助手“小爱同学”的先进功能。 小米汽车的市场表现同样抢眼,销售成绩骄人,用户支持强劲。 本文将对小米汽车的技术特点、市场策略、用户反馈以及未来发展规划进行深入分析。 技

    06-18

  • 法国科技物流平台Cubyn获1500万欧元D轮融资,由Euro Ruiz基金、法国BPI银行、360资本等投资

    法国科技物流平台Cubyn获1500万欧元D轮融资,由Euro Ruiz基金、法国BPI银行、360资本等投资

    投资圈(ID:pedaily)3月7日消息,法国科技物流平台Cubyn璞语近期完成1万欧元D轮融资。 投资者为Euro Ruiz Fund、法国BPI银行、Capital、DN Capital和Partech。 本轮融资将用于市场和平台渠道拓展以及技术方案研发。 Cubyn成立于2015年,在法国巴黎经营自营仓储配送中心,为

    06-18

  • 专注MIM智能制造,富驰完成近2亿元融资,源星资本领投

    专注MIM智能制造,富驰完成近2亿元融资,源星资本领投

    据投资界6月1日消息,智能制造公司富驰宣布完成近2亿元融资。 本轮投资由源星资本领投,元和资本跟投。   Fuchi是一家金属注射成型(MIM)技术解决方案提供商。 MIM技术在金属零件的小型化、精密化、复杂化的生产和应用中具有明显的优势。 富驰已经应用于消费电子、医疗、

    06-18

  • 互联药业完成近2.5亿元A轮融资,红杉中国领投

    互联药业完成近2.5亿元A轮融资,红杉中国领投

    投资界(ID:pedaily)5月26日消息,互联药业今日宣布完成近2.5亿元A轮融资,由红杉中国领投领投,盈联健康基金、嘉辰资本、辰德资本、昆仑资本跟投。 本轮融资资金将用于推进放射性药物肿瘤产品管线和放射性医用同位素生产平台的开发。 互联药业联合创始人、董事长兼首席运营

    06-17

  • 户外行业:让假需求成为消费风向标

    户外行业:让假需求成为消费风向标

    作为爷爷辈的老家货,军大衣万万没想到有一天会被年轻人挖出来“整顿”冬装市场。 “不是羽绒服买不起,而是军大衣性价比更高”的笑话不仅逗乐了年轻人,也让电商平台的老板笑出了声。 但军大衣的流行,与其说是时尚,不如说是被不断上涨的羽绒服价格逼出来的。 先于军大衣流

    06-18

  • 华平投资与“文盛资产”成立“文盛特别机会资产管理公司”

    华平投资与“文盛资产”成立“文盛特别机会资产管理公司”

    今日,私募股权投资机构华平投资与上海文盛资产管理有限公司宣布联合成立“文盛特别机会资产管理”公司”。 平台计划合计投资6亿美元,预计五年内资产管理规模达到50亿美元。 合资公司将通过多元化投资方式收购个别房产的特殊机会资产,释放资产价值,助力中国经济发展。

    06-17