湖南湘投何正春:物流行业潜力巨大,并购退出渠道好
06-17
在贵州举办的一年一度的数据博览会吸引了国内外各界的关注。
围绕大数据最新技术创新和成果,众多学界、政界学界人士参与交流。
5月25日,在“5G+大数据推动智慧社会数字化转型论坛”上,中国科学院院士梅宏发表精彩演讲,重点探讨了大数据给计算系统带来的挑战以及如何对付他们。
作为大数据领域的权威专家,梅宏对大数据学术研究和工具开发有着深刻的理解。
他提到,大数据让整个信息技术体系进入了重构的前夜,大数据的管理和处理方式正在发生深刻的变化。
比如探索芯片上存储与计算的融合是一个可能的方向;例如,软件定义可以做很多事情;例如,开源软件+开放硬件可能会创造颠覆性机会。
他提到了个人对大数据的理解,并谈到了三个实际挑战。
但挑战的背后,他们的团队集合了最好的大学和阿里巴巴等巨头公司的技术,完成了三批项目。
未来,我们将追求高效率、低延迟、多种计算模型的融合,创造更多核心、关键、原创技术。
演讲原文如下,雷锋网在不改变原意的情况下进行了编辑整理:大数据导致了整个信息技术体系进入重构期的现象,这实际上给了我们颠覆性发展的机遇。
因为它和以前真的不一样了。
我个人对大数据的理解分为四个方面。
一是申请要求。
大数据的应用需求可能会让我们的计算机架构需要重构。
比如过去在单机架构中,我们知道计算机处理方式强调I和O,所以我们以CPU的处理能力为核心,围绕处理能力来组织数据。
现在我们有很多新技术,比如新的存储介质、新的计算设备,这些可能会导致我们的架构发生一定的变化。
如何改变?是否会出现一种以数据为核心、计算围绕数据的结构?现在我们正在探索在芯片上实现存储和计算的融合——这是一个可能的方向。
二是云计算模式领域化、资源过载、资源平台化的大趋势。
我们希望在提升服务质量、新的硬件管理、追求极致性能等方面做大量的工作。
与此同时,我们也看到了从云到边缘的转变。
这种云融合、云与边缘相结合的新计算也在不断涌现,以及软件定义对整个世界的影响。
我们对数据管理、软件开发运营、数据分析等有很多要求,都需要很多新的东西,与过去不同。
第三,沟通。
5G可以解决通信问题,所以我们的网络通信也需要更好的带宽、移动性、过载发展。
关于带宽、移动性、过载等问题,我们看到整个信息技术体系还是沿袭了过去的发展模式。
事实上,理论上还有很大的讨论空间。
基础设备也有很大的讨论空间,比如大数据组织。
、分析等相关技术理论亟待突破。
基础设备、高性能、高时延、高吞吐等极限大数据需求需要高吞吐处理芯片、多通道数字化、视觉设备等。
第四,开源软件和开放硬件正在引发我们产业的一些变革。
生态。
事实上,颠覆性发展的机会或许就在这里。
概念转变:大数据管理和处理 管理是数据的存储和组织,处理是将数据并行处理为内容。
对于管理来说,比如传统数据库、关系数据库,它们的目标是什么?应用的通用性、数据的一致性、应用需求的处理方式和响应时间都不同,很难有通用的管理方法。
由于无法定义模式,因此无法保持一致性。
如果无法提前定义数据模式,就无法维护其事务和其他数据的一致性。
在性能方面,由于单表存储和高性能很难实现,这严重降低了大规模、多表相关查询和复杂分析类型的SQL查询的性能。
这是传统数据库在大数据时代无法做到的。
事物。
对于处理来说,其实分为三个阶段:前大数据时代、大数据早期、现在。
早期都是关系数据库,后来是 SQL。
这些是管理层采取的一些路径。
从分析的角度来说,比如大数据分析软件、深度学习的一些发展,一般都是对之前的东西的总结。
当然支撑的东西就是计算中的分布式处理、实时分布等相关概念,这是计算基础的支撑。
虽然传统的关系数据库仍然被广泛使用,但是结构化数据对我们来说仍然是非常有用的。
然而NoSQL和NewSQL都在快速发展。
我们可以看到NoSQL和NewSQL的比例在增长,市场份额在扩大。
这也导致了我们数据库管理系统开发理念的转变。
传统的关系数据库已经成为某一领域的通用平台。
大数据处理——我们为什么要谈论这个?无论大数据和HaDoop如何发展,单机的计算能力都是有限的。
所以我们必须并行处理,并且没有办法构建一台计算机来满足所有处理需求。
例如,最早出现的HaDoop就是批处理。
批处理有什么好处?吞吐率高,适合处理海量预存数据。
二是流处理,适合在线、高速延迟的数据处理。
还有一种新的数据类型是图处理,它使用大量的图数据。
例如,以社交网络为代表的大量图数据拥有数亿个节点。
这么大的社交网络图该怎么办?所以现在这样的系统有很多,而且都是开源的,但是没有一个单一的处理模型可以满足所有的需求。
我们来看看目前存在的问题。
例如,Spark是一个批处理平台。
它采用VP技术来处理流模式。
它将流式计算划分为时间片,并将其分解为小批量。
本质上还是批处理。
只需将每个批次缩小即可。
图处理。
图数据的最大问题是并行性。
它非常庞大,大量数据存在冲突,相互依赖性比较高,导致通信开销比较大。
核心问题在于,从数学上来说,如果能够完成良好的图分割,或许就有可能完成这种图的并行处理。
一般来说,最终还是追求并行处理。
所以你可以看到,回顾我们之前讨论的问题,我们会说存在一些挑战。
这个挑战来自三个维度:一是数据处理方法和数据来源问题。
我们提到我们面临着对数据源的离线数据、在线数据、混合处理的需求,批处理、流处理、混合处理就出现了。

从计算架构和系统结构来看,我们过去做的传统计算最大的问题就是计算产生的内存需求。
内存需要从外部访问数据,所以很多时间都浪费在内部和外部的重叠上。
所以我们还有内存计算。
这样的话,我们就可以搭建一个大内存,将所有的数据都存储在内存中。
这是一个办法。
二是新架构。
通过整合GPU、其他TPU、数据流等,构建全新的计算架构。
第三,数据类型本身。
数据类型本身有文档等多种模式。
我们目前看到的单一系统无法处理这种混合负载,而混合负载的处理实际上有很多需求。
大数据处理三大挑战挑战一:如何高效处理各种混合负载。
这是我们当前面临的挑战。
混合加工有什么要求?我举个例子,比如双十一交易数据的实时分析。
当日处理时,是实时的用户数据和产品数据,是通过实时数据采集得到的。
但事实上,这两个东西在实时数据、兴趣模型和用户行为预测方面都有局限性。
如果没有离线数据的支持,其准确性和效果不会那么好。
因此,要完成个性化推荐,必须利用离线数据。
这是我们的流处理和批处理会同时发生的场景。
现有的大数据处理系统无法处理这种混合处理。
例如,根据一些传统的例子,需要统计实时销售额前50名的商店。
按照阿里巴巴的做法,供应商表和商店表需要进行批处理,现在新流入的实时数据需要进行流处理。
。
现在,例如Flink运行单个作业时,只能启动批处理环境或流处理环境之一。
运行多个任务时,需要启动相对独立的批处理和流处理环境,它们的交互存在问题。
,没有办法完成这个业务需求的混批流任务。
挑战二:现有大数据的好处是开源,但是HaDoop、Spark、Flink的生态系统都有自己的开源生态系统,甚至有自己的开源许可协议。
我曾经问过很多搞数据的人:为什么这些东西在国际上诞生,而在中国却没有?如果现在大家都用的话,我们创新的机会在哪里?当我们专注于云计算和大数据的研发时,我们面临一个很大的问题:我们是否需要部署像大数据处理这样的系统?如果我构建一个单一系统,如果它在开源方面复制它来反对我,我该怎么办?而且过去把开源的东西当作套路是没有意义的。
所以我一直在想有没有什么创新的机会。
挑战三:对于图数据来说,传统应用计算密集,而图应用计算内存访问比例低、内存随机访问量大、数据依赖复杂、分布非结构化。
这是图形数据。
这些问题与传统应用程序面临的问题不同。
那么我们是否可以探索另一种新的架构来提高其高度并行处理能力呢?这些是我们在匹配各种大数据类型和计算结构后谈到的一些挑战。
为了完成这四项任务和课题,解决这些具有挑战性的问题,国家重点研发计划之一就是云计算和大数据。
总体布局大致分为四个任务。
目前,该指南已连续发布三年,已完成三批任务。
任务一:打造云计算、大数据等基础设施关键设备。
任务2:做一些核心软件、基于云模型、数据驱动的新软件。
任务3:制作大数据分析应用和内容智能。
任务4:云交互、人机交互。
我们要在云计算平台上进行各种大数据处理,大数据的类型和存储方式完全不同。
访问方式包括图数据、KV、列、文档等等。
现在我们要形成一个支持批处理、流处理、混合处理的处理平台。
为了完成这些任务,需要混合多种处理模式。
混合存储之后,我们需要支持人工智能应用,交互式数据分析,进一步支持各种应用。
传统的定制问题,系统选型困难,不同处理系统集成困难,系统调优困难,维护困难,多个系统之间的数据传输也导致效率相对较低——这些都是我们的环境面临的问题。
。
所以我们想做的一件事就是使用软件定义的方法和大数据处理和管理平台,使其功能可编程并针对不同的需求进行定制。
打造“最强”武器:原创技术 很多年前,古龙的小说里就有一把最强武器。
那里有一个身穿长衫的黑衣男子,走到哪里都拎着一个盒子。
当他离开这一幕的时候,无论武器有多强大,武功有多高,最终还是败了。
我还记得这个盒子。
这个盒子里居然装着各种武器配件。
当他离开战场时,他将对方的武器暂时组合成可以克敌制胜的东西。
我们想要实现的就是这样一个盒子。
这个盒子能否满足不同应用的需求就是应用的定制。
比如阿里巴巴双十一的应用场景就涉及到这样的事情,确实需要这种混合处理,从它的存储、计算到应用。
我们希望优化资源调度,进一步依托各种数据需求和多模态存储,形成一个能够高效支持多种处理模式的引擎。
这就是我们最初的设想。
这个项目是如何完成的?这就是大数据系统软件国家工程实验室正在做的事情。
该项目包括北京理工大学、中国人民大学、北京大学、复旦大学、阿里巴巴集团等。
在实验室的框架内,我们共同致力于这样一个项目。
该项目的目标是研发高效、可扩展的新一代大数据分析支撑系统和工具平台,用于新型多处理模型融合架构。
我们还是希望能够站在巨人的肩膀上消化吸收。
高效率和可扩展性是其关键词。
我们希望构建一个基于软件定义的新的自适应融合架构。
用一套引擎、一套数据、一套资源来支撑和满足不同处理模型的需求,进一步支撑大数据分析和智能应用。
这些是一些更具体的描述。
我们要追求高效率、低延迟、多种计算模型的融合、自适应优化;在可扩展性方面,我们应该对云计算进行可扩展的调整,处理跨数据中心的平台扩展。
、机器学习模型的扩展,以及一些具体的关键技术。
事情能否完成,取决于我们团队的努力。
我想告诉大家,因为这个应用需求,我总觉得中国的IT还存在很大的问题。
毕竟很多时候我们并不是站在应用的第一线,很多问题并不是我们发现的。
我记得五到十年过去了,我们仍在谈论的问题是巨大的:我有更多的人,我有更多的数据。
所以我们没有原始创新。
我们一直在寻求这种原始创新,这意味着我们必须发现真正的问题在哪里。
这是我们最大的缺点。
我不认为这件事有多伟大,但我想留下一个系统软件开发团队来做这件事。
我们希望通过消化、吸收、碎片化、重组,形成集成创新。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-17
06-17
06-18
06-18
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态