MacDermid Performance Solutions 将整合电子化学品业务部门和电子装配材料业务部门组织
06-06
图计算正在成为下一个技术前沿。
这里的图片是“图”,而不是图片“像”,它来自数学中的图论。
图计算是研究人类世界中的事物以及事物之间的关系,并对其进行描述、表征、分析和计算的技术。
Gartner在其《年十大数据和分析技术趋势》报告中预测,到2020年,图技术将用于80%的数据和分析创新。
图计算技术在金融、制造、能源等领域具有巨大的应用价值和前景。
它甚至可以在尖端的大脑研究中看到。
目前,图计算已成为国内外科技巨头竞争的“新风口”。
中国工程院院士、清华大学计算机科学与技术系院士教授·郑纬民强调:“部署高性能图计算恰逢其时,相当于牛鼻子抓住了大数据的未来发展、人工智能和高性能计算产业影响不可估量》陈文光和教授做客极客公园创始人Park《重建》专栏|来源:现场截图01 图片是了解世界的新方式。
创始人Park:图计算中的“图”是什么意思? ?它们是我们日常生活中的照片吗?陈文光:从英语角度来说,比较容易区分。
图片是英文的“图像”,图形是“图形”。
图计算的英文对应词是“GraphProcessing”。
这里的图实际上来源于数学中的图论。
在图论中,“图”由节点和边组成。
你可以想象节点代表实体,边代表实体之间的关系。
例如,假设我们将微博用户关系抽象成一个图,将其记入图上的点,并将关系跟踪到图上的边。
这条边实际上是有方向的,我们称之为有向图。
有些图的边没有方向,称为无向图。
另一个例子是道路网络。
如何用图表来表示?将位置(尤其是交叉路口)视为节点,然后将道路本身视为边缘。
这时,边还可以有属性,比如距离、宽度等。
一些图数据示例|来源:互联网 可以看到,图数据可以很好地描述事物之间的联系,包括描述联系的方向和属性。
值得注意的是,这种图表可能非常大。
例如,社交网络帐户之间形成的图可能具有数亿个节点和数百亿条边的巨大规模。
创始人Park:您之前提到“图片是认识世界的新方式”。
那么我们之前是怎样理解世界的呢?图片作为理解世界的方式有多先进?陈文光:在大学数据结构课上,大家开始学习的链表或者线性表基本上都是一维结构。
然后我了解了树,它的应用范围很广。
比如广播树,我们今天的直播中,一个视频流需要发送给几千人。
并不是一一发送,而是先发送一些点,然后再通过它们发送其他点,以此类推。
。
树是一种非常有用的数据结构,但它有一个限制,那就是它不能有循环。
如果有环,就不能称为树,而图可以有环。
从数据结构演化的角度来看,图是事物之间关系的原生表达。
当用来表示关联时,它们的描述能力比链表、树等数据结构强得多。
因此,用图片来认识世界,尤其是用来认识关系时,是一种更直接、更高级的方式。
传统的数据库称为关系型数据库,但实际上它的数据组织形式并不是原生的关系,而是以表的形式组织的,表是一张一张的表,通过表上的键连接起来。
所以其实关系型数据库应该叫表数据库,图数据库应该叫关系型数据库。
创始人Park:什么是图计算?它与图数据库有什么关系?陈文光:图计算有广义和狭义之分。
狭义的图计算是指在一定的、不变的图上进行各种计算。
例如,路网图基本比较稳定,一条路的修建时间较长。
我们可以对路网图进行一定的计算操作,比如求从水立方到故宫的最短路径。
这是图计算可以解决的典型问题。
广义图计算可以做更多事情。
是指基于图数据进行各种处理。
例如,这张图正在改变。
在路网图中,如果我们只使用道路的宽度作为边的属性,它可能会长期保持不变,但是如果我们使用边上道路的拥堵程度作为属性,那么图表正在改变。
与流图计算相比,数据以流的形式源源不断地到来。
怎么处理呢。
这些都属于图计算的大范畴。
广义的图计算可以理解为包括图数据库。
02 图计算的发展需要技术和需求两轮驱动 创始人 Park:您之前在采访中提到,您遇到了《编译原理》(编译器)的共同作者 Monica Lam,她对你。
很感动也很受启发,我很好奇这具体指的是什么?陈文光:我2003年开始在清华大学工作,最初的学术方向是做编译器的编译优化。
我们在国际顶级会议PLDI(编程语言设计与实现)上发表了论文。
如果论文能够被接受,说明大家还是认可这个作品的,但是它最终的效果是什么呢?当时在 CPU 测试基准上实现的性能提升仅为 1% 左右。
这个技术很有用,但总体影响不是很大。
于是我就转向另一个方向,做程序分析。
后来我遇到了 Monica Lamm,她说了一句话对我影响很大:“好的软件不是通过程序分析和错误检测找到的,而是由合适的人构建的。
”也就是说,好的软件一定是由合适的人从头开始构建的,而程序分析实际上是在做辅助优化,并没有解决整个系统中最重要的问题。
这项工作很有用,但没那么有用。
。
受这个思想的影响,我走上了从无到有构建高级软件系统的道路。
2008年,我开始做图计算相关的学术研究。
创始人Park:我曾经在清华大学做过图计算相关的研究。
我为什么想创业?陈文光:我们在图计算方面取得了一些积极的成果。
到2016年,我们已经研究了一个分布式内存图计算系统,它的速度比当时开源软件常用的图计算框架GraphX快3倍左右,而内存需求却只有它的1/10左右。
这奠定了良好的基础。
当时我就在想如何把图计算做得更好。
我发现至少到2020年为止,我们自己开发的系统软件很少,所以我一直在想这是什么原因?我在清华培养了十几位博士生,他们都非常擅长编写软件。
我发现他们毕业后主要是进入这个行业。
但他们的很多工作可能是对现有大型软件进行一些渐进式改进。
所以我想,我们已经拥有了一个出色的软件基础,??比现有技术领先一到两个数量级。
如果可以成立一家公司,可以聚集优秀的毕业生,不断改进软件,然后推广。
这是为了探索和解答我一直以来的疑问:我们做了自己的系统软件,但是如何使用呢?于是费马科技就在那时成立了。
创始人Park:费马科技当时做得很好。
为什么选择加入蚂蚁金服?陈文光:要真正发现图计算,第一步是做出图计算;第二步是让人使用它;第三步是大规模使用。
当时困扰我的问题是如何从被部分人使用到被大规模使用。
到年底,我们发现了自己的局限性。
Fermat团队总体来说技术上很强,但是我们在管理和营销方面相对薄弱,尤其是后者。
虽然取得了一些成绩,也有一些标杆客户,比如京东金融、国家电网、民生银行等,但整体的商业化路径尚不明确,没有办法大规模推广。
我当时就觉得,图计算要想获得更好的发展,还是需要技术和场景的两轮驱动。
当我们在学校时,我们更多地从技术驱动的角度推动进步。
蚂蚁作为一家金融科技公司,对于图计算有着全球领先的场景需求,而蚂蚁本身当时在图计算方面也有着良好的研究基础。
所以,我们决定加入蚂蚁。
03 图计算方兴未艾 创始人Park:图计算现在发展到什么阶段?陈文光:如果用一个词来简单形容的话,应该叫方兴未艾。
图数据库的受欢迎程度远高于其他数据库技术,增长了11倍 |资料来源:互联网图计算在金融、证券、公共卫生等各个行业都有一些典型案例。
大家可能都在密切关注。
例如,在数据库流行度排名网站DB-Engines上,图数据库在过去十年中比其他数据库受到了更高的关注。
另一方面,一些功能相对成熟的产品也出现了。
我认为图计算整体还处于比较早期的阶段,它的整个产品形态还没有最终确定。
如果与关系数据库相比,图计算在技术深度和应用广度上仍然存在较大差距。
创始人Park:图计算的具体行业应用有哪些?陈文光:我先介绍一下金融风险控制的例子。
例如,在企业担保场景中。
如果你想给一家企业提供贷款,该企业会向A公司要求担保,然后A公司向B公司提供担保,然后B公司向C公司提供担保,最后就会发现:它们形成一个环。
那么这个保证就无效了,因为随着你一层一层往下走,它又带着问题回到了原来的公司。
这可以抽象为在图上寻找环的问题。
使用传统方法无法解决寻找戒指的问题。
例如,有的银行采用MapReduce大数据处理方法,但在企业担保场景下,只能找到长度为6的环,更长的则无法找到。
所以在像套现分析这样的场景中,不仅需要找到漏洞,而且还需要做得非常快。
当用户刷信用卡时,他们肯定不希望后端等待两个小时才说有风险。
在金融场景中,“实时”是比较困难的。
今年双11,蚂蚁金服每秒最高交易笔数为58万笔。
在如此高的吞吐率下检测异常并确保交易能够按时完成是非常具有挑战性的。
在蚂蚁较多的风控场景下,我们希望在20毫秒内完成图计算过程。
图计算的应用不仅在金融领域,在复杂电网的故障分析、电商产品的智能推荐、疫情期间的紧密联系、亚紧密联系和时空陪伴等方面也有重要应用。
另外,大家日常生活中在蚂蚁森林中窃取能量,也是使用图数据库进行管理。
创始人Park:目前图计算广泛应用的行业有哪些特点?陈文光:首先,行业的数字化必须有一定的基础,能够产生大量的数据。
其次,需要进行复杂的关系分析,数据不是孤立的。
例如,目前物联网产生一些数据,每个传感器根据时间上传一些数据。
然后可以使用时间序列数据库来处理这些。
总体来看,随着整个行业数字化水平的加深,复杂关联分析的需求进一步增加,图计算将会有更好的发展。
创始人Park:图计算融入人工智能可以解决什么样的人工智能问题?图计算与AI结合目前进展如何?陈文光:人工智能与图计算融合产生的图神经网络是目前快速发展的重要领域。
人或各种实体之间的关系数据如何与神经网络相结合?图神经网络使用表示学习。
通过图的结构,每个节点或边首先用向量表示,然后使用神经网络进一步处理。
这扩大了神经网络的使用范围,并将实体之间的关系引入到人工智能处理中。
目前,图神经网络有很多应用。
我们将图神经网络系统应用于芝麻信用,提高信用评分的准确性,取得了良好的效果。
创始人Park:我知道你正在尝试用图计算来模拟神经元。
您想解决什么样的问题?为什么您认为图计算有机会解决脑科学领域的相关问题?陈文光:就科学发现的范式而言,第一个范式是实验科学,第二个范式是理论科学,第三个范式实际上是基于模拟的方法。
大脑作为研究对象,受到伦理和法律的制约。
直接研究它是非常困难的。
缺乏实验方法和手段。
模拟是理解大脑等复杂系统运行的基本方法。
我们可以通过模拟来模拟大脑背后的机制。
最后的结果可能是错的,但如果是对的,那么一个猜想就得到了验证。
从这个角度来看,它为脑科学和神经科学提供了一种减少实验费用、扩大研究范围的途径。

创始人Park:目前你们的进展如何?陈文光:这个方向其实国内外都很关注。
欧洲有一个项目叫蓝脑计划,用超级计算机来模拟人脑。
但事实上,我们观察中最难的一点是神经科学和计算机科学的交叉和融合。
所以我们目前正在做一些事情,与实验神经科学家合作,基于老鼠大脑的听力来探索以下两个问题。
首先是知道单个神经元适合模拟什么?如果粒度太粗,最终模拟的行为将不正确,如果粒度太细,模拟的规模将受到限制。
第二个是神经元是如何连接的?这其实是非常复杂的,因为现在脑科学发现神经元的连接是不断地被创建和丢失的。
我们希望先找到这两个问题的合理解释,然后再做大脑模拟。
整个项目仍在进行中。
04 图计算的未来及产学研思考 创始人Park:当前图计算发展遇到的核心挑战是什么?陈文光:我认为最大的挑战是人才和市场发展能否形成正反馈。
如果你把一个产品做得好,它可以服务很多人,人们认为它确实有用。
随着市场的扩大,就会吸引人才进来,把产品做得更好,进而服务更大的市场。
前向迭代非常重要。
现在,既有大公司,也有一些中型初创公司在做图计算。
那么谁能持续吸引这个领域的人才,扩大自己的市场服务对象呢?我想这可能是需要进一步解决的核心问题。
创始人Park:当前图计算的全球竞争是什么?蚂蚁的大概位置是多少?陈文光:图计算领域的竞争还是很激烈的。
大概有几种类型。
一是Oracle、SAP等传统数据库巨头。
事实上,他们不太擅长制作单独的图计算产品。
相反,他们会结合自己的关系型数据库产品,在关系型数据库上进行扩展。
另一类是独立产品公司。
例如,Neo4j是最早建立图计算和图数据库的公司,其开源版本在全球影响力很大。
TigerGraph也是一家商业化比较成熟的图数据库公司。
另外,国内的创林科技其实也做得不错。
蚂蚁就是这种情况。
我们在服务内部业务方面做得很好。
总体来说,我们在图计算体系的完备性和深度上还是有一定优势的,但是在产品通用化方面,也就是如何服务外部客户方面,还有很大的提升空间。
创始人Park:当你推动图计算发展的时候,其实你有一个非常强的“产学研”联系。
您如何看待目前产学研所遇到的一些问题?陈文光:我只能根据我个人的一些经历和观察来分享一些看法。
很多老师的学术研究已经比十年前高很多了。
我们看到很多青年教师都能在国际计算机顶级会议上发表论文,甚至连续发表多篇论文。
这初步解决了制作的问题,但我想后面需要解决的是能不能用的问题。
有多种途径可以解决这个问题。
一条路是创业,但这是一条相对直接但难度极大的路。
另一种是知识产权转让,将研究成果转化为专利,然后交给企业使用。
在这个方向上,如果看最近10年的数据,会比以前更好,但可能没有大家预期的那么好。
我认为主要原因有两个方面:第一,我们大学老师往往不知道企业实际遇到的问题的核心。
当他们想做研究时,他们没有相关的数据资源。
支持一下。
从业务角度来说,他确实希望老师能帮他解决眼前的问题,但学术上更关心的根本问题往往不容易提炼。
即使你想和大学合作,也很难界定到底要合作什么,也很难合规地提供数据。
所以这会造成学术研究和企业需求之间存在一定程度的脱节。
创始人Park:您对解决方案有何看法?陈文光:目前我们看到华为、阿里巴巴、蚂蚁金服等公司越来越能够以更加开放的心态与学术界合作。
我可以举一些例子。
日前,蚂蚁金服发布了一些自己的专利。
此外,它还主导了图数据库的国际基准测试计划。
国内多家图数据库厂商,以及Intel等国外核心公司都参与其中。
这项工作的核心是提供一个测试标准,将内部业务和数据的特征抽象为数据模型和典型查询。
数据生成器生成的图数据在统计上等同于一些内部真实数据,但它避免了数据隐私问题。
这件事预计会对产学研产生比较好的推动作用。
商界提炼其需求,将其转化为可衡量的问题,然后鼓励学术界基于反映商界真实情况的数据和场景进行研究。
Park创始人:您对于推动科研高水平创新有何想法?陈文光:最近大家可以看到学校正在征集从0到1的原创题,我觉得这其实是我们国家科技发展的一个非常重要的一步。
并不是每个人都必须提出问题然后自己解决才能取得成果。
事实上,提出好问题非常重要。
如果问题和目标是别人定义的,我们只是事后优化,就很难实现真正的高水平创新。
我认为我们现在需要更好地定义问题。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-18
06-18
06-17
06-17
06-17
06-18
06-17
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投