总投资7亿元的标普半导体智能装备生产中心已封顶
06-06
近两年,大数据作为重要资源被提上国家战略。
今年两会,马化腾、雷军、丁磊、张近东等互联网企业国家代表委员积极就大数据战略和数字经济发展建言献策。
此外,国家发改委近日发布了2018年发展数字经济的八项重大举措,例如“数字化融合实体经济;促进数据要素流通;发展新型基础设施”等,鼓励数字经济发展。
传统产业加快数字化转型,推动前沿信息技术在各场景的融合应用。
海量数据是政府管理和企业数字化转型的核心生产要素。
但现阶段,真正得到有效存储和利用的数据还不到10%。
如何唤醒大量“沉睡”的数据,发现并分析有价值的信息来推动业务发展,无疑是一个巨大的挑战。
“4G时代,大数据更多是成熟IT基础设施行业的主导客户,距离个人还很遥远。
随着5G的到来以及国家进一步提出深化大数据发展,更多中小企业“大型企业对数据采集和存储的兴趣也在快速增长。
”瑞帆科技大数据科学家、雪球数据库首席执行官架构师李求实博士认为,行业龙头企业每年以PB级甚至数百PB爆发式增长。
,这就产生了对PB级数据量的在线或实时数据分析的处理能力的需求。
对于PB级数据,美国未来学家Ray Kurzweil曾有过一个形象的比喻:如果预计人类功能记忆的容量为1.25TB,那么人类的单个记忆就相当于1PB。
面对海量的数据,很多企业早期主要通过采样数据得出结论。
李博士告诉笔者,这种方法的缺点是“采样后的数据变成了几百万、几千万,是原始数据的子集,会与实际情况有很大偏差,导致根据例子。
结论 可靠性大大降低。
“为了追求数据的准确性,一些企业不得不降低数据处理的实时性,采用离线处理。
但数据的价值在于它的时效性。
越早分析,反馈或反馈就越快、越准确。
”能够得到响应,并能及时用结论来指导后续的业务工作,此时,一个能够对海量数据进行毫秒级即席在线查询和分析的数据库就显得尤为关键——它甚至决定了是否存在。
企业能够以比竞争对手更低的成本、更快的速度解决问题,构建核心竞争力,在过去的十年里,满足了行业对稳定性、准确性、速度的要求。
大批量查询的是Apache基金会旗下的Hadoop,2006年Hadoop将1TB数据的排序时间缩短到62秒,从此名声大噪。
凭借其高可靠性、高扩展性、高容错性和低成本,成为当今大数据领域应用最广泛、应用最广泛的技术平台,被Yahoo、FaceBook、Last等多家公司所采用。
调频。
李博士介绍,由于Hadoop最初是为了存储和分析离线大数据而设计的,它无法提供便捷高效的数据交互、多维度分析和快速查询服务。
“虽然已经产生了很多Spark、Impala、Drill等SQL on Hadoop项目,来优化Hadoop在服务效率上的缺点,但由于这些项目仍然基于Hadoop的底层机制,所以无法从根本上解决这些问题。
”帮助企业实现海量数据稳定、准确、快速、掌握的调用需求。
瑞帆科技是一家拥有PB级数据核心处理技术的大数据产品和解决方案提供商,在原有零距离大数据中台的基础上,自主研发了千亿级数据毫秒级查询速度的分布式分析模型。
数据库 Snowball DB。
“Snowball”的特点主要包括列式存储、矢量化执行引擎、高可靠的集群架构以及自动平衡数据和实现副本异步复制的能力。
首先,与行存储连续存储每一行??的数据不同,列存储连续存储每一列的数据。
它的优点是读取数据时,只需要读取涉及计算的列,大大减少了IO消耗,加快了查询速度。
同时,同一列中的数据属于同一类型,这使得列式存储可以将数据压缩高达十倍甚至几十倍,从而节省存储空间和成本消耗,非常适合大数据查询分析和高并发。
查询。
其次,Snowball DB 还实现了矢量化执行引擎,该引擎每批(而不是每行)对内存中的列式数据调用一次指令。
这不仅减少了函数调用的次数,而且还可以充分利用指令的并行性。
能力,大大减少计算时间。
这相当于数据处理效率几何级提升。
此外,Snowball DB通过Share-nothing节点方式消除了主节点的性能瓶颈,极大提升了集群性能。
“说白了,Share-nothing就是不共享任何东西,优点是通过硬件设备的叠加,可以实现性能的线性叠加。
传统的关系型数据库会共享某些设备,所以会存在叠加瓶颈,使得它的堆叠效率非常低。
”李博士说。
针对传统分布式系统宕机导致的各节点内数据分布不均的问题,瑞帆科技开发了“应对节点宕机的负载均衡优化”专利技术。
理想情况下,每个节点的计算负载是相等的,否则负载较大的节点将决定整体任务的完成时间,这比负载均衡所花费的时间要长得多。
一旦所有工作集中在一台或几台机器上,并行的优势就无法体现。
通过先进的Hash随机算法,Snowball DB可以在节点宕机时自动平衡各节点内的数据分布,保证各节点的磁盘使用相对均衡,避免雪崩效应。
同时,Snowball DB支持多副本备份,可以在不同节点上维护相同的数据。

如果当前节点出现故障,会自动切换到备份副本提供服务。
这些核心特性让“Snowball”从根本上解决了Hadoop系统交互复杂、效率低下的问题,满足海量数据的在线交互、多维度分析和高效查询,保证数据分析结果更加真实。
李博士表示,Snowball DB是基于高并发环境下千亿数据毫秒级查询而开发的数据库。
当产品刚开发出来时,我们对实际测试结果感到非常兴奋。
但试用后合作伙伴的反馈一般,和其他数据库产品差不多,都是几十毫秒。
后来发现他们只是用Snowball来做少量并发的常规数据查询。
但当对方内部系统升级,推出很多新功能,数据量和并发量呈指数级增长时,Snowball DB相对于其他数据库的性能优势就显现出来了。
在海量数据、高并发、多条件等苛刻场景下,测试结果表明比原数据库快了几个数量级。
该公司后来与瑞帆建立了长期合作关系。
其用户覆盖近亿,单日增量数据超过1PB。
借助Snowball DB的PB级在线分析能力,从根本上解决了数据不及时、查询延迟高、分析维度受限等问题,大幅提升服务效率。
疫情期间,某通信运营商使用Snowball DB解决了如何及时高效地处理和分析海量各类数据的问题。
“为了输出潜在2B人员名单、分析疫情趋势、建立常驻人员热点区域地图,需要检索和分析海量数据。
过去需要大量人工排查,耗时长但通过我们毫秒级的在线分析模型,几分钟就能得出结果。
”或者在公安领域,面对多种警种的数据内容,千亿毫秒的查询速度,结合瑞帆科技其他产品,可以对视频、音频、文档、图标等结构化和非结构化数据进行实时分析和可视化决策,实现警务整体掌控。
在原有Snowball DB的基础上,瑞帆科技还为小B客户开发了“轻量级版本”,后者只能在一台机器上运行,不支持分布式和磁盘复制,并减少了一些功能,以进一步降低成本和成本。
提高效率。
李博士告诉笔者,由于大多数中小企业的数据调用需求受到时间和季节的影响,比如销售淡旺季、重点疫情节点等,因此aPaaS模式主要用于此使用公司其他产品的客户类型。
作为最底层的支撑,大数据中台结合Snowball推出整套解决方案——由于零距离大数据中台的“低代码+图形化”界面,可以大大减少客户使用量临界点。
大数据经济的真正价值在于对中小企业的普惠。
随着信息技术与人类生活的深度融合,以及互联网、移动互联网、物联网的快速发展,各行各业的数据呈爆发式增长。
IDC数据显示,全球数据量每年将达到40ZB(1ZB=EB,1EB=PB)。
如果换算成G iPad的高度,可以达到地球到月球距离的6.6倍。
海量的数据也催生了更多、更快、更稳定的数据存储需求。
由于数据量的增长速度远远超过存储设备能力的增长,原有存储设备乃至整个存储架构需要不断扩容和升级。
这也使得大数据存储技术在数据存储成本、数据读写能力、数据自动备份安全等方面面临巨大挑战。
这些痛点仅靠提高硬件和存储阵列本身的存储能力是无法解决的。
当传统关系型数据库无法满足海量数据的存储和处理需求时,以阿里巴巴为首的互联网企业率先开启了“去IOE”的进程。
此前,阿里巴巴主要使用IBM和HP的小型机。
存储设备主要是EMC产品和部分Dell存储设备;数据库全部来自Oracle。
然而,随着电商业务的爆发式增长,原有的技术架构和成本阻碍了业务发展。
所谓去IOE,实际上是指集中式部署(IOE架构)难以适应大规模互联网应用的可扩展性需求。
因此,分布式架构系统取代了集中式架构商业系统,进而出现了分布式数据库。
“在IOE时代,数据通常存储在IOE硬件设备中。
”李博士提到。
“当数据量增大时,存储任务将通过堆叠IOE硬件设备来完成。
由于IOE软硬件相互配合,成本也随之增加。
水涨船高。
”但这个解决方案并不适用于每家公司。
阿里巴巴的“去IOE”过程从2016年开始,总共历时三年,投入了近1.7万名技术员工。
迁移后,系统的维护和运营成本也非常高。
例如,为了重构一个新的运维系统,仅花费了15000台X86服务器来替换原有数百台小型机的系统。
针对大多数有成本压力的中小企业,瑞帆科技推出了一站式解决方案,以零距离大数据中台为基础,辅以Snowball DB和少量语料库完成文字识别大语中文智能文本平台,三大产品组合形成涵盖结构化、非结构化、半结构化数据的完整体系。
该系统所有产品均支持PB级以上的数据处理能力,也能支持产品的性能和承压要求。
“这种PB级+低代码+数据中台的组合可以让中小企业以相对较低的成本使用大数据产品。
”在李博士看来,这才是大数据经济的真正价值,即帮助更多传统中小企业通过大数据的精细化管理,提高工作效率,实现转型升级。
瑞帆科技成立于2016年,在此期间,李博士和他的团队见证了大数据应用不断向工业互联网延伸的趋势。
与此同时,华为、阿里巴巴等各大厂商也推出了自己的私有云解决方案和大数据解决方案。
计划与创新企业共同抢占大数据服务市场。
“巨头的加入验证了行业的潜力,同时也起到了一定的‘鲶鱼效应’。
”李博士认为,未来大企业的进入需要用更辩证的角度来看待。
一方面,未来的市场格局,普惠性的项目大多交给巨头,他们有足够的资源和资本;此外,金融、安全等垂直细分市场可以交给瑞帆科技等科技型创新企业。
在PB级大数据领域的布局和专业知识已形成行业竞争壁垒。
》稿件来源:瑞帆科技雷锋网雷锋网版权所有文章,未经授权禁止转载。
详情见转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-06
06-17
06-18
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态