拟融资5亿美元,招钢网拟赴港上市,开启B2B电商风潮
06-18
雷锋网ID:曲晓峰,香港理工大学人类生物识别研究中心博士生。
雷锋网独家文章,转载请联系授权。
最近,我使用过的两个云计算平台Sense.io和getdatajoy.com即将停用。
前者被收购,并已对个人用户关闭;后者将于2020年1月2日截止。
在人工智能大爆发的今天,两个本应成为智能计算核心的云计算平台不但没有乘风破浪、化龙为虎,反而倒在了新时代的门槛,不得不引起人们的深刻思考。
| Sense.io - 按需分配计算能力。
在Sense.io上,每个项目都可以使用不同计算能力的平台并单独运行。
一个项目可以使用多个虚拟CPU和更大或更小的内存空间。
Sense.io是一个面向数据科学家的云计算平台,可以动态分配计算能力。
简单来说,它就是“数据科学家的 GitHub”。
在 Sense 上,数据科学家可以与其他人协作并生成数据报告。
2019年3月22日,Sense宣布被大数据软件公司Cloudera收购。
Sense 的创始人Tristan、Zajonc 和 Anand Patil 在 Sense 的博客上发布了收购公告,宣布将于 2020 年 4 月 31 日关闭免费和个人服务。
在 Sense 上,用户可以直接用 Python、R 和Julia,进行算法实验,建立模型,然后根据算法需求和成本选择具有合适计算能力的云计算平台(虚拟CPU、内存)来运行,然后输出并保存结果。
运行的程序可以是一次性的函数,也可以使用类似Jupyter的交互式执行环境一步步执行并单独查看输出结果。
输出结果可以是数据文件,如CSV、png、jpg等格式的图片,也可以使用javascript动态图表进行展示。
最后,还可以生成 Markdown 和 pdf 报告。
我曾经使用 Sense.io 进行一些数据分析。
其最大的优势是可配置的计算能力。
在进行实验的早期阶段,使用稍少的计算能力和单个 CPU 来检查数据、调试算法和测试假设。
当实验流程比较清晰、代码跑通后,就可以切换到大算力,使用16、32、64核和大内存加载所有数据进行计算,尽快获得实验结果。
特别是对于同一方向的实验,只需复制项目、修改参数、添加功能或调整流程,即可快速并行进行多个实验。
数据可以上传到同一机房的AWS数据服务器,如S3、DynamoDB或Redshift,方便不同项目共享访问或同一项目的多个快速访问(sense.io建立在AWS基础设施上)。
其实在做科学研究或者商业数据分析的时候都会遇到这个问题。
在构思算法或实验的早期阶段,你并不总是在编程和计算。
前期检查、清理数据、思考占用了大量的时间。
直到有更明确的方向,需要用数据和结果来验证想法之前,需要大量甚至海量的计算。
当然,这两种情况往往是交替进行的,用一段时间慢慢思考调试;运行一段时间大量数据看整体输出。
在进行批量操作时,他们甚至会偷别人的电脑来做实验。
使用Sense.io等解决方案,可以有效利用计算能力。
一方面,大量算力不会在概念验证前期被浪费;另一方面,在需要时,可以快速扩展克隆,调动大量算力,在短时间内快速获得结果。
与其他现有网站相比,Sense.io 更灵活且更易于使用。
它具有预先配置的编程环境,包括Python、R和Julia等最常用的数据分析开源语言的开发环境,因此您可以直接开始工作。
无需配置虚拟机、配置虚拟网络、安装系统、安装软件环境等一系列复杂的环境配置任务。
同时,协作和共享变得相当简单。
直接登录您的在线帐户并输入同一项目进行协作。
或者直接克隆一个当前正在运行的镜像项目并让其他人接管开发。
从服务器运营的角度来看,这也是一个比较合理的解决方案。
每个用户都有不同的使用高峰,不同用户错开使用可以提高服务器利用率。
甚至可以通过调整峰谷计算能力的价格来进一步削平波谷、抑制波峰。
不幸的是,在被Cloudera收购后,Sense已经对个人用户关闭了。
不知道未来Cloudera会不会开放Sense的技术来动态调整算力。
| DataJoy - 学术文档和代码的融合。
在 DataJoy 上运行基于 Keras 的全连接深度网络学习来识别 MNIST 手写字符的示例。
2019年8月3日,DataJoy联合创始人詹姆斯·艾伦和亨利向所有用户发送了关闭网站的通知。
宣布网站将于2020年1月2日关闭,届时账户将无法再登录,付费用户账户余额将被退还。
DataJoy是ShareLaTeX团队两年前推出的一个云计算项目。
在DataJoy网站上,您可以学习使用Python和R进行数据分析和编程。
在任何计算机上,只要打开浏览器并登录getdatajoy.com网站,您就可以立即进行Python和R编程、调试、分析数据并输出结果,方便编程教学,无需在所有编程课程的第一课中安装软件和配置环境。
在混乱的场景中,您可以直接开始工作。
而且,随时随地可访问、可轻松克隆的稳定环境,为从业者提供了一个稳定、易于扩展和共享的标准工作环境。
DataJoy团队在发给用户的网站关闭公告电子邮件中表示,市场上已经有很多成功的竞品,因此竞争非常激烈。
虽然 DataJoy 在过去两年中对少数用户有所帮助,但尚未大规模流行。
虽然有一些老师使用DataJoy来教授Python和R,但这不足以支持DataJoy的持续发展。
由于无法取得商业上的成功,技术团队还得维持ShareLaTeX,所以他们只好关闭了DataJoy。
简单来说,商业模式不可持续,没有利润,也没有投资,所以网站不得不关闭。
这其实可以从一些方面得到验证。
中国科技媒体上根本没有相关新闻。
只有一位居住在欧洲的学者的博客提到了这起网站关闭事件。
所以,不得不说DataJoy在推广方面还是做得不够。
我还使用DataJoy进行了数据分析实验,甚至通过Keras深度学习在其上运行了MNIST字符代码识别示例。
但当我自己进行卷积神经网络实验时,DataJoy的计算能力远远不够。
DataJoy服务器本身的运行速度比较慢,单个项目的运行时间有限制。
即使我付费延长项目的运行时间,也远远不够计算能力来进行实验。
这可能也与DataJoy网站的市场定位有关。
DataJoy 的定位与 Sense 不同,它并不是专门针对数据分析,而是针对入门编程教育。
但事实上,很可能DataJoy的计算能力有限,这限制了它在计算能力有限的教育和应用领域的应用。
不过DataJoy的界面和交互确实很贴心,毕竟我有过ShareLaTeX的维护经验。
单纯看网站本身的功能,DataJoy并不突出,但考虑到它是由ShareLaTeX团队运营的,我非常期待它的成长。
原因有点复杂,涉及到一个复杂的问题。
在学术领域,科研成果的重现性一直是一个令人头疼的问题。
在计算机领域,经常会出现在发表论文的同时发布相关方法的代码的情况。
但毕竟是两种不同的工作。
学术文档的编写和代码的编写确实很难比较。
同时,在科研过程中,实验代码的编写和学术文档的撰写完全分离,这也造成了科研过程反复中断和切换的问题。
就R语言而言,近年来出现了革命性的工具knitr。
knitr 是谢一辉博士在攻读统计学博士学位期间利用业余时间开发的开源 R 代码包。
毕业后,谢博士加入RStudio公司全职开发R语言工具。
使用knitr,您可以直接用R代码编写实验记录、报告和演示文稿。
可以直接执行文档中的R代码,并将结果输出到文档中,比如实验结果数据、基于实验时间的折线图、对比实验结果表格等。
这个过程有点类似于编程语言中的Jupyter。
代码和文档交替编写,源代码、数据分析结果和文档交替展示。
不同的是,knitr 可以将 Rmd(R 语言的增强 Markdown 变体)编译成 tex 文档,最终生成学术级别的可发布 PDF 文档。
该解决方案将学术写作、数据分析源代码、实验结果,甚至图表呈现集成到同一个流程中。
首先,关于科研结果的重现性,读者可以直接运行文档中的代码来重现实验结果。
其次,科研流程也大大简化。
将科研工作流程与学术写作流程合二为一,大大简化。
knit 在 Beamer 中嵌入实验代码输出的示例。
左边蓝色的是Rmd文件的原文,右边是生成的PDF演示报告文档。
以“>=”开头并以“@”结尾的R代码块将自动运行。
其中`>`可以为放入文档的内容写入输出控制参数。
例如:`>`抑制R环境的输出并完全隐藏操作中间步骤的结果。
实验结果也可以直接使用R语言进行分析,直接绘图,输出到文档。
注意:Beamer 是一个常用于以 LaTeX 语言生成演示报告的宏包。
DataJoy这个支持Python和R代码执行的云计算平台,由于其ShareLaTeX(专业在线LaTeX文档编写平台)的背景,给了用户很大的想象空间。
毕竟Python比R流行得多,有极其丰富的代码库用于各种数据分析和深度学习,而且DataJoy的基本操作方法非常容易进一步扩展以支持更多编程语言(参见Beaker Notebook支持)几乎所有语言)。
如果ShareLaTeX和DataJoy能够有效整合,学术出版、技术文档写作、数据科学教学、编程教学、大数据、人工智能研究和教学都将被连接起来。
不幸的是,DataJoy 根本没有走到这一步。
不知道是团队对DataJoy的定位还是最近的资金危机导致这个概念无法继续落地。
一个原本充满想象的大平台变得孤立无援。
|面向协作的云计算平台除了Jupyter、beakernotebook.com等开源工具外,云数据分析平台还包括开源工具。
商业运营的网站主要针对大型企业商业智能分析、财务量化分析和数据分析竞赛,少数网站取得了成功。
主要原因在于,数据分析虽然在相关行业被热炒,但实际上仍然是一个相对小众的领域。
尤其是在这少数玩家中,对数据和算法泄露的担忧加剧了对使用开放平台的疑虑。
仅在教育、学术、招聘等领域,相关平台因其内生的开放特性而拥有一定的市场。
但有一个人口基数的问题。
Facebook的目标用户可以是世界上的每个人,目前其月活跃用户已达到17亿; GitHub的目标用户可以是全球所有程序员,目前其月活跃用户约为100万;数据分析平台的目标用户只是程序 有多少员工从事数据分析?这就不难解释为什么这类网站比较难成功了。
但在中国,则是另一回事了。

2019年7月15日,汤森路透以35.5亿美元将其知识产权业务和科学信息业务出售给Onex Corp和Barings Asia Investments。
SCI科学引文索引服务被母公司出售,给中国敲响了警钟。
依靠的民族智慧,国家学术科研评价标准不仅孤立海外,还被东西方销往商业发展。
国家科研成果的评价和选题的指导都掌握在商业公司手中,国内学术出版的发展也不能耽误。
但长期使用SCI作为评价标准不可避免地存在困难。
其客观和同??行评审机制长期以来是对中国学术研究的必要依赖。
因此,国内对于客观、中立、开放的学术出版解决方案其实有强烈的需求。
在计算机视觉、机器学习、人工智能等学术研究领域,近年来学术文章有一个流行套路:PDF文本发布在arXiv上;代码发布在 GitHub 上,以至于有一个专门的 GitXiv 提供此类论文和代码的索引。
。
从这次推广来看,如果有足够的资源,可以通过收购或合作的方式开设一系列网站,建立一个共同的平台,实现完整的科研、技术、产业生态链,包括: 类似OverLeaf或ShareLaTex的在线学术文档协作写作平台、类似Sense.io或DataJoy的协作云计算平台、extremevision.mo算法变现平台、类似Kaggle的算法竞赛平台和数据托管平台。
国内人工智能、机器人、机器学习、计算机视觉等方面的学术研究和创业都需要这样一个通用的云计算平台来连接学术研究、学术出版、学术成果评价、在线数据分析竞赛与协作、科技人才选拔等。
、学术成果转化等领域。
在此,强烈建议有识之士建立这样一个在线云计算协作平台。
|结论在云计算时代,如何在“云”上构建一套完整的学术研究或数据分析工具链,是我近年来主要关注的问题之一。
现有的各种云服务遍地开花,但一直没有强大的驱动力来整合这些云服务。
当前的资本寒冬,为各类创业公司报名支持、打通生态链、协作创新、优化提升提供了机会。
希望数据创业者能够转危为机,顺利渡过寒冬,开创数字化新未来。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态