首页 > 科技未来 > 内容

全球首个人工智能程序员来了!超越GPT-4震撼了硅谷,但取代码农还为时过早

发布于:2024-06-21 编辑:匿名 来源:网络

催生AI的职业会不会因为AI而失业?初创公司Cognition AI刚刚成立两个月前。

X一夜之间风靡一时,只因为他们的推文拥有数千万的浏览量:今天,我们很高兴向大家介绍,第一位AI软件工程师德文。

认知人工智能团队基本上是国际信息学奥林匹克竞赛的金牌得主。

代码构建了互联网的基础,而程序员仍然是一个有门槛的高薪职业。

为什么这些智商最高的人类思维聚集在一起,一步步教导人工智能钻研他们最擅长的领域?第一个接近人类的人工智能程序员,它到底有什么强大之处?认知AI对德文的定义是:世界上第一个完全自主的AI软件工程师。

暂时把规格放在一边,让我们看看 Devin 能做什么。

Devin还没有开放使用,只能通过电子邮件提交申请,所以我们现在看到的是官方案例以及一些第三方开发者和产品人员的评论。

从 Cognition AI 本身开始,他们希望 Devin 完成一项任务:在三个 API 提供商上测试大型语言模型 Llama 的性能。

他们发送了一条用自然语言写成的提示短信,然后把手从键盘上拿开,把一切都交给了德文。

Devin 首先制定了一个有明确步骤的计划,然后开始像人类程序员一样编写代码。

Devin 决定使用浏览器打开 API 文档,阅读并学习如何访问每个 API。

过程中出现了意想不到的bug。

德文说不要惊慌,会解决任何问题。

他添加了调试打印语句,并使用日志中的错误信息来找出如何修复该错误。

最终,Devin搭建并部署了一个可视化网站,不仅完成了任务,而且结果还让人赏心悦目,走进了阅卷老师的心里。

据Cognition AI博客介绍,Devin还可以完成更复杂的任务,并且具有很强的学习和调整能力。

向 Devin 发送一篇文章的链接,该文章解释了如何通过 ControlNet 等插件在 AI 图像中嵌入精确的文本。

这本来是德文不熟悉的技术,但通过自己阅读和学习知识,输出了一张带有用户英文名字的电脑壁纸。

Devin 被要求制作一个交互式网站。

Devin不厌其烦地根据用户的要求进行了修改和完善,改进了初始化页面、加快了帧速率、响应了不同尺寸的窗口。

Devin 随后将网站部署到 Web 开发平台 Netlify 上,省时、省力、省心,只把好玩、好玩的部分留给人类。

除了冲锋之外,德文也非常适合打野。

面对一个包含需要不时维护的不同算法的开源存储库,Devin 拔出剑,环顾四周,帮助发现和修复 bug。

比程序员还耀眼。

就连 Devin 也有很强的自我管理意识,可以训练和微调自己的 AI 模型。

人类的程序员可以把它放在一边,一个小时后回来看看进展如何。

▲ 这个程序员真的让AI干了一个小时。

Cognition AI 也想证明 Devin 并不是一个自娱自乐的道具,因此他们尝试在自由职业平台 Upwork 上接单,编写和调试代码来运行计算机视觉模型。

但留给德文去做吧。

Devin 有条不紊地建立了代码存储库,解决了版本冲突,从互联网上下载了图像供模型使用,对结果数据进行了采样,并编写了一份漂亮的报告,这正是资助者想要的。

不仅如此,Cognition AI at X 自豪地宣布 Devin 通过了一家行业领先人工智能公司的工程面试。

如果你是个新手,面对甲方的任务摸不着头脑,抱怨天地不应该回应,不妨把任务要求发给德文,大神就在你身边。

经过市场测试,同行之间展开了竞争。

Cognition AI 要求 Devin 进行编码基准测试 SWE-Bench,以解决开源项目中的真实 GitHub 问题。

专攻技术的 Devin 完全自力更生,端到端正确解决了 13.86% 的问题。

乍一看,颜值并不高。

与之前模型在辅助下的最佳成绩 4.8% 相比,这已经是一个巨大的进步,甚至远远超越了 GPT-4 和 Claude2 等前辈。

到目前为止,使用过 Devin 的少数用户大多对它赞不绝口。

在彭博社记者进行的实际测试中,德文仅用了 5-10 分钟就从头开始搭建了一个网站。

在同样的5-10分钟内,德文可以重复创建经典的基于网络的乒乓球游戏。

之所以说重复,是因为在这个过程中,彭博社记者多次输入提示词,以改进网站的外观、乒乓球的物理特性等,德文对每一个要求都做出了回应。

计算机科学家 Silas Alberti 发现 Devin 擅长设计项目原型、修复错误以及以图形形式显示复杂数据。

他甚至觉得德文已经不能被称为“编程助理”,而更像是软件工程师的独立助手,帮助人们自主、自主地完成任务。

斯坦福大学机器学习博士生塞拉斯·阿尔贝蒂 (Silas Alberti) 也是从 Devin 开始的。

两周前,他用它构建了一个小型 SMS 网站摘要器,并通过 Twilio 进行了部署。

使用评价非常接地气:几乎就像人类同事一样!当德文遇到问题时,我给他建议,就像管理一个初级工程师一样。

经过这次经历,这位博士生提高了自己的标准——成为一名更好的工程师,以便将来能够管理德文斯团队。

由有梦想的中国团队创建,克服代码并不是终点。

Devin背后的认知AI就像一座拔地而起的山。

它成立仅2个月前。

这 10 名员工甚至没有固定办公室,往返于硅谷的 Airbnb 和纽约的办公室之间。

但就是这样一家公司,筹集了数万美元的投资,一夜之间走红。

Cognition AI的团队目前只有10人。

中国面孔很多,人才密度太高——有DeepMind、Waymo等大公司的工作经历,还有国际信息学奥林匹克10枚金牌。

主要创始人有三位。

27 岁的首席执行官 Scott Wu 和他的兄弟 Neal Wu 也在 Cognition AI 工作。

两人从青少年时期就开始参加国际编程比赛。

他们的能力在专业圈子里非常有名,甚至让美国国家编程队超越了中国。

和东欧。

首席技术官 Stevenhao 是 Scale AI 的高级工程师,这是一家负责培训人工智能系统的初创公司。

就读于哈佛大学的首席产品官 Walden Yan 疑似退学。

吴斯科特认为,奥运会经验是他团队的优势。

向人工智能教授编程技能本质上是一个复杂的算法挑战,允许系统做出复杂的决策并预测最佳的前进路径,类似于他们在竞赛中解决的问题。

Scott Wu 甚至用一种非常浪漫的方式来表达:这就像他们在脑海中玩了很多年的游戏。

然而,在成为大公司之前,它却患有大公司病。

与日益封闭的OpenAI类似,Cognition AI没有向公众透露技术细节,也没有透露自己是否构建模型或依赖现有模型。

他们只是笼统地说,他们找到了一种将 GPT-4 等大型语言模型与强化学习技术结合起来的方法,赋予了 Devin 几项能力。

首先,德文在推理和长远规划方面取得了突破。

他可以规划和执行需要数千个决策的复杂工程任务,记住每个步骤的背景,并不断学习和修复错误。

有了推理能力,人工智能可以变得更像人类。

我们熟悉的大型语言模型通常是根据概率预测句子的下一个单词或下一个代码片段的系统。

全球首个人工智能程序员来了!超越GPT-4震撼了硅谷,但取代码农还为时过早

但拥有推理能力意味着人工智能更接近人类思考和解决问题的方式。

至于长期规划能力,这实际上决定了AI能发挥多大作用。

计算机科学家塞拉斯·阿尔贝蒂(Silas Alberti)发现,大多数编码助手在四五步后就脱轨了,但德文基本上始终在线。

彭博社甚至表示,Devin 可以连续处理数百甚至数千个任务,同时保持一致性。

这或许就是AI的“多任务处理”。

其次,工欲善其事,必先利其器。

Devin配备了人类程序员使用的所有常用开发工具,包括沙盒计算环境中的命令行界面、代码编辑器和浏览器。

此外,Devin 积极与人类合作,实时报告它计划做什么、使用哪些命令和代码以及任务完成了多少。

它虚心接受反馈,并用提示性的话语提醒德文,它会听取建议并做出调整。

根据您的需求与您合作完成项目。

Devin的演示效果足够惊人,但攻克代码并不是认知AI的结束,而是开始。

认知AI真正希望解决的是推理问题,让AI更接近人类,进而在更广泛的学科中实现更多样的可能性。

文字、图像、视频、代码,还有什么是AI学不到的?当人工智能做得更多时,人类有责任监督人工智能做得更多。

程序员要求人工智能为他做事。

这不仅仅是认知人工智能的想法。

今年6月,GitHub、微软和OpenAI推出了基于GPT-3的AI代码助手“Copilot”。

上个月,一家名为 Magic AI 的公司筹集了超过 1 亿美元,从头开始设计自己的模型和底层技术,打造“软件工程师超人”。

当GPT-3.5刚流行时,有人认为当你输入提示词时,你正在编写一个大的语言模型。

我们可以任意让AI生成一段文字或者一张图片,也可以算数,但同时,真正的编程因为AI而变得更加流行,让我们回到了一个熟悉的话题:人类的饭碗会被抢走。

去?乐观地讲,AI程序员可以将程序员从繁琐、枯燥的任务中解放出来,做更多有创意的事情。

对于编码一无所知但有头脑的新手可以构建自己的网站、服务和应用程序。

相反,悲观者可能会觉得AI程序员让程序员不再是一个高薪行业。

认知AI评论区有人发了个狂野表情:作为软件工程师,我完了。

OpenAI创始团队成员、大人物Andrej Karpathy也表达了他对X的看法。

软件工程自动化与自动驾驶的开发过程类似:1.人类手动编写代码;2.人类手动编写代码。

2. GitHub Copilot自动完成几行代码; 3. ChatGPT 编写大块代码; 4、代码差异越来越大,比如Cursor copilot++风格; 5、在这个过程中,AI做的多,人类做的少,但仍然起到监督作用。

因为 Devin 的出现,开发者编写代码需要的工具,包括终端、浏览器、代码编辑器等,可能会发生很大的变化,人工监督的抽象程度会越来越高。

不过,也别高兴得太早。

在人工智能、用户界面和体验方面还有很多工作要做。

人类如何监督、如何调试错误、如何引导人工智能、如何使用自然语言提出高级命令,仍然有待解答。

深度学习大师弗朗索瓦·乔莱(Fran?ois Chollet)有更尖锐、更有针对性的观点——软件工程不是复制粘贴代码,而是开发和运行问题及其解决方案的心智模型。

德文还没有达到这个水平。

软件工程的革命可能即将到来。

至少目前来说,人工智能还不能完全取代人类。

由于访问过于火爆,Cognition AI的官网一度瘫痪。

看来AI还无法制作出不会崩溃的网页。

与此同时,Cognition AI 仍在招募软件工程师和机器学习研究人员。

可见,此时此刻,杰出的人类程序员比以往任何时候都更加罕见,他仍然可以做伟大的事情,为人工智能做出贡献,为更多的同类留下后盾。

全球首个人工智能程序员来了!超越GPT-4震撼了硅谷,但取代码农还为时过早

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 淘宝饮品直播加“猛将”,拉飞哥首秀实现“一个小目标”

    淘宝饮品直播加“猛将”,拉飞哥首秀实现“一个小目标”

    “大家好,虽然已经播了很多次了,但今天第一次来淘宝,我是拉飞哥。 ” 4月24日当天,“酒哥”拉飞哥首次亮相淘宝直播。 淘宝喝酒直播加了“猛将”。 开播仅2小时55分钟GMV就突破1亿,最终结算为1.17亿。 单场新增粉丝数突破13万,交易笔数突破10万,创下达人首次登陆淘宝的

    06-17

  • 银保监会:2020年四季度保险消费投诉同比增长超20%

    银保监会:2020年四季度保险消费投诉同比增长超20%

    4月1日,银保监会消费者权益保护局发布《关于年第四季度保险消费投诉情况的通报》介绍去年四季度保险消费投诉情况。

    06-18

  • 深圳:加快载人电动垂直起降、飞行汽车等应用产品产业化发展

    深圳:加快载人电动垂直起降、飞行汽车等应用产品产业化发展

    来自投资界的消息(ID:pedaily),12月27日,深圳七部门联合下发《深圳市支持低空经济高质量发展的若干措施》,其中提到加快推广eVTOL等低空飞行器载人产业化。 加快载人电动垂直起降、飞行汽车等应用产品产业化发展。 对在深圳实际从事相关经营活动、研发和销售载人电动垂

    06-18

  • 「法贝兹」获近千万元种子轮融资,投资方为庆钰投资

    「法贝兹」获近千万元种子轮融资,投资方为庆钰投资

    据投资界(ID:pedaily)8月5日消息,据36氪获悉,宠物营养生鲜品牌“法贝兹”已获近千万元种子轮融资,投资方为庆钰投资。 本轮融资将主要用于营销、广告、核心团队建设和新产品研发。 随着新一代宠物主人对宠物的情感需求不断增加,他们希望宠物能陪伴自己更长时间,自然也

    06-17

  • 央行:2月末广义货币(M2)余额223.6万亿元,同比增长10.1%

    央行:2月末广义货币(M2)余额223.6万亿元,同比增长10.1%

    据央行官网显示,2月末,广义货币(M2)余额223.6万亿元,同比增长10.1%。 广义货币(M2)余额0.6万亿元,同比增长10.1%,增速分别比上月末和同期高0.7和1.3个百分点去年;狭义货币(M)余额59.35万亿元,同比增长7.4%,增速比上月末低7.3个百分点,比上年同期高2.6个百分点;流

    06-18

  • 三部委:互联网平台企业限期整改,坚决杜绝“二选一”行为

    三部委:互联网平台企业限期整改,坚决杜绝“二选一”行为

    上头条,4月13日,国家市场监管总局、中央网信办、国家发改委税务总局联合召开互联网平台企业管理指导会。 会议指出,我国平台经济总体形势向好。 但在快速发展中,风险隐患也在逐渐积累。 危害不容忽视,依法治理刻不容缓。 强行实行“二选一”,滥用市场支配地位,实施“夹

    06-17

  • 广州南沙:设立50亿元产业引导基金,最高1000万元奖励高层次人才

    广州南沙:设立50亿元产业引导基金,最高1000万元奖励高层次人才

    投资界消息(ID:pedaily),6月6日,广州市政府新闻办召开《广州南沙新区创新链产业链关于资金链、人才链深度融入政策体系新闻发布会》。 据悉,该体系是国家级新区首个“四链”融合的政策文件。 初步测算,未来5年,广州南沙预计将投入1亿元以上,对企业和人才发展进行多层

    06-17

  • 英诺天使项目“中科原动力”完成过亿元A轮融资,加速农业机器人产品上市|英诺喜讯

    英诺天使项目“中科原动力”完成过亿元A轮融资,加速农业机器人产品上市|英诺喜讯

    英诺天使基金合伙人周全表示:“随着我国城镇化率不断提高,农村地区青壮年劳动力短缺日益严重,传统农业作业严重依赖农业操作人员,无人驾驶农机是解决上述矛盾的关键,与道路上的无人驾驶不同,无人驾驶农机需要与农业结合使用。 英诺天使基金作为中科第一轮天使投资人,非

    06-17

  • 世邦通信正在筹划A股IPO,中信证券担任辅导机构,

    世邦通信正在筹划A股IPO,中信证券担任辅导机构,

    世邦通信正在筹划A股IPO。 公司是一家以音频为中心的智能物联网解决方案提供商,专注于IP公共广播和IP内部对讲。 、IP高清拾音器三大系列产品的研发、设计、设备制造及系统集成。

    06-17

  • 福建省海洋经济产业投资基金注册成功,总规模200亿

    福建省海洋经济产业投资基金注册成功,总规模200亿

    据投资界(ID:pedaily)1月14日消息,福建省海洋经济产业投资基金母基金已注册近日,由宁德市国家投资公司发起设立的——福建省海洋经济产业投资有限公司在中国证券投资基金业协会成功注册。 根据宁德市政府相关批准,福建省海洋经济产业投资基金由宁德市国家投资公司发起设

    06-17

  • 融汇金科完成数百万美元B轮融资,由澳洲电信投资领投

    融汇金科完成数百万美元B轮融资,由澳洲电信投资领投

    投资界6月5日获悉,据36氪报道,融汇金科近期完成数百万美元B轮融资由澳洲电信投资公司领导。 本轮融资将用于系统、服务器、存储等方面的技术投资以及金融科技领域的人才招聘。 此前,融汇金科获得了红杉资本中国基金的A轮融资和华创中国领投的A+轮融资。 据了解,融汇金科是

    06-17

  • 乳品品牌“领养一头牛”完成A轮融资

    乳品品牌“领养一头牛”完成A轮融资

    近日,乳品品牌“领养一头牛”完成A轮融资。 本轮融资由KKR、耀明资本(DCP)联合领投,海邦沣华、广合投资跟投,木棉资本担任独家投资方。 本轮融资将主要用于扩大上游优质奶牛养殖规模,同时加速公司数字化升级和产业链精细化运营,提升用户体验。

    06-18