快捷搜索:  

吴恩达最新演讲:ai agent就业流的异日

"吴恩达最新演讲:ai agent就业流的异日,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作吴恩达最新演讲:AI Agent工作流的将来乌鸦智能说·2024-04-02 19:10关注AI Agent是人工智能落地的关键

吴恩达教授曾任谷歌大脑项目的创始人,并开创性地提出了深度学习概念,推动了人工智能的发展。今天(Today)分享的是,吴恩达教授在红杉资本的人工智能峰会(AI Ascent)上发表了一次演讲。

在本次演讲中,他谈到了AI agent工作流多步迭代的模式与基于人工评估基准测试的效果分析,还谈到了自己对于AI agent设计模式的四种分类,包括检查、工具使用、规划、多智能体协作。

与此同时,吴恩达还分享了其对AI agent的将来发展潜力的展望。在他看来,通过代理工作流程,人工智能能够胜任的任务种类今年(This Year)将会大幅扩展。此外,快速 token 生成也很重要,即使使用质量略低但速度更快的语言模型,通过更多轮次的迭代,也可能比使用更高质量但速度较慢的模型获得更好的结果(Result)。

目录如下:

01 AI agent工作流的模式与效果

02 四种AI agent设计模式

03 总结

01 AI agent工作流的模式与效果

我很高兴(Happy)与大家分享我对人工智能代理的看法,这是一个令人兴奋(Excited)的新兴趋势,所有从事人工智能的人都应该关注。

目前(Currently),我们(We)使用大语言模型的主要方式是一种非代理工作流程,即您输入一个提示,模型就生成一个回答。这有点像让一个人坐下来一次性从头到尾编写一篇文章,而不允许使用退格键,尽管这样做很难,但大语言模型的表现出奇地出色。

相比之下,代理工作流程看起来是这样的:首先,让人工智能大语言模型写一个文章大纲,如果需要进行(Carry Out)网站研究就先做研究,然后写出第一稿,然后阅读并思考需要修订的部分,再修改这一稿,如此循环往复、迭代多次。很多人没有意识到,这种做法可以带来显著的改进效果。我自己在使用这些代理工作流程时也感到非常惊讶(Surprised),它们(They)工作得如此之好。

我的团队分析了一个叫做"人工评估基准测试"的编码基准数据,它包含诸如"给定一个非空整数列表,返回所有偶数位置元素的和"之类的编码问题。现有的做法是使用零样本提示,即直接让人工智能编写代码并运行,但没有人是这样编码的。

研究发现,GPT-3.5使用零样本提示时只有48%的正确率,GPT-4提高到了67%。但如果在GPT-3.5上使用一个代理工作流程,它的表现实际上比GPT-4还要好。如果在GPT-4上使用代理工作流程,它的表现也非常出色。这意味着采用代理工作流程对于构建应用程序至关重要。

目前(Currently),行业内有很多关于代理的讨论(Discuss)和报告,但我想更具体地与大家分享一下我在代理设计模式方面的一些体坛。尽管这个领域还很混乱,但我尝试对正在发生的事情进行(Carry Out)了分类。

02 四种AI agent设计模式

1.反思(reflection)

首先是检查(reflection),我认为这是一种大家都应该使用的工具,它非常有效。你可以将之前生成的代码再次输入给语言模型,并提示它"仔细检查这段代码的正确性、效率和结构,并提出评论。"同一个生成代码的模型可能会发现漏洞并提出改进意见。接收反馈后,你可以再次提示它,它可能会生成更好的代码版本。我觉得这是一种相当可靠的技术。

对于那些想更多了解这些技术的人,在每张幻灯片的底部我都列出了一些推荐阅读资料,希望(Hope)能提供更多参考。

我之前描述的是一个单一的编码代理,你提示它与自己进行(Carry Out)交互。这个想法的一种自然(Nature)延伸是,不是单一的代码代理,而是有两个代理,一个是编码代理,另一个是评审代理。它们(They)可以基于同一个大型语言模型,但你以不同的方式对它们(They)进行(Carry Out)提示,对一个说"你是专业编码者,编写代码",对另一个说"你是专业代码评审员,评审这段代码"。这种工作流程实际上非常容易达成,我认为它是一种通用技术,可以为很多工作流程带来显著的大型语言模型性能提升。

2.工具使用(Tool use)

第二个设计模式是工具使用。我们(We)已经看到,语言模型可以搜索网页、生成和运行代码等,使用各种工具来分析、收集信息、执行操作以及提高生产效率。

如果你实际查看相关文献,你会发现早期很多工具使用研究似乎都源于视觉领域,因为在GPT-4和Llama等模型出现之前,大型语言模型对图像都是盲目的,所以唯一的选择就是让大型语言模型生成一个可以操作图像的函数,比如生成图像可能进行(Carry Out)目标检测之类的。这就是工具使用,它扩展了大型语言模型的能力。

3.规划(Planning)

第三个是规划。如果您还没有尝试过规划算法,那可能会像我第一次看到 ChatGPT 时那样,体会到人工智能的惊人能力。我曾运行过现场演示,当出现失败(Failure)时,人工智能代理能自主规避失败(Failure)继续运行。

我从一篇论文中摘录了一个例子:比如你给出一张男孩的图像,并说根据说明生成一张女孩的新图像。现在我们(We)有了这样的人工智能代理:它可以确定第一步是确定男孩的姿势,然后可能在Hugging Face上找到一个合适的模型来提取这个姿势,接下来要找到一个姿势图像模型来合成一个女孩的图像,然后使用图像到文本的模型,最后使用语音合成。

我不想说它们(They)已经能够可靠地工作,有时候还是有些不稳定,但当它们(They)工作时,效果确实令人惊叹。再加上使用代理循环,有时你还可以从早期的失败(Failure)中恢复过来。所以对于一些研究工作,我已经开始使用研究代理,比如说我不想自己花很长时间在谷歌上搜索,而是把任务交给研究代理,过几分钟再回来看它都找到了什么,有时它管用,有时不管用,但它已经成为了我个人工作流程的一部分。

4.多智能体协作(Multiagent collaboration)

第四个设计模式是多智能体协作。比如开源项目 ChatDev,你可以提示一个语言模型扮演不同的角色,比如公司CEO、设计师、产品经理可能测试员,这些"代理"会相互协作,共同开发游戏(Game)等复杂程序。虽然不是每次都能成功(Success),但有时确实令人印象深刻。研究还发现,让不同的人工智能代理进行(Carry Out)辩论,也能提高它们(They)的表现。

03 总结

总之,我认为采用这些代理推理设计模式能够显著提高我们(We)的工作效率。我预计,通过代理工作流程,人工智能能够胜任的任务种类今年(This Year)将会大幅扩展。

不过我们(We)需要改变一种习惯,那就是习惯了在提示语言模型后立即获得响应。在代理工作流程中,我们(We)需要学会能够耐心等待几分钟甚至几个小时,才能得到响应,就像我们(We)交代任务给人时需要适当地等待一段时间再进行(Carry Out)检查一样。

此外,快速生成token也很重要。因为这些迭代式工作流程需要语言模型快速生成token供自己阅读。即使使用质量略低但速度更快的语言模型,通过更多轮次的迭代,也可能比使用更高质量但速度较慢的模型获得更好的结果(Result)。

我期待着 Claude 5、Claude 4、GPT-5和 Gemini 2.0 等新模型的到来。如果你期待在最新模型上通过零样本获得最佳表现,采用这种代理推理方法在早期模型上有可能达到相当的性能。

总的来说,通往人工通用智能的道路就像一条漫长的旅程,而代理工作流程有望成为通往目的地的一小步。谢谢(Thank You)大家!

本文来自微信公众号“乌鸦智能说”(ID:wuyazhinengshuo),作者:智能乌鸦,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+15

好文章,需要你的鼓励

乌鸦智能说特邀作者2收  藏+10评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章腾讯、抖音(Tik Tok)齐上阵,AI社交方向转为AI伴侣6年亏500亿,商汤苦寻解药“Sora概念股”狂飙,能否打破“过山车”魔咒?从Sora展开,全面解读AI视频大模型发展史又一款字节AI产品火了,Gauth下载量三个月暴增14倍,一度反超多邻国今天(Today)的AI,是2000年互联网泡沫重演?愚人节整真活!ChatGPT放开限制,不注册也能玩 | 最前线现在,ChatGPT不注册登录也能免费用了谷歌Gemini AI加持的iPhone大猜想:成超级智能助手,自动整合生活(Life)快照最新文章推荐花王再“砍”品牌,曾是全日第一彩妆即将停产独立App上线,可能已为抖音(Tik Tok)电商的将来埋下了伏笔腾讯、抖音(Tik Tok)齐上阵,AI社交方向转为AI伴侣字节十二年,张一鸣的「幸福(Happiness)烦恼」智能化最积极的海尔,对大模型不着急了6年亏500亿,商汤苦寻解药肯德基的KCOFFEE加入9.9元鏖战春天到了,聊聊骑行这门“热”生意吴恩达最新演讲:AI Agent工作流的将来GLP-1都要过去式?躺着减脂又增肌才是将来乌鸦智能说特邀作者

人工智能新时代的商业智库和价值灯塔

发表文章9篇最近内容吴恩达最新演讲:AI Agent工作流的将来50分钟前又一款字节AI产品火了,Gauth下载量三个月暴增14倍,一度反超多邻国4小时前文生图模型又卷起来了,Stable Diffusion凉凉,Midjourney流量被反超昨天(Yesterday)阅读更多内容,狠戳这里下一篇GLP-1都要过去式?躺着减脂又增肌才是将来

减肥市场的天花板越来越高了。

50分钟前

热门标签完达山奶粉北大荒张沫凡产业结构优化高附加值风险点payoneer我独自生活(Life)日日顺百视通上海文广英镑汇率心理账户m17三角洲离岸鞋离岸运动员冷冻电镜搬家公司收费情况罗迦陵哈同成份股规模化养殖场乐居群星vfx电容话筒文书摩根大通银行刘看山关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

吴恩达最新演讲:AI Agent工作流的未来

您可能还会对下面的文章感兴趣:

赞(630) 踩(76) 阅读数(9059) 最新评论 查看所有评论
加载中......
发表评论

Fatal error: in /www/wwwroot/spider.com/mg.php on line 211