🔥买球·(中国)APP官方网站GPT-4也能阐扬得很好-🔥买球·(中国)APP官方网站

AI Agent将助力东说念主工智能领域齐备下一个首要打破?近日,斯坦福大学教训吴恩达(Andrew Ng)在AI Ascent 2024大会上,共享了对于AI Agent的最新趋势与瞻念察,并建议现存的四种主流的AI Agent联想模式。演讲中,吴恩达共享了一个相配有道理的不雅点,他以为智能体责任流的价值可能被大大低估了,基于GPT-3.5构建的智能体责任流在实质应用中的阐扬优于径直使用GPT-4。此外,他强调AI Agent责任流将在已往鼓舞东说念主工智能领域的越过中开释繁密后劲。为了让人人更好地了解吴恩达的不雅点,本文联结吴恩达在X平台对于AI Agent联想模式的珍重答复,将这次演讲的精彩内容进行重构呈现。精彩不雅点AI Agent责任流将在本年鼓舞东说念主工智能取得繁密越过——以至可能突出下一代基础模子。AI Agent责任流不是让LLM径直生成最终输出,而是屡次教导LLM,使其有契机渐渐构建更高质地的输出。通往AGI的说念路嗅觉更像是一段旅程而不是方针地,我以为这种AI Agent责任流不错匡助咱们在这漫长的旅程中上前迈出一小步。#01AI Agent责任流如何责任?

我以为,AI Agent(AI智能体)责任流将在本年鼓舞东说念主工智能取得繁密越过——以至可能突出下一代基础模子。这是一个要紧的、令东说念主应许的趋势,我号召总共东说念主工智能从业者齐矜恤它。那么,AI Agent责任流是如何责任的?它的效果如何?当今,咱们在使用LLM(大讲话模子)时,大多礼聘零样本教导(zero-shot)的神态,即在一个非智能体责任流中,把教导输入到对话框中,让模子一次性生成总共这个词输出,过程中不进行任何修改。这有点像是咱们让某东说念主写一篇对于某个主题的著述,要求他坐在键盘前,从新到尾打出一篇著述,期间不进行回退删除,并盼愿得到高质地的放胆。尽管这很贫穷,但LLM在这方面作念得相配好。引入智能体责任流后,咱们不错要求LLM对文档进行屡次迭代处理。它可能需要膨大一系列的本领,举例:写一份论文大纲;决定是否需要通过汇集搜索来网罗更多信息;撰写初稿;阅读初稿,并念念考哪些部分需要修改;修改初稿;……这种迭代过程对于大大量东说念主类作者来说是写出好著述的关键。好多东说念主齐莫得领会到的是,对于AI来说,礼聘这种迭代式责任流产生的放胆要比一次性生成的放胆好得多。其实我我方也很惊诧,对于它们的责任决策过程,以及它们优秀的阐扬。我以为,AI Agent责任流不是让LLM径直生成最终输出,而是屡次教导LLM,使其有契机渐渐构建更高质地的输出。我的团队一直在密切矜恤编写代码的AI领域的发展,并分析了多个有计划团队的效果,重心矜恤他们的算法在粗拙使用的HumanEval编码基准测试(OpenAI几年前发布的基准测试)上的阐扬。下图展示了咱们的有计划发现。事实解说,在零样本教导的要求下,GPT-3.5的正确率是48%,GPT-4的阐扬更好,达到了67%。但淌若你礼聘的是智能体责任流,GPT-3.5实质上能阐扬更好,以至比GPT-4还好。淌若你围绕GPT-4构建这么的责任流,GPT-4也能阐扬得很好。值多礼贴的是,处于智能体责任流中的GPT-3.5实质上优于径直使用GPT-4。这意味着礼聘智能体责任流对于构建应用圭臬至关要紧。#02四种主流的AI Agent联想模式开源AI智能体器具和对于智能体的学术文件正在激增,这是一个令东说念主应许的时辰,但亦然一个令东说念主困惑的时辰。为了匡助人人更好地交融智能体领域正在发生的事情,我想共享我在智能体领域看到的四种联想模式。Reflection(反念念):让LLM扫视并修正我方生成的输出。Tool Use(器具使用):LLM使用汇集搜索、代码膨大等器具来匡助它网罗信息、遴选活动或处理数据。Planning(筹商):LLM见地复杂任务,制定并膨大多本领筹商来齐备筹商。Multi-agent Collaboration(多智能体和谐):多个AI Agent协同责任,通过分衔命务、接头和辩说来建议比单个智能更好的处理有筹商。Reflection是我以为大大量东说念主齐应该使用的器具,它如实很有用。Tool Use,我以为它得到了更粗拙的认同,况且使用效果如实很好。我以为它们齐口舌常刚劲的技巧。当我使用它们时,我险些总能让它们很好地责任。Planning和Multi-agent Collaboration,我以为它们是一个新兴的领域。当我使用它们时,或然我对它们的责任效果感到胆怯,它们不错让AI Agent作念更多的事情,但当今技巧还不太锻练,我无法让它们老是可靠地责任。接下来,我将珍重先容这四种联想模式。Reflection(反念念)Reflection是齐备速率相对较快的联想模式,它也曾带来了令东说念主惊诧的性能擢升效果。咱们可能齐有过这么的资格:在ChatGPT/Claude/Gemini中输入教导,得到不幽静的输出,提供关键反馈以匡助LLM矫正其反应,然后赢得更好的反应。淌若将关键反馈的本领交给自动化圭臬,让模子自动品评我方的输出并矫正其反应,放胆会如何?这恰是Reflection的关键。以要求LLM编写代码为例。咱们不错教导LLM径直生成某个任务X的代码。之后,咱们不错教导它扫视并修正我方的输出,举例:为我编写任务X的代码;这是任务X的代码,仔细查验代码的正确性、作风和服从等,并对如何矫正代码建议成立性意见;左证建议的意见修正代码。咱们会发现,左证教导写出代码的阿谁大模子,可能能够发当代码里的问题,比如第五行的bug,并建议成立性的意见。淌若咱们遴选了它的意见并再次输入教导,它可能会输出一个比初版更好的第二版代码。不成保证一定如斯,但大大量情况下它是有用的。这种要领在好多应用中齐值得尝试。类似品评/重写过程可能会产生进一步的矫正。这种self-reflection过程使LLM能够发现差距并改善其在多样任务上的输出,包括生成代码、编写文本和回答问题。咱们不错通过使用器具(Tool Use)来匡助LLM评估其产出,达到Reflection的效果。举例,通过一些单位测试来运行其代码,以查验它是否在单位测试上生成正确的放胆,或者搜索网页以查验它的文本输出。然后,LLM不错反念念发现的造作,并建议矫正的想法。再进一步,咱们不错使用多智能体框架来齐备Reflection。咱们不错创建两个不同的智能体,一个是代码智能体,用来教导生成深广的输出,另一个是审核智能体,用来教导对第一个智能体的输出给出成立性的品评,它们背后的LLM可能是团结个,但给它们诞生的教导不雷同。这种类型的责任流实质上很有用,两个智能体之间通过接头鼓舞了反应的矫正,为LLM的性能带来权臣的擢升。Tool Use(器具使用)Tool Use是AI Agent责任流的关键联想模式,它扩展了LLM的本领。许多东说念主可能也曾很熟练基于LLM的器具使用系统。咱们也曾看到,有好多不同的器具被东说念主们用于分析、网罗信息、遴选活动以及提高个东说念主坐褥力。在LLM发展的早期,在LLaVa、GPT-4V和Gemini等大型多模态模子(LMM)粗拙应用之前,LLM无法径直处理图像,因此好多对于Tool Use的责任是在狡计机视觉领域进行的。其时,基于LLM的系统操作图像的唯独要领是调用函数,比如在图像上进行对象识别或筹商检测等。从那时起,Tool Use的执行开动了爆炸式增长。前年年中发布的GPT-4的函数调勤恳能,是迈向通用Tool Use的要紧一步。尔后,越来越多的LLM被设备出来,来便于Tool Use。Planning(筹商)第三种联想模式是Planning。对于还莫得尝试过计合算法的东说念主来说,看到AI Agent会感到很惊诧——哇!我无法想象AI Agent能作念这些。我曾进行过现场演示,当某件事情失败了,AI Agent能自主逃避失败赓续运行。实质上我资格过好多这么的惊诧时刻——哇!我不敢确信我的AI agent系统会自四肢念到这小数。这里有一个例子是从HuggingGPT论文中改编的。你给出一张男孩的图像,并教导LLM生成一张女孩正在念书的图像,她的姿势与图像中的男孩雷同,然后,用声息描述生成的新图像。讹诈现存的AI Agent,第一步要作念的是笃定男孩的姿势,接着可能会在HuggingFace上找到得当的模子来提真金不怕火姿势,接下来需要找到一个姿态图像的模子,来生成一张女孩的图像,然后使用图像转文本模子,临了使用文本转语音模子读出描述。Multi-agent Collaboration(多智能体和谐)临了一个联想模式是Multi-agent Collaboration(多智能体和谐)。ChatDev是多智能体系统的一个实例,你不错诞生LLM去上演不同的智能体扮装,比如软件设备公司CEO、联想师、居品司理或测试员等,这些智能体不错相互和谐,进行对话、编写代码或设备游戏,天然代码并不老是能运行,关联词这项技巧正在不停越过。此外,多智能体辩说亦然其中一种联想模子,你不错有多个不同的智能体,比如让ChatGPT和Gemini进行辩说,这实质上也会带来更好的性能。因此,让多个AI Agent全部责任,亦然一种刚劲的联想模式。我以为,使用这些智能体联想模式能够权臣擢升咱们的责任服从。#03迈向AGI:AI Agent责任流的后劲以下是我临了一些苟简的转头:第一,通过AI Agent责任流,AI能作念的事情将在本年大幅扩展。第二,东说念主们民风于在输入教导之后,立即得到回复,这是东说念主性使然——咱们可爱即时获取、即时反馈。关联词在AI Agent责任流中,咱们需要民风将任务委派给AI Agent,并耐性恭候几分钟,以至几小时,来获取回复。就像我见过好多新晋管制者,将任务交给某东说念主,然后五分钟后查验放胆,这不是一种有用的责任神态。因此,咱们需要对AI Agent多点耐性。第三,快速的Token(符号)生成口舌常要紧的。因为在迭代式的AI Agent责任流中,咱们需要LLM能够快速地生成Token。我以为,即使是使用性能稍低的LLM,淌若能快速生成更多的Token,通过更多轮次的迭代,也不错比性能更强但Token生成慢的LLM,赢得更好的放胆。大概这个不雅点还存在一些争议。第四,坦率地说,我相配期待Claude 4、GPT-5和Gemini 2.0,以稀奇他总共正在构建的、出色的大模子。我以为,淌若你期待在Claude 4/GPT-5/Gemini 2.0上运行你的任务,以零样本的神态,你可能不错在也曾发布的LLM(比如GPT-4)上通过AI Agent责任流,比预期更早地接近GPT-5的性能水平。我以为这是一个要紧的趋势。临了,我想说,通往AGI的说念路嗅觉更像是一段旅程而不是方针地,我以为这种AI Agent责任流不错匡助咱们在这漫长的旅程中上前迈出一小步。关系参考:https://www.youtube.com/watch?v=sal78ACtGTc&t=108shttps://twitter.com/AndrewYNg/status/1770897666702233815https://twitter.com/AndrewYNg/status/1773393357022298617https://www.deeplearning.ai/the-batch/issue-243/《吴恩达:别光盯着GPT-5,用GPT-4作念个智能体可能提前达到GPT-5的效果》,机器之心《吴恩达最新演讲:AI Agent责任流的已往》,乌鸦智能说*素材起原于汇集全球精选栏目全球精选勤勉于为你“筛选、记载、解构”海表里最优质的东说念主工智能前沿信息。在这里,你将发现宇宙各地的鼎新效果、科技打破、行业趋势、买卖念念考以及那些引颈AGI潮水的精英企业和东说念主物。此栏目每周更新,描述AGI期间国外形式,与全球鼎新者共探已往。