
[TechWeb]新闻7月18日,OpenAI首席执行官Sam Altman在25分钟内发行了现场广播,并在第一个统一的代理商中发布了“ Chatgpt Agent”,这极大地提高了Chatgpt处理现实世界要求的能力。例如,与Chatgpt代理商一起,可以允许Chatgpt处理以下请求:“请参阅我的日历,并简要介绍基于最新新闻的即将举行的客户会议,“计划和购买成分,以制作四个餐馆,并“研究三个竞争对手,并创建幻灯片”。 Chatgpt很明智地浏览网站,过滤结果,激励您安全登录,运行代码,必要时进行审核,甚至提供编辑PPT和Excel,以总结其审核结果。 Sultraman说:“ Chatgpt代理使用计算机执行复杂的任务,这是您真正感到AGI的时候。”从现在开始,专业版(Pro)的ChatGPT用户以及版本和团队版(团队)可以使用ChatGPT代理。使用Chatgpt代理门户网站尚未更改。在原始的ChatGpt页面上,只需在“工具”上下拉下选择“代理模式”。 PPT合并了三个基本功能,比人类更好。今年1月,OpenAI发布了其第一个智能操作员,该操作员允许AI像人一样直接与GUI联系,并可以独立访问Internet,单击和输入。运营商推出两周后,Openai推出了 - 深度研究的第一个,使Toallah模型可以直接使用工具进行研究,并擅长审查和汇总信息。如今,ChatGPT代理人结合了过去三个主要技术成功的好处:操作员与网站互动的能力,结合信息的深度研究技能以及Chatgpt Communication的智能优势。 “代理模式”下的chatgpt可以直接使用用户资源,包括智能浏览网页,过滤结果,提醒您登录安全地运行代码,并在必要时进行审查,并直接汇总和发现PPT和Excel结果。为了展示ChatGpt代理的能力,团队展示了一个真实的场景:上传团队吉祥物照片,Chatgpt可以创建thecomic样式贴纸,然后再订购500张贴纸并将其发送到特定地址。在理解主动的单词之后,Chatgpt首先包括搜索 - 然后创建推理 - 然后执行任务,称为Imagen工具,以生成动画版本的图片,设计贴纸,最后订购500份从Stickermule到用户指定的地址。此外,团队还展示了Chatgpt执行PPT的能力。 CHATGPT需要从Google Cloud中获取审核和审查数据,并直接将其用于图表上的结果。 Google Cloud API的链接ChatGpt代理以搜索,阅读 - 内容 - 内容信息,然后编写一些代码。该模型使用OP图像生成的效果是对PPT图表的一些装饰和优化。第一个PPT(如上所示)不是很独特。增强研究的一个主要特征是该模型检查了自己的结果并完善了它们以提供出色的完成结果。最后,ChatGpt代理称该模型生成以下PPT图表。 Web浏览和现实生活任务分析中的ChatGpt代理“运行标记”完成了该功能,ChatGpt代理都刷新了SOTA。在《人类的最后考试》(HLE)中,ChatGpt代理的得分为41.6%,创造了很高的记录。当研究团队采用并行方法时,它同时运行了将近8次并选择了最高的信心结果,HLE得分直接得分为44.4%。在最难的数学基准的Frontiermath中,Ahchatgpt的肠道的准确性通过使用诸如访问终端来执行代码的工具的准确性达到27.4%,这比前两个O3和O4-Mini型号要好。与实习生AL基准测试旨在评估复杂,经济工作中的模型性能,ChatGpt代理的输出比大约一半的情况下的人均可或更好,而大约要比O3和O4 Minis好。在评估数据科学生产力的DSBENCH中,ChatGpt代理人比人类绩效高得多。在Excel编辑功能的Testsheetbench测试中,ChatGpt代理直接编辑电子表格时得分甚至高于45.5%,而Excel中的Copilot为20.0%。在对投资银行分析师1-3级建模活动的内部审查中,Chatgpt Agenthas改变了深入的研究和O3模型。在OpenAI发布的BrowseComp基准中,该基准衡量了代理商在网络中寻找困难网络信息的浏览能力,ChatGPT代理已成为一种新的SOTA,其精度为68.9%,比深入研究高17.4%。最后,关于Webarena(在新窗口中打开),这是一个旨在评估T的基准测试在完成现实世界网络任务时,Web浏览代理的性能,ChatGpt代理改善了基于O3的CUA(运营商的动力模型)。 AI代理的发展是一个三维竞争场景。 2025年是全球AI代理技术爆炸的第一年。该行业已从主要的主要竞争转变为智能机构,竞争激烈的场景显示了多层次。在该领域的世界中,中国队在今年年初发布了整个中国团队,在舞会上首次获得环球代理人“ Manus”,6月份访问了1616万。在Field Field,即OpenAi Chatgpt代理商发行的前一天,Amazon Cloud Technology发布了Amazon Bedrock Agent Core,这是一个企业级级部署平台,提供了七个基本服务(例如Runtime Syptime,Code Sandbox和浏览器工具),并支持8-HUR的8-HUR ASYNCHROUS,并支持开发者之间的opennchronous和Opener键链接。概念部署概念的AI代理。随着Openai Chatgpt代理的强烈添加,当前的AI代理形成了“一般与垂直”,“端到端与多模型”和“ C-End工具与B-End平台”的三维竞争场景。