你的位置:开云·kaiyun(中国)体育官方网站 登录入口 > 新闻动态 >
开yun体育网在不依赖东说念主类搅扰的情况下完成各种跨模态任务-开云·kaiyun(中国)体育官方网站 登录入口
发布日期:2026-06-13 09:01    点击次数:120

开yun体育网在不依赖东说念主类搅扰的情况下完成各种跨模态任务-开云·kaiyun(中国)体育官方网站 登录入口

近期,好意思国明尼苏达大学与伊利诺伊大学芝加哥分校等合伙团队提倡并已矣了一个名为 InfantAgent-Next 的通用型智能体系统,其简略通过笔墨、图像、音频等形状与诡计机进行自动化交互。

它的中枢创新在于,碎裂了现存系统普遍采用的“单一依赖”模式(或依赖器具,或依赖视觉模子),转而采用高度模块化的搀杂式架构。

现在,商议团队已在多个简直交互任务中考据了 InfantAgent-Next 的有用性,包括办公软件操作、网页裁剪、音频分解等任务场景,性能跳跃了多个现存基线。例如,在 OSWorld 任务中准确率达到 35.3%,跳跃了 Claude 诡计机代理等系统。

此外,他们还开源了齐备代码与评估剧本,但愿推动社区进一步商议委果可落地的多模态通用智能体。

近日,有关论文以《InfantAgent-Next:多模态通用代理的诡计机自动交互技能》(InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction)为题发表在预印本网站arXiv上 [1]。明尼苏达大学博士生雷斌和伊利诺伊大学芝加哥分校博士生康伟泰是共同第一作家,明尼苏达大学丁才文闇练担任通信作家。

可用于数字办公助手等场景

该团队不竭脸色通用 AI 代理(AI Agent)技能改日后劲。在他们看来,一个委果高效的智能代理,应该简略自主分解用户的意图,并像“数字助手”相通,在不依赖东说念主类搅扰的情况下完成各种跨模态任务,从而委果自若东说念主类的操作时代和防护力。

康伟泰对 DeepTech 示意,这项技能一朝纯属,有望在办公自动化、内容裁剪、复杂信息检索与决策撑持等边界带来调动性变革,使东说念主类简略将元气心灵聚首于更具创造性和政策性的责任。

商议团队发现,现存步履主要面对两类主要问题:

一类是器具动手型的系统,时时由大模子认真扫数这个词经由的决策,并调用预设器具。这类步履往往需要东说念主类提前为每个任务场景用心遐想器具调用逻辑,其存在泛化性差和顾惜资本高的局限性。

另一类则是纯视觉动手的系统,尽管其具有一定通用性,但由于推理和奉行全靠单一模子完成,受制于电脑屏幕的高分歧率视觉分解的挑战。因此,它往往在界面点击、文本定位、文献裁剪等细节操作上出错,枯竭奉行层面的鲁棒性。

商议团队的突破性地引入了一种模块单干配合机制——不再依赖单个模子处理扫数问题,而是笔据任务需求将不同子任务路由给专长不同的“众人模子”。

例如来说,谈话模子用于任务野心、视觉模子用于定位界面元素、音频模子用于解析语音提醒等。扫数模块分享和解的落魄文,子模块的输出也会被回写进系统历史中,进而已矣端到端的多模态配合。

这种架构带来的新常识包括:充分运用了器具模子与视觉模子在不同任务类型中的互补性;已矣了“任务分解-众人路由-落魄文会通”的遐想范式;讲解了高度模块化智能体架构在多个基准任务中,具备更强的泛化智商和奉行准确性。

商议团队以为,InfantAgent-Next 的应用远景庞大。它的中枢智商是让智能体简略像“假造东说念主类用户”相通分解多模态输入(如笔墨、图片、声息等),并以高度准确、可控和自动化的形状操作诡计机界面。

这种智商在改日有望镶嵌到多种试验应用场景中:

数字办公助手:InfantAgent-Next 可用于自动完成文档撰写、表格处理、幻灯片制作、邮件收发等任务,尤其合适需要图文搀杂操作,匡助用户省俭多数访佛作事时代。

无拦截扶植系统:对于见解拦截或算作未便东说念主群,InfantAgent-Next 能通过语音和图像分解,匡助他们自动化地与电脑或网页界面交互,从而升迁数字可及性。

跨模态客服与运维机器东说念主:InfantAgent-Next 在电商、政务、金融等行业可用于后台自动填写系统表单、握取页面数据、处理用户恳求等,以智能化形状完成原来需要东说念主工介入的操作经由。

耕作与考试平台中的模拟用户:它不错被用作“假造学生”或“假造操作员”,在软件培训、系统测试等边界匡助构建仿真环境。

软件自动化测试与交互考据:与传统的 UI 自动化剧本比拟,InfantAgent-Next 更具通用性和弹性,适用于快速生成测试经由、发现交互逻辑特别。

“长久来看,咱们信服这类通用型 AI Agent 将逐步成为每个东说念主诡计诞生中的常驻助手,像系统级智商相通无处不在,并不竭进化。”康伟泰说。

但愿推动通用多模态 AI Agent 试验落地

回忆此次商议资格,最让康伟泰和雷斌谨记的是商议团队从领先的英姿飒爽,到迟缓意志到已矣这么一个多模态通用 AI Agent,试验上比商议团队猜测中要贫苦得多。

起原,他们制定了明晰的单干合作经由:代码已矣、benchmark 测试和论文构念念、撰写,并如时代节点鼓舞。但现实远比主张复杂——商议团队需要兼容多个 benchmark,开导撑持它们的测试代码自身就极为繁琐。

况兼,由于他们所遐想的是一个“通用型”智能体,触及的子边界相配多。为了把各项功能落地,商议团队花了多数时代去调研 GUI-VG(GUI Visual Grounding)有关责任,分析不同大谈话模子的智商互异、API 调用资本等。可是,这些责任均无法平直复用现存决议,必须从新构建。

商议过程中,团队还际遇了诸多突提问题,包括 API 资本超预算、GUI-VG 模块的迭代优化、论文写稿地方的调养等,导致原主张一再被打乱。面对这些挑战,团队成员恒久保持精细配合,尤其在论文成型前的临了阶段,他们每天通过 Zoom 召开良友“斗争会议”,以致整宿修改论文。

这段资格不仅产出了一项蹙迫科研适度,更成为一场对于团队配合、韧性对持和动态调养的珍惜实践。最终,团队告捷按预期脱稿,这一适度让扫数成员倍感自重,同期也让他们久了领略到,高质地的科研责任并非线性鼓舞,而是一场充满不笃定性的博弈,需要天真应酬和精细配合。

图丨INFANTAGENT-NEXT 在 OSWorld 上的性能(来源:arXiv)

现在,商议团队一经在野心后续的商议地方,并但愿不竭打磨和升迁 InfantAgent-Next 的试验可用性与商议价值。

他们主张从以下几个方面不竭鼓舞:

升迁合座 pipeline 的着力:刻下系统中仍存在部分调用经由复杂、反馈速率较慢的问题,商议团队主张对 Agent 的任务转换、模块配合和奉行机制进行优化,使其愈加高效运动。

缩短对外部 API 的依赖与资本:现在系统在多模态分解和推理方面仍需依赖一些高质地的商用 API,这在资本和牢固性上齐带来挑战。他们正在探索更多开源、可自部署的替代决议,以增强系统的可控性和可不竭性。

增强各子模块的模子智商:不管是视觉分解、语音分析照旧多轮推理,有关模子的精度和鲁棒性齐平直影响 Agent 的推崇。商议团队将不竭跟进最新商议适度并考试子模块模子,不竭迭代子模块的采用与性能。

不竭开源,服务社区:商议团队将保持 InfantAgent-Next 的开源更新,包括代码、评测剧本和器具链,也宽宥社区开导者、商议者或对 AI Agent 感好奇羡慕好奇羡慕的同学基于商议团队的责任进行调动或膨胀,以推动扫数这个词边界的发展。

康伟泰示意:“咱们但愿这个样式不仅是一个‘能跑起来的系统’,况兼是能成为社区中的基石去推动通用多模态 AI Agent 科研探索和试验落地。”

现在,InfantAgent-Next 的代码和评测剧本一经绽放在 GitHub 上,商议团队也在不竭高频率地更新。据团队预测,开源版块中的 Agent 很可能在改日几轮迭代中,智商有望远超刻下论文所展示的水平。

参考府上:

1.https://arxiv.org/pdf/2505.10887

运营/排版:何晨龙



栏目分类
相关资讯