400-123-4657
联系我们/CONTACT US
地址:广东省广州市天河区88号
电话:400-123-4657
传真:+86-123-4567
星空体育官网您当前的位置: 首页 > 星空体育 > 星空体育官网

星空体育- 星空体育官方网站- 世界杯指定平台性能提升90%Anthropic首次公开多智能体系统构建全流程

更新时间:2025-06-18

  星空,星空体育,星空体育官网,星空体育app,星空体育网页版,星空捕鱼,星空体育app下载,星空体育官网,星空体育下载,星空电竞,星空体育入口,星空体育注册网址,星空体育注册链接,星空APP下载

星空体育- 星空体育官方网站- 世界杯指定体育平台性能提升90%Anthropic首次公开多智能体系统构建全流程

  多智能体系统之所以有效,主要在于它们能投入足够多的 tokens 来解决问题。我们的分析显示,在 BrowseComp 评测(用于测试智能体检索难以获取信息的能力)中,有三项因素解释了95% 的性能差异。其中,token 使用量单独就能解释80% 的差异,工具调用次数和模型选择则是另外两个主要影响因素。这一结果印证了我们的架构思路:通过不同上下文窗口分配任务,实现并行推理,提升系统容量。最新的 Claude 模型也极大提升了 token 使用效率,例如,升级至 Claude Sonnet 4带来的性能提升,甚至超过在 Claude Sonnet 3.7上将 token 配额翻倍。多智能体架构能有效扩展 token 使用,适配超出单一智能体处理能力的任务。

  图/流程图展示了我们多智能体Research系统的完整工作流程。当用户提交查询后,系统会创建一个LeadResearcher(主研究者)智能体,进入迭代式研究流程。LeadResearcher首先思考研究路径,并将研究计划保存至Memory(记忆)以保证上下文持久存储。因为一旦上下文窗口超过200,000 tokens,超出部分将被截断,因此计划的保存尤为关键。随后,LeadResearcher会根据不同研究任务创建专业化的Subagent(子智能体)(此处仅示例两个,实际可为任意数量)。每个子智能体独立进行网络检索,通过穿插思考(interleaved thinking)评估工具结果,并将发现返回至LeadResearcher。LeadResearcher对这些结果进行综合判断,如需进一步研究,可继续创建新的子智能体或优化研究策略。当信息收集充分后,系统将退出研究循环,并将所有研究结果交由CitationAgent(引文智能体)处理。CitationAgent会对文档和研究报告进行分析,标注具体引用位置,确保所有论断均有明确信息源支撑。最终,带有完整引文的研究结果返回给用户。

  以大语言模型(LLM)为判官的评估方法具有可扩展性。 研究型输出很难用程序化手段评估,因为其多为自由文本,且鲜有唯一正确答案。LLM非常适合用于结果评分。我们使用LLM判官(LLM-as-judge),基于评分细则对每个输出进行评估,包括事实准确性(结论是否与信息源一致)、引用准确性(所引信息源是否与陈述相符)、全面性(是否覆盖所有要求的方面)、信息源质量(是否优先使用高质量的一手来源而非低质量的二手来源)、工具效率(是否合理选择并调用工具)。我们曾尝试用多个判官评估不同维度,但最终发现,单次LLM调用、以单一提示词输出0.0-1.0分数并给出通过/未通过判定,效果最为一致且与人工判断高度吻合。这种方法在测试用例答案明确时尤其有效,LLM判官只需判断答案是否正确(例如是否准确列出研发投入最高的三家制药公司)。利用LLM判官,我们可以大规模评估数百个输出。

【返回列表页】

星空娱乐

星空体育- 星空体育官方网站| 世界杯指定体育平台星空,星空体育,星空体育官网,星空体育app,星空体育网页版星空体育app下载,星空体育官网,星空体育下载,世界杯,足球,星空体育入口,星空体育网址,星空体育注册网址,星空体育注册,星空APP下载星空体育官方网站(xk-sports)亚洲卓越在线公司[永久网址:hash.cyou]星空体育,星空集团,星空体育官网,星空体育app,星空体育网页版,星空捕鱼,星...

联系我们

电话:400-123-4657

邮箱:admin@youweb.com

地址:广东省广州市天河区88号

传真:+86-123-4567

版权所有:Copyright © 2018-2025 星空体育- 星空体育官方网站| 世界杯指定体育平台 版权所有 非商用版本 ICP备案编号: TOP