星空体育- 星空体育官方网站- 世界杯指定平台性能提升90%Anthropic首次公开多智能体系统构建全流程

更新时间：2025-06-18

　　星空,星空体育,星空体育官网,星空体育app,星空体育网页版,星空捕鱼,星空体育app下载,星空体育官网,星空体育下载,星空电竞,星空体育入口,星空体育注册网址,星空体育注册链接,星空APP下载

星空体育- 星空体育官方网站- 世界杯指定体育平台性能提升90%Anthropic首次公开多智能体系统构建全流程

　　多智能体系统之所以有效，主要在于它们能投入足够多的 tokens 来解决问题。我们的分析显示，在 BrowseComp 评测（用于测试智能体检索难以获取信息的能力）中，有三项因素解释了95% 的性能差异。其中，token 使用量单独就能解释80% 的差异，工具调用次数和模型选择则是另外两个主要影响因素。这一结果印证了我们的架构思路：通过不同上下文窗口分配任务，实现并行推理，提升系统容量。最新的 Claude 模型也极大提升了 token 使用效率，例如，升级至 Claude Sonnet 4带来的性能提升，甚至超过在 Claude Sonnet 3.7上将 token 配额翻倍。多智能体架构能有效扩展 token 使用，适配超出单一智能体处理能力的任务。

　　图/流程图展示了我们多智能体Research系统的完整工作流程。当用户提交查询后，系统会创建一个LeadResearcher（主研究者）智能体，进入迭代式研究流程。LeadResearcher首先思考研究路径，并将研究计划保存至Memory（记忆）以保证上下文持久存储。因为一旦上下文窗口超过200,000 tokens，超出部分将被截断，因此计划的保存尤为关键。随后，LeadResearcher会根据不同研究任务创建专业化的Subagent（子智能体）（此处仅示例两个，实际可为任意数量）。每个子智能体独立进行网络检索，通过穿插思考（interleaved thinking）评估工具结果，并将发现返回至LeadResearcher。LeadResearcher对这些结果进行综合判断，如需进一步研究，可继续创建新的子智能体或优化研究策略。当信息收集充分后，系统将退出研究循环，并将所有研究结果交由CitationAgent（引文智能体）处理。CitationAgent会对文档和研究报告进行分析，标注具体引用位置，确保所有论断均有明确信息源支撑。最终，带有完整引文的研究结果返回给用户。

　　以大语言模型（LLM）为判官的评估方法具有可扩展性。研究型输出很难用程序化手段评估，因为其多为自由文本，且鲜有唯一正确答案。LLM非常适合用于结果评分。我们使用LLM判官（LLM-as-judge），基于评分细则对每个输出进行评估，包括事实准确性（结论是否与信息源一致）、引用准确性（所引信息源是否与陈述相符）、全面性（是否覆盖所有要求的方面）、信息源质量（是否优先使用高质量的一手来源而非低质量的二手来源）、工具效率（是否合理选择并调用工具）。我们曾尝试用多个判官评估不同维度，但最终发现，单次LLM调用、以单一提示词输出0.0-1.0分数并给出通过/未通过判定，效果最为一致且与人工判断高度吻合。这种方法在测试用例答案明确时尤其有效，LLM判官只需判断答案是否正确（例如是否准确列出研发投入最高的三家制药公司）。利用LLM判官，我们可以大规模评估数百个输出。

【返回列表页】

星空娱乐

星空体育- 星空体育官方网站| 世界杯指定体育平台星空,星空体育,星空体育官网,星空体育app,星空体育网页版星空体育app下载,星空体育官网,星空体育下载,世界杯,足球,星空体育入口,星空体育网址,星空体育注册网址,星空体育注册,星空APP下载星空体育官方网站(xk-sports)亚洲卓越在线公司[永久网址:hash.cyou]星空体育,星空集团,星空体育官网,星空体育app,星空体育网页版,星空捕鱼,星...

联系我们

电话：400-123-4657

邮箱：admin@youweb.com

地址：广东省广州市天河区88号

传真：+86-123-4567