主要观点总结
Perplexity发布了其Deep Research能力,表现出强大的研究推理、报告撰写和分享功能。它在Humanity’s Last Exam测试上取得了20.5%的成绩,超过了众多领先模型,并在SimpleQA基准测试中准确率高达93.9%。
关键观点总结
关键观点1: Perplexity Deep Research的能力
Perplexity发布了其Deep Research能力,具备研究推理、报告撰写和导出分享等功能,可以完成研究任务并生成清晰全面的报告。
关键观点2: Humanity’s Last Exam测试的成绩
Perplexity在Humanity’s Last Exam测试上取得了20.5%的成绩,显著超过了Gemini Thinking、o3-mini、o1、DeepSeek-R1等众多领先模型。
关键观点3: SimpleQA基准测试的准确率
Perplexity Deep Research在SimpleQA基准测试中准确率为93.9%,远超其他领先模型的性能。
关键观点4: Perplexity Deep Research的工作流程
通过搜索和编码功能进行迭代搜索和阅读文档,根据推理结果不断优化研究计划,最终综合研究内容生成清晰全面的报告。
关键观点5: Perplexity Deep Research的效率和速度
Perplexity Deep Research在完成大多数研究任务时仅需不到3分钟,具备高效的性能。
正文
Perplexity 放大招了,发布自己的 Deep Research 能力
把 Humanity’s Last Exam 测试刷到了 20.5% 的成绩
超过了现在发布的所有模型,仅次于 OpenAI 的 Deep Research
而且这玩意是免费提供的!
工作原理:
研究推理——Perplexity 的深度研究模式配备了搜索和编码功能,能够迭代搜索、阅读文档,并推理下一步行动,随着对主题领域的深入了解,不断优化其研究计划。
报告撰写 - 一旦源材料被全面评估,代理人将所有研究综合成一份清晰而全面的报告。
导出与分享 - 可以将最终报告导出为 PDF 或文档,或将其转换为 Perplexity Page 并与同事或朋友分享。
测试得分:
Humanity’s Last Exam 上达到了 20.5%的准确率,显著高于 Gemini Thinking、o3-mini、o1、DeepSeek-R1 等众多领先模型。
在 SimpleQA 基准测试中,Perplexity Deep Research 以 93.9%的准确率远超领先模型的性能,该测试包含数千个用于检验事实性的问题。
Perplexity Deep Research在完成大多数研究任务时仅需不到 3 分钟