📊AI Search Engine 多语言评测报告(v1.2)

一、摘要

在前几期的评测中,我们对 Perplexity Basic、Perplexity Pro、Metaso、iAsk 和 you.com 的多语言及跨语言检索能力进行了评估。其中,Perplexity Pro一直表现领先。本期评测新增了 Felo AI 的 Basic 和 Enhanced 两个版本加入评测。虽然 Felo Enhanced 需要安装浏览器插件,但它仍然是免费版本。

二、评测结果

经过严格评测,我们得出以下结论:

  1. Felo Enhanced 以微弱优势领先于 Perplexity Pro,其准确率达到了 86.67%,而 Perplexity Pro 的准确率为 84.17%。

  2. Felo Basic 也以 81.67% 的准确率超过了 Perplexity Basic 的 72.50%。

  3. Metaso 在针对中国大陆简体中文社区的搜索中表现良好,但在跨语种搜索中的表现一般,准确率为 66.67%。

  4. iAsk 和 you.com 对非英文社区搜索的表现不佳,准确率分别为 52.50% 和 33.33%。

Product NameAverage ACCcomplex_searchbusiness_consultinglocal_searchproducts_searchreal_time_newstechnical_consulting

Felo Enhance

86.67%

90.00%

65.00%

100.00%

90.00%

85.00%

90.00%

Perplexity Pro

84.17%

90%

70.00%

95.00%

90.00%

80.00%

80.00%

Felo Basic

81.67%

90.00%

55.00%

95.00%

85.00%

90.00%

75.00%

Perplexity Basic

72.50%

90%

50.00%

80.00%

85.00%

60.00%

70.00%

Metaso

66.67%

50%

75%

80%

75%

65%

55%

iAsk

52.50%

40%

45.00%

35.00%

65.00%

65.00%

65.00%

33.33%

40%

20.00%

15.00%

40.00%

55.00%

30.00%

图1 评测产品的准确率

三、评测数据

为了全面评估上述AI搜索引擎在多语言环境下的表现,我们选取了日文、英文、繁体中文、简体中文、俄文和韩文六种语言进行测试。我们已开源全部测试数据集和测试结果,具体内容可在 GitHub 上查看,地址如下:

数据集:https://github.com/sparticleinc/ASEED

四、评测方法

本期我们将测试平台从 Ragas 迁移到 Promptfoo。Promptfoo 提供了多种答案检测规则,综合评测精度超过 Ragas。因此,今后我们将仅更新 Promptfoo 格式的测试用例。本次评测使用了 Promptfoo 平台,并采用了 GPT-4o 大语言模型进行测试。测试结果经过人工校对以确保准确性。

Last updated