📊AI Search Engine 多语言评测报告(v1.2)

一、摘要

在前几期的评测中，我们对 Perplexity Basic、Perplexity Pro、Metaso、iAsk 和 you.com 的多语言及跨语言检索能力进行了评估。其中，Perplexity Pro一直表现领先。本期评测新增了 Felo AI 的 Basic 和 Enhanced 两个版本加入评测。虽然 Felo Enhanced 需要安装浏览器插件，但它仍然是免费版本。

二、评测结果

经过严格评测，我们得出以下结论：

Felo Enhanced 以微弱优势领先于 Perplexity Pro，其准确率达到了 86.67%，而 Perplexity Pro 的准确率为 84.17%。
Felo Basic 也以 81.67% 的准确率超过了 Perplexity Basic 的 72.50%。
Metaso 在针对中国大陆简体中文社区的搜索中表现良好，但在跨语种搜索中的表现一般，准确率为 66.67%。
iAsk 和 you.com 对非英文社区搜索的表现不佳，准确率分别为 52.50% 和 33.33%。

Product Name

Average ACC

complex_search

business_consulting

local_search

products_search

real_time_news

technical_consulting

Felo Enhance

86.67%

90.00%

65.00%

100.00%

90.00%

85.00%

90.00%

Perplexity Pro

84.17%

90%

70.00%

95.00%

90.00%

80.00%

Felo Basic

81.67%

90.00%

55.00%

95.00%

85.00%

90.00%

75.00%

Perplexity Basic

72.50%

90%

50.00%

80.00%

85.00%

60.00%

70.00%

Metaso

66.67%

50%

75%

80%

75%

65%

55%

iAsk

52.50%

40%

45.00%

35.00%

65.00%

you.com

33.33%

40%

20.00%

15.00%

40.00%

55.00%

30.00%

图1 评测产品的准确率

三、评测数据

为了全面评估上述AI搜索引擎在多语言环境下的表现，我们选取了日文、英文、繁体中文、简体中文、俄文和韩文六种语言进行测试。我们已开源全部测试数据集和测试结果，具体内容可在 GitHub 上查看，地址如下：

数据集：https://github.com/sparticleinc/ASEED

四、评测方法

本期我们将测试平台从 Ragas 迁移到 Promptfoo。Promptfoo 提供了多种答案检测规则，综合评测精度超过 Ragas。因此，今后我们将仅更新 Promptfoo 格式的测试用例。本次评测使用了 Promptfoo 平台，并采用了 GPT-4o 大语言模型进行测试。测试结果经过人工校对以确保准确性。

PreviousAI Search Engine Multilingual Evaluation Report - Complex Query (v1.1)NextAI Search Engine Multilingual Evaluation Report (v1.2)

Last updated 1 year ago

hashtag一、摘要

hashtag二、评测结果

hashtag三、评测数据

hashtag四、评测方法

一、摘要

二、评测结果

三、评测数据

四、评测方法