📊AI Search Engine 多语言评测报告(v1.2)
一、摘要
在前几期的评测中,我们对 Perplexity Basic、Perplexity Pro、Metaso、iAsk 和 you.com 的多语言及跨语言检索能力进行了评估。其中,Perplexity Pro一直表现领先。本期评测新增了 Felo AI 的 Basic 和 Enhanced 两个版本加入评测。虽然 Felo Enhanced 需要安装浏览器插件,但它仍然是免费版本。
二、评测结果
经过严格评测,我们得出以下结论:
Felo Enhanced 以微弱优势领先于 Perplexity Pro,其准确率达到了 86.67%,而 Perplexity Pro 的准确率为 84.17%。
Felo Basic 也以 81.67% 的准确率超过了 Perplexity Basic 的 72.50%。
Metaso 在针对中国大陆简体中文社区的搜索中表现良好,但在跨语种搜索中的表现一般,准确率为 66.67%。
iAsk 和 you.com 对非英文社区搜索的表现不佳,准确率分别为 52.50% 和 33.33%。
图1 评测产品的准确率
三、评测数据
为了全面评估上述AI搜索引擎在多语言环境下的表现,我们选取了日文、英文、繁体中文、简体中文、俄文和韩文六种语言进行测试。我们已开源全部测试数据集和测试结果,具体内容可在 GitHub 上查看,地址如下:
数据集:https://github.com/sparticleinc/ASEED
四、评测方法
本期我们将测试平台从 Ragas 迁移到 Promptfoo。Promptfoo 提供了多种答案检测规则,综合评测精度超过 Ragas。因此,今后我们将仅更新 Promptfoo 格式的测试用例。本次评测使用了 Promptfoo 平台,并采用了 GPT-4o 大语言模型进行测试。测试结果经过人工校对以确保准确性。
Last updated