📧AI Search Engine 多语言评测报告 (v 1.0)

一、摘要

随着ChatGPT的问世,基于对话的搜索引擎技术迅速获得了广泛关注。市场上已经出现了多个通用型问答搜索引擎,如Perplexity、iASK,以及专注于特定垂直领域的搜索解决方案。

我们认为这类基于对话的搜索产品在提供直接答案方面,相较于传统的基于关键词搜索和用户自行浏览信息的搜索引擎,具有显著优势,并可能成为搜索技术发展的颠覆式范式。然而,在实际使用过程中,我们也注意到了一些问题,尤其是在答案的准确性和可靠性方面。不准确的答案和所谓的“幻觉答案”(即与用户查询不相关或毫无意义的答案)频繁出现,这严重影响了用户体验。

鉴于全球用户群体的语言多样性,我们的评估报告选择了包括英语、日语、简体中文、俄语和繁体中文等在内的多种语言,对这些问答搜索引擎产品的准确性进行了初步的测试和评估。

在本报告中,我们将详细介绍我们的评估方法、测试过程以及所得出的结论。我们的目标是为开发者、研究人员以及最终用户提供一个全面的性能评价,以便更好地理解这些问答搜索引擎在不同语言环境下的表现,并指出它们在当前阶段的局限性和改进方向。

在本次对问答式搜索引擎的综合性能评估中,我们得出了以下主要发现:

  1. 总体而言,各参评产品的表现均未达到我们的预期水平。然而,值得注意的是,一家主要服务中国市场的公司——秘塔(Metaso)在评估中整体表现最为出色,以微弱的优势超越了Perplexity。

  1. 综合所有产品的数据分析结果显示,对于英文问题的回答准确率最高。相比之下,俄文问题的准确率最低,日文问题的准确率也相对较低。

  1. 在语种细分的表现上,Perplexity在英文问题的回答上遥遥领先,而其简体中文的表现也相当不俗。Metaso在简体中文和繁体中文的表现上同样令人瞩目。然而,这两家公司在其他语种的表现均未达到及格水平。iASK的能力在各语种中表现为相对均衡,但整体上属于中等水平;You.com 则仅在英文问题回答上有较好的表现。

注1:本次评估的各产品,均选择的是免费版本(metaso选择的是深入模式)。针对Pro版本的评估,会在之后进行。

注2:本次评估仅关注答案的准确性,忽略返回语言和格式等其它方面。

二、产品选择

为了进行本次问答式搜索引擎的性能评测,我们参照了 aicpb.com 网站提供的AI搜索引擎领域的领先产品清单。在排除了传统关键词搜索引擎之后,我们精心挑选了市场上表现最为突出的四款AI问答式搜索引擎产品作为评测对象。

这些产品被认为是行业内的佼佼者,它们的技术和市场表现代表了当前AI搜索引擎的最高水平。我们的评测旨在深入分析这些头部产品的性能,特别是在理解和回答用户查询方面的能力,以及它们在处理不同语言的查询时的准确性和可靠性。

上述4款产品的具体信息如下:(参考自 aicpb.com 的统计)

三、评测数据

为了全面评估上述AI问答式搜索引擎产品在多语言环境下的性能,我们选取了英语、日语、简体中文等六种主要语言进行测试。多语言的测试用例分布情况如下:

在本次评估报告中,我们特别设计了五种不同的使用场景,包括实时新闻获取、本地信息查询、技术问题解答、产品特性询问以及商业咨询,以模拟用户在日常生活中可能遇到的查询需求。

我们认识到,尽管这五种场景涵盖了一系列常见的查询类型,但它们可能无法完全覆盖用户的所有潜在需求。因此,我们计划在未来的评估中不断扩展我们的测试集合,引入更多的类别和场景,以确保我们的评估能够更加全面地反映产品的实际性能和用户体验。

我们的完整的测试用例,开源如下:

数据集:https://github.com/sparticleinc/ASEED

四、评测方法及结果

  1. 测试方法

    • 准确率:人工评测

      人工将真实答案与Ground truth和Key words进行比较。工审核通过为True,否则为False。

    • Answer Correctness: GPT4评分

      选择Ragas平台的Answer correctness指标,评测模型采用GPT-4-Turbo,Answer correctness 计算公式如下:

指标说明:https://docs.ragas.io/en/latest/concepts/metrics/answer_correctness.html

  1. 评估指标

摘要中已经提供了Accuracy评测结果,Answer correctness评测结果如下所示。

五、案例分析

实时新闻

Question:最近の埼玉県行田市事故の死傷者数は何人ですか?

Ground truth:最近の埼玉県行田市の事故での死傷者数は以下の通りです:\n死亡者数: 1人\n負傷者数: 3人

Comment:Perplexity, You.com 没有搜索到相关结果。Metaso回答的结果跟Ground truth基本一致。iAsk回答为英文,但描述和回答来源正确。

本地信息

Question:進撃の巨人はいつ発行されましたか?

Ground truth:「進撃の巨人」は、諫山創による日本の漫画作品で、2009年9月9日に発行が開始されました。そして、2021年4月9日に連載が完結しました。最新刊(34巻)は2021年6月9日に発売されました⁵。この作品は世界中で非常に人気があり、多くの派生作品が生まれています。

Comment:在回答"進撃の巨人"发行日期的问题中,Perplexity和iAsk的回答时间都是正确的,其中Perplexity还提供了更详细的信息。而Metaso和You.com的回答则不准确。Perplexity的回答更能显示出其在信息搜集和处理方面的优势。

技术咨询

Question:Anthoropic Claude のデータポリシーは?

Ground Truths:ユーザーの個人データは、モデルのトレーニングに使用されないため、ユーザーデータを利用してモデルを構築することはありません。

Comment:Perplexity的回答与题目无关,没有正确回答问题。Metaso的回答最为准确,详细地解释了Anthoropic Claude的数据政策。iAsk的回答虽然不在 Ground Truths,经核实它引用的来源,确认它的回答仍然正确。You.com则没有找到相关信息。

产品咨询

Question:갤럭시 S24의 화면 해상도는 어떻게 되나요?

Ground Truths:갤럭시 S24 기본 모델의 화면 해상도는 2340 x 1080 픽셀입니다

Comment:Perplexity给出的是一个不存在的分辨率,而iAsk则提供了一个更高的分辨率,但实际上是错误的。You.com 的回答也不正确。Metaso表现最好,它提供了准确的分辨率和有关不同型号的额外信息。

商业咨询

Question:Monica.im в 2023 году имеет сколько пользователей?

Ground Truths:В 2023 году у Monica.im уже более 1,5 миллионов пользователей.

Comment:Metaso直接给出了正确答案,而Perplexity和iAsk则更像是在说明自己的查找过程,没有真正解决问题。You.com 的回答没有任何有用的信息。

六、结论(Conclusion)

本次评测对市场上领先的四款AI问答式搜索引擎产品进行了深入的多语言性能分析。通过在英语、日语、简体中文等六种语言环境下,针对实时新闻、本地信息查询、技术问题、产品特性和商业咨询等五类场景的测试,我们得出了以下结论:

  1. 整体性能:所有参评的AI问答式搜索引擎产品在某些方面均显示出潜力,但总体表现未能达到预期水平。秘塔和Perplexity在测试中领先优势明显,但仍有相当大的改进空间。

  2. 语言准确性:英文问题的回答准确率普遍高于其他语言,而俄文和日文的准确率较低,表明跨语言的处理能力仍是一个挑战。

  3. 产品特定表现:Perplexity在英文问题回答中表现突出,而Meta在简体中文和繁体中文的处理上表现亮眼。iASK在各语种中表现相对均衡,you.com 则几乎无法用于非英语的查询。

未来,我们计划扩充评测测试集合,增加更多的语言和查询场景,以提供更为全面和细致的性能评估。我们相信,随着技术的进步和数据集的丰富,AI问答式搜索引擎将能够更好地满足全球用户的多样化需求,并在未来的搜索技术中扮演更加重要的角色。

Last updated