AI 批量归因 bad case
让模型辅助判断问题出在 Query 理解、供给缺口、排序错误、Top1 不准还是答案不可信。
在没有大模型叙事的时候,先回答一个朴素问题:用户搜完到底解决了吗?
我的判断
搜索质量不是结果多不多,而是用户有没有少走弯路。很多时候,第一条结果就决定了这次搜索是不是成立。
开场判断
这个项目不是今天意义上的大模型搜索项目。当时没有现在的大模型叙事,也做过 BERT 等模型探索,但收益并不总是靠模型名解决。
真正要回答的问题很朴素:用户搜完以后,到底有没有少走弯路,问题有没有被解决。
所以我把搜索满足拆成 Query 意图、内容供给、排序结果、Top1 命中和问答式结果,让搜索质量从“有结果”变成“有满足”。
问答式结果 Top1 精准命中覆盖 10%+ 搜索需求,这个数字说明有一部分需求适合直接答案,但不代表所有搜索都应该问答化。
这个项目留下来的,不是一个 AI 概念,而是一套搜索满足度评估、bad case 归因和答案命中判断口径。
搜索质量与问答式搜索 · One Page
这个项目不要硬讲成今天的大模型项目。当时更真实的问题是: 用户搜完以后,到底有没有解决问题。我的重点不是证明某个模型很先进, 而是先定义什么叫搜索满足,再把它转成内容引入、结果评估、排序调优和问答式结果命中的策略动作。
当时还没有大模型搜索叙事。更真实的问题是:用户搜完以后,到底有没有少走弯路。
当时有过语义模型探索,但收益有限。很多 bad case 最后还是回到意图、供给和评估标准。
搜索不像推荐可以慢慢纠偏。很多时候,第一条结果就决定这次搜索是不是成立。
核心口径
Query 是找事实、教程、视频、事件,还是在问一个可以被直接回答的问题。
没有好内容,排序很难救;有好内容但标准不清,也很难稳定优化。
不是结果列表看起来相关就够了,要看第一条是否真正解决用户问题。
只有适合直接回答的需求,才应该追求问答式结果、答案可信和可验证。
主线 A
供给标准 × 结果评估 × 排序调优主线 B
可回答需求 × Top1 命中 × 答案可信策略链路
Query 分型
供给补齐
评估标准
排序调优
Top1 命中
答案承接
结果与沉淀
多端视频搜索体验
问答式结果覆盖用户搜索需求
综合搜索结果准确性
AI 时代怎么做
今天可以接到 LLM 评估、RAG 和答案质量判断,但前提仍然是先定义什么叫“搜完被满足”。
让模型辅助判断问题出在 Query 理解、供给缺口、排序错误、Top1 不准还是答案不可信。
哪些搜索需要直接答案,哪些需要视频结果,哪些需要多结果比较,这个边界不能只靠模型自动决定。
把搜索满足度、Top1 命中、答案可信度和 RAG 证据链做成评估工作流,服务搜索策略迭代。
AI 在这里不是把搜索包装成问答,而是帮助更稳定地判断用户有没有真的被满足。