评估指标与质量控制

为什么需要评估

Agentic 用户调研平台的质量不能只看“模型能不能回答”。核心问题是：

访谈是否完成研究目标？
Agent 是否问了好问题？
追问是否有效？
结构化抽取是否准确？
evidence 是否可信？
用户体验是否顺畅？

North Star Metric

建议北极星指标：

每个 study 产生的 evidence-backed structured insights 数量，以及这些 insight 的人工通过率。

这比“session 数”更能体现研究价值。

Session Quality Metrics

Completion Rate

completed_sessions / started_sessions

Objective Coverage

covered_must_objectives / total_must_objectives

Field Coverage

fields_with_value / required_fields

Evidence Coverage

fields_with_valid_evidence / fields_with_value

Average Probe Count

probe_questions / completed_session

需要区分：

useful probe；
redundant probe；
failed probe。

Interaction Completion Rate

submitted_interactions / rendered_interactions

按类型拆分：

single_choice；
multiple_choice；
Likert；
ranking；
modal_form。

Session Abandonment Point

记录用户在哪个阶段退出：

opening；
background；
main topic；
interaction；
sensitive question；
summary。

Extraction Quality Metrics

Field Accuracy

人工 review 后：

accepted_fields / reviewed_fields

Correction Rate

corrected_fields / reviewed_fields

Evidence Precision

valid_evidence_refs / reviewed_evidence_refs

Low Confidence Rate

low_confidence_fields / extracted_fields

Conflict Rate

fields_with_detected_conflict / extracted_fields

Agent Behavior Metrics

Redundant Question Rate

Agent 问了用户已经回答过的问题。

Leading Question Rate

Agent 提问带有明显引导性。

Missed Probe Rate

用户给出模糊/重要回答，但 Agent 没有追问。

Tool Overuse Rate

Agent 过度调用 UI 组件，导致体验像填表。

Tool Underuse Rate

适合结构化输入的场景没有调用组件。

Conclude Quality

结束时是否：

覆盖 must objectives；
总结准确；
给用户确认机会；
没有过早结束。

User Experience Metrics

平均访谈时长；
平均 turn 数；
每个 interaction 的提交耗时；
skip rate；
用户自由文本长度；
用户完成后的满意度；
移动端完成率。

Research Quality Rubric

每个 session 可以由 AI/人工打分：

维度	分数	说明
Relevance	1-5	是否围绕研究目标
Specificity	1-5	用户回答是否具体
Coverage	1-5	关键目标覆盖程度
Evidence Quality	1-5	证据是否清晰可用
Probe Quality	1-5	追问是否有效
User Experience	1-5	对话是否顺畅

内置 Evaluation Jobs

Post-session Evaluation

Session 结束后自动评估：

{
  "session_quality_score": 0.82,
  "objective_coverage": 0.9,
  "field_coverage": 0.75,
  "evidence_coverage": 0.7,
  "issues": [
    "willingness_to_pay 缺少强证据",
    "feature_priority 未完成排序"
  ]
}

Agent Decision Evaluation

抽样评估 Agent 每次 action：

是否选择了正确 objective；
是否应该追问；
是否应该调用 UI；
是否违反 policy。

Extraction Evaluation

人工 review 样本，形成 benchmark：

transcript；
expected field values；
expected evidence；
model output；
diff。

Dashboard 建议

Study Results 中增加 Quality tab：

completion rate；
objective coverage；
field coverage；
evidence coverage；
average confidence；
review queue size；
top missing fields；
top abandonment phase。

MVP 指标优先级

第一版必须记录：

completion rate；
turn count；
interaction submit/skip；
field coverage；
evidence coverage；
confidence；
manual correction rate。

后续再做更复杂的 agent behavior evaluation。