Skip to content

评估指标与质量控制

评估指标与质量控制

为什么需要评估

Agentic 用户调研平台的质量不能只看“模型能不能回答”。核心问题是:

  • 访谈是否完成研究目标?
  • Agent 是否问了好问题?
  • 追问是否有效?
  • 结构化抽取是否准确?
  • evidence 是否可信?
  • 用户体验是否顺畅?

North Star Metric

建议北极星指标:

每个 study 产生的 evidence-backed structured insights 数量,以及这些 insight 的人工通过率。

这比“session 数”更能体现研究价值。

Session Quality Metrics

Completion Rate

completed_sessions / started_sessions

Objective Coverage

covered_must_objectives / total_must_objectives

Field Coverage

fields_with_value / required_fields

Evidence Coverage

fields_with_valid_evidence / fields_with_value

Average Probe Count

probe_questions / completed_session

需要区分:

  • useful probe;
  • redundant probe;
  • failed probe。

Interaction Completion Rate

submitted_interactions / rendered_interactions

按类型拆分:

  • single_choice;
  • multiple_choice;
  • Likert;
  • ranking;
  • modal_form。

Session Abandonment Point

记录用户在哪个阶段退出:

  • opening;
  • background;
  • main topic;
  • interaction;
  • sensitive question;
  • summary。

Extraction Quality Metrics

Field Accuracy

人工 review 后:

accepted_fields / reviewed_fields

Correction Rate

corrected_fields / reviewed_fields

Evidence Precision

valid_evidence_refs / reviewed_evidence_refs

Low Confidence Rate

low_confidence_fields / extracted_fields

Conflict Rate

fields_with_detected_conflict / extracted_fields

Agent Behavior Metrics

Redundant Question Rate

Agent 问了用户已经回答过的问题。

Leading Question Rate

Agent 提问带有明显引导性。

Missed Probe Rate

用户给出模糊/重要回答,但 Agent 没有追问。

Tool Overuse Rate

Agent 过度调用 UI 组件,导致体验像填表。

Tool Underuse Rate

适合结构化输入的场景没有调用组件。

Conclude Quality

结束时是否:

  • 覆盖 must objectives;
  • 总结准确;
  • 给用户确认机会;
  • 没有过早结束。

User Experience Metrics

  • 平均访谈时长;
  • 平均 turn 数;
  • 每个 interaction 的提交耗时;
  • skip rate;
  • 用户自由文本长度;
  • 用户完成后的满意度;
  • 移动端完成率。

Research Quality Rubric

每个 session 可以由 AI/人工打分:

维度分数说明
Relevance1-5是否围绕研究目标
Specificity1-5用户回答是否具体
Coverage1-5关键目标覆盖程度
Evidence Quality1-5证据是否清晰可用
Probe Quality1-5追问是否有效
User Experience1-5对话是否顺畅

内置 Evaluation Jobs

Post-session Evaluation

Session 结束后自动评估:

{
"session_quality_score": 0.82,
"objective_coverage": 0.9,
"field_coverage": 0.75,
"evidence_coverage": 0.7,
"issues": [
"willingness_to_pay 缺少强证据",
"feature_priority 未完成排序"
]
}

Agent Decision Evaluation

抽样评估 Agent 每次 action:

  • 是否选择了正确 objective;
  • 是否应该追问;
  • 是否应该调用 UI;
  • 是否违反 policy。

Extraction Evaluation

人工 review 样本,形成 benchmark:

  • transcript;
  • expected field values;
  • expected evidence;
  • model output;
  • diff。

Dashboard 建议

Study Results 中增加 Quality tab:

  • completion rate;
  • objective coverage;
  • field coverage;
  • evidence coverage;
  • average confidence;
  • review queue size;
  • top missing fields;
  • top abandonment phase。

MVP 指标优先级

第一版必须记录:

  1. completion rate;
  2. turn count;
  3. interaction submit/skip;
  4. field coverage;
  5. evidence coverage;
  6. confidence;
  7. manual correction rate。

后续再做更复杂的 agent behavior evaluation。