评估指标与质量控制
评估指标与质量控制
为什么需要评估
Agentic 用户调研平台的质量不能只看“模型能不能回答”。核心问题是:
- 访谈是否完成研究目标?
- Agent 是否问了好问题?
- 追问是否有效?
- 结构化抽取是否准确?
- evidence 是否可信?
- 用户体验是否顺畅?
North Star Metric
建议北极星指标:
每个 study 产生的 evidence-backed structured insights 数量,以及这些 insight 的人工通过率。
这比“session 数”更能体现研究价值。
Session Quality Metrics
Completion Rate
completed_sessions / started_sessionsObjective Coverage
covered_must_objectives / total_must_objectivesField Coverage
fields_with_value / required_fieldsEvidence Coverage
fields_with_valid_evidence / fields_with_valueAverage Probe Count
probe_questions / completed_session需要区分:
- useful probe;
- redundant probe;
- failed probe。
Interaction Completion Rate
submitted_interactions / rendered_interactions按类型拆分:
- single_choice;
- multiple_choice;
- Likert;
- ranking;
- modal_form。
Session Abandonment Point
记录用户在哪个阶段退出:
- opening;
- background;
- main topic;
- interaction;
- sensitive question;
- summary。
Extraction Quality Metrics
Field Accuracy
人工 review 后:
accepted_fields / reviewed_fieldsCorrection Rate
corrected_fields / reviewed_fieldsEvidence Precision
valid_evidence_refs / reviewed_evidence_refsLow Confidence Rate
low_confidence_fields / extracted_fieldsConflict Rate
fields_with_detected_conflict / extracted_fieldsAgent Behavior Metrics
Redundant Question Rate
Agent 问了用户已经回答过的问题。
Leading Question Rate
Agent 提问带有明显引导性。
Missed Probe Rate
用户给出模糊/重要回答,但 Agent 没有追问。
Tool Overuse Rate
Agent 过度调用 UI 组件,导致体验像填表。
Tool Underuse Rate
适合结构化输入的场景没有调用组件。
Conclude Quality
结束时是否:
- 覆盖 must objectives;
- 总结准确;
- 给用户确认机会;
- 没有过早结束。
User Experience Metrics
- 平均访谈时长;
- 平均 turn 数;
- 每个 interaction 的提交耗时;
- skip rate;
- 用户自由文本长度;
- 用户完成后的满意度;
- 移动端完成率。
Research Quality Rubric
每个 session 可以由 AI/人工打分:
| 维度 | 分数 | 说明 |
|---|---|---|
| Relevance | 1-5 | 是否围绕研究目标 |
| Specificity | 1-5 | 用户回答是否具体 |
| Coverage | 1-5 | 关键目标覆盖程度 |
| Evidence Quality | 1-5 | 证据是否清晰可用 |
| Probe Quality | 1-5 | 追问是否有效 |
| User Experience | 1-5 | 对话是否顺畅 |
内置 Evaluation Jobs
Post-session Evaluation
Session 结束后自动评估:
{ "session_quality_score": 0.82, "objective_coverage": 0.9, "field_coverage": 0.75, "evidence_coverage": 0.7, "issues": [ "willingness_to_pay 缺少强证据", "feature_priority 未完成排序" ]}Agent Decision Evaluation
抽样评估 Agent 每次 action:
- 是否选择了正确 objective;
- 是否应该追问;
- 是否应该调用 UI;
- 是否违反 policy。
Extraction Evaluation
人工 review 样本,形成 benchmark:
- transcript;
- expected field values;
- expected evidence;
- model output;
- diff。
Dashboard 建议
Study Results 中增加 Quality tab:
- completion rate;
- objective coverage;
- field coverage;
- evidence coverage;
- average confidence;
- review queue size;
- top missing fields;
- top abandonment phase。
MVP 指标优先级
第一版必须记录:
- completion rate;
- turn count;
- interaction submit/skip;
- field coverage;
- evidence coverage;
- confidence;
- manual correction rate。
后续再做更复杂的 agent behavior evaluation。