可追溯性在 Avala 中的含义
Avala 中的每个标注都携带完整的溯源元数据:| 实体 | 跟踪内容 |
|---|---|
| 数据集项 | 源文件 URL、上传时间戳、序列成员关系、传感器元数据 |
| 任务 | 分配的标注员、创建时间、完成时间、状态转换 |
| 结果 | 标注数据、使用的工具、标注员 ID、提交时间戳 |
| QA 审核 | 审核员 ID、审核决定(接受/拒绝/修改)、审核评论 |
| 导出 | 导出格式、包含的数据集/项目/切片、创建时间戳、版本 |
演练:调试模型故障
以下是可追溯性如何帮助您调试生产模型问题的具体示例。1. 模型在边缘案例上失败
您的感知模型错误分类了 LiDAR 扫描中一个部分被遮挡的行人。您识别了预测并想了解模型为什么学到了这种行为。2. 找到训练数据
使用 SDK 搜索您的导出,找到贡献于模型训练集的数据集项。3. 检查单个结果
导出中的每个结果包含源数据集项、标注员信息和 QA 状态。4. 追溯到源头
一旦识别了有问题的标签,您可以查找原始数据集项以查看其源文件、传感器元数据和完整的标注历史。5. 修复并重新训练
确定根本原因后——例如,被遮挡行人的标注错误——您在 Avala 中修复标签,创建新导出,并用修正的数据重新训练模型。优势
可重现性
每个导出都有版本号。您可以通过引用导出 UID 重新创建用于任何模型版本的精确训练集。无需猜测包含或排除了哪些标签。更快的调试
无需手动搜索数千个标注来查找错误,您可以直接从模型的失败追溯到导致它的特定标签。以前需要几天的事情现在只需几分钟。合规和审计追踪
对于受监管的行业(汽车、医疗、国防),可追溯性提供审计员要求的文档追踪。每个标注决策都有归属、时间戳,并链接到其 QA 审核。持续改进
通过将模型性能与特定标注员、审核阶段和数据集版本相关联来跟踪标注质量。在系统性标注问题传播到训练管道之前识别它们。通过 API 实现可追溯性
所有可追溯性数据都可通过 REST API 和 SDK 获取。关键端点:| 端点 | 返回内容 |
|---|---|
GET /api/v1/exports/{uid}/ | 导出元数据,包括数据集、项目和创建时间戳 |
GET /api/v1/tasks/ | 任务列表,包含状态、标注员和数据集项引用 |
GET /api/v1/datasets/{uid}/items/ | 数据集项,包含源 URL 和序列成员关系 |
GET /api/v1/datasets/{uid}/sequences/ | 序列,包含帧计数和项引用 |
下一步
质量控制
了解 Avala 的多阶段 QA 工作流如何在标注错误到达模型之前捕获它们。
导出
创建带有完整溯源元数据的版本化标注数据导出。
质量 SLA
了解 Avala 的质量保证、准确性目标和交付时间。
Python SDK
安装 SDK 并开始以编程方式查询您的数据。