跳转到主要内容
Avala 将每一帧、标签、审核决策和导出版本链接在一个平台中。当模型在边缘案例上失败时,您可以将预测追溯到影响它的确切训练标签——并修复根本原因而不是猜测。

可追溯性在 Avala 中的含义

Avala 中的每个标注都携带完整的溯源元数据:
实体跟踪内容
数据集项源文件 URL、上传时间戳、序列成员关系、传感器元数据
任务分配的标注员、创建时间、完成时间、状态转换
结果标注数据、使用的工具、标注员 ID、提交时间戳
QA 审核审核员 ID、审核决定(接受/拒绝/修改)、审核评论
导出导出格式、包含的数据集/项目/切片、创建时间戳、版本
这意味着您可以从任何导出的标签开始,向后遍历完整的链:哪个标注员创建了它,是否通过了 QA,来自哪个数据集项,以及每一步何时发生。

演练:调试模型故障

以下是可追溯性如何帮助您调试生产模型问题的具体示例。

1. 模型在边缘案例上失败

您的感知模型错误分类了 LiDAR 扫描中一个部分被遮挡的行人。您识别了预测并想了解模型为什么学到了这种行为。

2. 找到训练数据

使用 SDK 搜索您的导出,找到贡献于模型训练集的数据集项。
from avala import Client

client = Client()

# Get the export used for training
export = client.exports.get("export_abc123")
print(f"Export: {export.name}")
print(f"Format: {export.format}")
print(f"Created: {export.created_at}")

3. 检查单个结果

导出中的每个结果包含源数据集项、标注员信息和 QA 状态。
# List tasks from the project used in the export
tasks = client.tasks.list(project="project_uid")

for task in tasks:
    print(f"Task {task.uid}")
    print(f"  Status: {task.status}")
    print(f"  Dataset: {task.dataset_name}")
    print(f"  Item: {task.dataset_item_name}")

4. 追溯到源头

一旦识别了有问题的标签,您可以查找原始数据集项以查看其源文件、传感器元数据和完整的标注历史。
# Get the specific dataset item
item = client.datasets.get_item(
    dataset="dataset_uid",
    item="item_uid"
)

print(f"Source: {item.source_url}")
print(f"Uploaded: {item.created_at}")
print(f"Sequence: {item.sequence_name}")

5. 修复并重新训练

确定根本原因后——例如,被遮挡行人的标注错误——您在 Avala 中修复标签,创建新导出,并用修正的数据重新训练模型。
# Create a new export with the corrected labels
new_export = client.exports.create(
    name="Training v2 - fixed occlusion labels",
    format="avala-json-external",
    projects=["project_uid"]
)

print(f"New export: {new_export.uid}")

优势

可重现性

每个导出都有版本号。您可以通过引用导出 UID 重新创建用于任何模型版本的精确训练集。无需猜测包含或排除了哪些标签。

更快的调试

无需手动搜索数千个标注来查找错误,您可以直接从模型的失败追溯到导致它的特定标签。以前需要几天的事情现在只需几分钟。

合规和审计追踪

对于受监管的行业(汽车、医疗、国防),可追溯性提供审计员要求的文档追踪。每个标注决策都有归属、时间戳,并链接到其 QA 审核。

持续改进

通过将模型性能与特定标注员、审核阶段和数据集版本相关联来跟踪标注质量。在系统性标注问题传播到训练管道之前识别它们。

通过 API 实现可追溯性

所有可追溯性数据都可通过 REST API 和 SDK 获取。关键端点:
端点返回内容
GET /api/v1/exports/{uid}/导出元数据,包括数据集、项目和创建时间戳
GET /api/v1/tasks/任务列表,包含状态、标注员和数据集项引用
GET /api/v1/datasets/{uid}/items/数据集项,包含源 URL 和序列成员关系
GET /api/v1/datasets/{uid}/sequences/序列,包含帧计数和项引用
完整端点文档请参阅 API 参考,或使用 Python SDKTypeScript SDK 获取类型化访问。

下一步

质量控制

了解 Avala 的多阶段 QA 工作流如何在标注错误到达模型之前捕获它们。

导出

创建带有完整溯源元数据的版本化标注数据导出。

质量 SLA

了解 Avala 的质量保证、准确性目标和交付时间。

Python SDK

安装 SDK 并开始以编程方式查询您的数据。