Skip to content

可视化工具

基于 Web 的 UI,用于浏览运行结果。

使用方法

bash
sforge visualizer --runs-dir logs/runs --port 8000

页面

页面路径说明
排行榜/每个任务的最佳运行结果,可排序
任务视图/task/{task_id}特定任务的所有运行记录
运行详情/run/{run_id}/{task_id}提交历史及通过率图表
提交详情/run/{run_id}/{task_id}/submission/{n}逐条测试结果、原始输出

功能特性

  • 支持所有提交类型:Agent 提交、自动评测、游戏
  • 实时查看测试结果
  • 访问原始测试输出
  • 跨提交跟踪分数和通过率变化