slimshetty/swebench-verified 镜像由 Slim Shetty(AI 编程助手 R2E-Gym 项目核心参与者)发布,专为 SWE-Bench Verified 基准提供预配置的容器环境。该镜像封装了基准数据集、测试工具与适配的运行时环境,旨在避免手动搭建依赖,确保 AI 编程助手性能验证实验的可复现性。
| 项目 | 要求 |
|---|---|
| 操作系统 | Linux(Ubuntu 20.04+ 推荐)、Windows 10/11(需 WSL2)、macOS |
| 容器工具 | Docker 19.03+ 或 Podman 3.0+ |
| 存储空间 | 建议预留 ≥10GB(用于数据集与模型文件) |
| GPU | 可选(如使用 R2EGym-32B 等大型模型,建议 ≥16GB 显存) |
bashdocker pull xuanyuan.cloud/r/slimshetty/swebench-verified:latest
bashdocker run -d \ --name swebench-verified \ -p 8888:8888 \ -v /宿主机/数据路径:/app/data \ -v /宿主机/结果路径:/app/results \ xuanyuan.cloud/r/slimshetty/swebench-verified:latest
参数说明:
-p 8888:8888:映射容器端口(如提供 Web 界面或 API 服务)-v:挂载数据与结果目录到宿主机,避免数据丢失如需运行大型模型,启用 GPU 支持:
bashdocker run -d \ --name swebench-verified-gpu \ --gpus all \ -p 8888:8888 \ -v /宿主机/数据路径:/app/data \ -v /宿主机/结果路径:/app/results \ xuanyuan.cloud/r/slimshetty/swebench-verified:latest
bash# 查看容器运行状态 docker ps | grep swebench-verified # 查看日志 docker logs -f swebench-verified # 进入容器进行交互操作 docker exec -it swebench-verified /bin/bash
容器启动后,进入容器加载 SWE-Bench Verified 数据集:
bashdocker exec -it swebench-verified /bin/bash # 数据集加载示例(实际命令需参考项目文档) python load_dataset.py --dataset swebench-verified --output /app/data
使用内置的基准评估工具运行测试:
bash# 运行完整基准评估 python run_benchmark.py --model your_model --dataset /app/data/swebench-verified # 运行单个任务测试 python run_task.py --task task_name --output /app/results
bash# 生成性能报告 python evaluate.py --results /app/results --output /app/results/report.json # 对比性能指标 python compare_models.py --baseline r2egym --results /app/results
若需测试自研模型,将模型文件挂载到容器:
bashdocker run -d \ --name swebench-custom \ --gpus all \ -v /宿主机/模型路径:/app/models \ -v /宿主机/数据路径:/app/data \ xuanyuan.cloud/r/slimshetty/swebench-verified:latest
容器内运行测试:
bashpython run_benchmark.py --model /app/models/your_model --dataset /app/data/swebench-verified
可编写脚本批量运行不同配置的实验:
python# batch_experiment.py import subprocess import json # 实验配置列表 configs = [ {"model": "r2egym-32b", "temperature": 0.0}, {"model": "r2egym-32b", "temperature": 0.5}, ] # 批量运行 for config in configs: cmd = [ "python", "run_benchmark.py", "--model", config["model"], "--temperature", str(config["temperature"]), "--output", f"/app/results/{config['model']}_t{config['temperature']}" ] subprocess.run(cmd) print("批量实验完成!")
部分场景可能提供 API 服务,启动后访问:
bash# API 服务地址(如适用) http://localhost:8888/api/docs
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| 数据集下载失败 | 网络连接问题或资源链接变更 | 检查网络;手动下载数据集后挂载到容器 |
| GPU 不可用 | 未安装 nvidia-docker2 或驱动不兼容 | 安装 nvidia-docker2;验证 GPU 驱动 |
| 显存不足 | 模型规模过大或 batch-size 设置过高 | 降低 batch-size;使用 CPU 模式或较小模型 |
| 评估结果不一致 | 随机种子或配置差异 | 设置固定随机种子;核对配置参数 |
| 容器启动失败 | 端口冲突或挂载路径不存在 | 修改端口映射;创建挂载目录 |
基于 SWE-Bench Verified 基准的性能指标(参考 R2E-Gym 项目):
实际性能取决于模型规模、超参数设置与硬件配置,建议根据自身需求调整配置。
注意:具体的使用命令与配置需参考项目的***文档与 README 文件。建议先查看镜像的入口脚本或文档,了解实际提供的功能与接口。
来自真实用户的反馈,见证轩辕镜像的优质服务
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
在 Linux 系统配置镜像加速服务
在 Docker Desktop 配置镜像加速
Docker Compose 项目配置加速
Kubernetes 集群配置 Containerd
在宝塔面板一键配置镜像加速
Synology 群晖 NAS 配置加速
飞牛 fnOS 系统配置镜像加速
极空间 NAS 系统配置加速服务
爱快 iKuai 路由系统配置加速
绿联 NAS 系统配置镜像加速
QNAP 威联通 NAS 配置加速
Podman 容器引擎配置加速
HPC 科学计算容器配置加速
ghcr、Quay、nvcr 等镜像仓库
无需登录使用专属域名加速
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429