pingcap chaos-operator是基于Kubernetes Operator模式开发的混沌工程工具,旨在帮助用户在Kubernetes集群中进行可控的故障注入实验,以验证系统在异常条件下的稳定性和弹性。通过声明式API定义混沌实验,实现对K8s集群中各类资源(如Pod、网络、节点等)的故障注入和管理,是保障分布式系统可靠性的关键工具。
部署CRD和Operator
通过kubectl apply部署***提供的部署清单:
bashkubectl apply -f [***] kubectl apply -f [***]
验证部署状态
检查operator Pod是否正常运行:
bashkubectl get pods -n chaos-testing # 预期输出类似:chaos-operator-xxxxxx-xxxx 1/1 Running 0 5m
通过创建ChaosExperiment自定义资源定义实验,以下是Pod删除故障的示例:
yamlapiVersion: pingcap.com/v1alpha1 kind: ChaosExperiment metadata: name: pod-delete-example namespace: chaos-testing spec: target: kind: Pod selector: namespaces: ["default"] labelSelectors: app: my-app # 匹配标签为app=my-app的Pod action: name: pod-delete params: count: 1 # 一次删除1个Pod duration: "30s" # 故障持续时间 scheduler: cron: "@every 2m" # 每2分钟执行一次
应用上述配置:
bashkubectl apply -f pod-delete-experiment.yaml -n chaos-testing
bashkubectl get chaosexperiments -n chaos-testing
bashkubectl describe chaosexperiment pod-delete-example -n chaos-testing
bashkubectl delete chaosexperiment pod-delete-example -n chaos-testing
operator部署时可通过环境变量调整行为,常用配置如下:
CHAOS_CONTROLLER_MANAGER_LOG_LEVEL:日志级别,默认info,可选debug、warn、error。CHAOS_CONTROLLER_MANAGER_RECONCILE_PERIOD:控制器调和周期,默认30s。CHAOS_METRICS_PORT: metrics暴露端口,默认8080。来自真实用户的反馈,见证轩辕镜像的优质服务
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
在 Linux 系统配置镜像加速服务
在 Docker Desktop 配置镜像加速
Docker Compose 项目配置加速
Kubernetes 集群配置 Containerd
在宝塔面板一键配置镜像加速
Synology 群晖 NAS 配置加速
飞牛 fnOS 系统配置镜像加速
极空间 NAS 系统配置加速服务
爱快 iKuai 路由系统配置加速
绿联 NAS 系统配置镜像加速
QNAP 威联通 NAS 配置加速
Podman 容器引擎配置加速
HPC 科学计算容器配置加速
ghcr、Quay、nvcr 等镜像仓库
无需登录使用专属域名加速
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429