openzipkin/zipkin-dependencies Docker Image Overview

openzipkin/zipkin-dependencies

用于聚合Zipkin追踪跨度数据以支持用户界面的Spark作业

12 收藏0 次下载

🙃 代码没问题，结果发布失败在拉镜像

中文简介版本下载

🙃 代码没问题，结果发布失败在拉镜像

zipkin-dependencies

镜像概述和主要用途

Zipkin Dependencies 是一个 Apache Spark 作业，用于从存储中收集跟踪数据（spans），分析服务之间的依赖关系，并将结果存储起来以便在 Web UI 中展示（例如：http://localhost:8080/dependency）。

该作业会解析 UTC 时间当天的所有跟踪数据，因此应安排在接近 UTC 时间午夜前运行。支持所有 Zipkin 存储组件，包括 Cassandra、MySQL 和 Elasticsearch。

核心功能和特性

通过 Spark 作业分析服务间依赖关系
支持多种存储后端（Cassandra、MySQL、Elasticsearch）
可配置的日期范围分析
兼容多种安全认证机制
灵活的 Spark 集群配置选项

使用场景和适用范围

Zipkin Dependencies 适用于需要可视化和分析分布式系统中服务间调用关系的场景，特别是在微服务架构环境中。它能够帮助开发和运维团队理解系统拓扑结构，识别性能瓶颈和故障点。

版本支持

STORAGE_TYPE=cassandra3：需要 Cassandra 3.11.3+；已针对 3.11 的最新补丁版本测试
STORAGE_TYPE=cassandra：需要 Cassandra 2.2+；已针对 3.11 的最新补丁版本测试
STORAGE_TYPE=mysql：需要 MySQL 5.6+；已针对 MySQL 5.6 测试
STORAGE_TYPE=elasticsearch：需要 Elasticsearch 5+；已针对 6.x 和 7.x 的最新次要版本测试

快速开始

由于 SPARK-26134 问题，Zipkin Dependencies 当前需要 Java 1.8 或 9 运行环境。

通过 JAR 文件运行

bash
# 下载最新版本的 JAR 文件
$ curl -sSL [***] | bash -s io.zipkin.dependencies:zipkin-dependencies:LATEST zipkin-dependencies.jar

# 使用 Cassandra3 存储运行
$ STORAGE_TYPE=cassandra3 java -jar zipkin-dependencies.jar

通过 Docker 运行

bash
$ docker run --env STORAGE_TYPE=cassandra3 --env CASSANDRA_CONTACT_POINTS=host1,host2 openzipkin/zipkin-dependencies

使用方法

默认情况下，作业会解析从 UTC 时间午夜开始的所有跟踪数据。您可以通过指定 YYYY-mm-dd 格式的参数来分析不同日期的数据：

bash
# 在 OS/X 上处理昨天的跟踪数据
$ STORAGE_TYPE=cassandra3 java -jar zipkin-dependencies.jar `date -uv-1d +%F`

# 在 Linux 上处理昨天的跟踪数据
$ STORAGE_TYPE=cassandra3 java -jar zipkin-dependencies.jar `date -u -d '1 day ago' +%F`

环境变量

zipkin-dependencies 通过环境变量应用配置参数。以下变量适用于所有存储层：

SPARK_MASTER：提交作业的 Spark master；默认为 local[*]
ZIPKIN_LOG_LEVEL：Zipkin 相关状态的日志级别；默认为 INFO（使用 DEBUG 获取详细信息）
SPARK_CONF：以属性格式扩展更多 Spark 配置，用逗号分隔。例如：spark.executor.heartbeatInterval=600000,spark.network.timeout=600000

Cassandra 存储

当 STORAGE_TYPE=cassandra 或 STORAGE_TYPE=cassandra3 时使用 Cassandra：

cassandra 兼容 Zipkin 的 Legacy Cassandra 存储组件
cassandra3 兼容 Zipkin 的 Cassandra v3 存储组件

MySQL 存储

当 STORAGE_TYPE=mysql 时使用 MySQL，其 schema 兼容 Zipkin 的 MySQL 存储组件。

Elasticsearch 存储

当 STORAGE_TYPE=elasticsearch 时使用 Elasticsearch，其 schema 兼容 Zipkin 的 Elasticsearch 存储组件。

自定义证书

当在 ES_HOSTS 中使用 https 端点时，可以使用以下标准属性来自定义连接使用的证书：

javax.net.ssl.keyStore
javax.net.ssl.keyStorePassword
javax.net.ssl.trustStore
javax.net.ssl.trustStorePassword

本地构建

从源代码构建作业并在 Spark 独立模式下针对本地 Cassandra 运行：

bash
# 构建 Spark 作业
$ ./mvnw -q --batch-mode -DskipTests -Denforcer.fail=false --also-make -pl main package

# 运行作业
$ STORAGE_TYPE=cassandra java -jar ./main/target/zipkin-dependencies*.jar

在 Spark 集群中运行

此构建生成的 jar 文件也可以直接在 Spark 上运行。首先，请确保您运行的 Spark 版本与此处使用的版本相同。

您可以使用以下命令显示此项目构建所针对的 Spark 版本：

bash
$ SPARK_VERSION=$(./mvnw help:evaluate -Dexpression=spark.version -q -DforceStdout)
$ echo $SPARK_VERSION
2.4.0

验证设置使用正确版本后，设置 SPARK_MASTER 变量：

例如，如果连接到同一主机上运行的 Spark：

bash
$ STORAGE_TYPE=cassandra3 SPARK_MASTER=spark://$HOSTNAME:7077 java -jar zipkin-dependencies.jar

注意：Zipkin 团队专注于跟踪功能，而非 Spark 支持。如果您有 Spark 集群相关的故障排除问题，请使用 Spark 的支持工具。

故障排除

排查问题时，请始终设置 ZIPKIN_LOG_LEVEL=DEBUG，因为此输出对于找出跟踪未生成链接的原因很重要。

如果将 SPARK_MASTER 设置为本地以外的值，请记住日志输出也会出现在工作节点的 stderr 中。

默认情况下，此作业使用系统属性 java.io.tmpdir 的值作为存储临时数据的位置。如果在处理大量跟踪数据时遇到 java.io.IOException: No space left on device，可以使用 -Djava.io.tmpdir=/other/location 指定有足够空间的其他位置。