
fridevbi/parquet-tools-docker本Docker镜像用于运行parquet-tools工具集,parquet-tools是Apache Parquet项目的官方命令行工具,专门用于处理Apache Parquet文件格式的数据。Parquet是一种高效的列式存储格式,广泛应用于大数据生态系统(如Hadoop、Spark、Flink等)。该镜像提供了便捷的方式使用parquet-tools,无需本地安装Java环境及相关依赖,直接通过Docker容器即可执行Parquet文件的各类操作。
meta命令查看Parquet文件的元数据信息,包括版本、创建者、列信息、压缩方式、分区信息等。cat命令读取Parquet文件的实际数据内容,支持指定列、过滤条件等。convert命令将Parquet文件转换为其他格式(如CSV、JSON等)。schema命令显示Parquet文件的详细模式(Schema)定义,包括字段类型、嵌套结构等。count命令获取Parquet文件的行数统计信息。通过docker run命令启动容器并执行parquet-tools命令,基本格式如下:
bashdocker run --rm [OPTIONS] <镜像名称> <parquet-tools命令> <Parquet文件路径>
--rm:容器退出后自动删除,避免残留容器文件。<镜像名称>:该Docker镜像的名称(需替换为实际镜像标签)。<parquet-tools命令>:需执行的parquet-tools命令(如meta、cat、schema等)。<Parquet文件路径>:容器内的Parquet文件路径(通常通过挂载本地文件实现访问)。由于容器内默认无本地文件,需通过-v参数将本地Parquet文件或目录挂载到容器中,示例如下:
bashdocker run --rm -v /本地/Parquet文件路径:/data <镜像名称> <命令> /data/目标文件.parquet
/本地/Parquet文件路径:本地存放Parquet文件的目录或具体文件路径。/data:容器内的挂载点(可自定义,需与后续文件路径对应)。查看指定Parquet文件的元数据信息:
bashdocker run --rm -v /local/data:/data <镜像名称> meta /data/sample.parquet
读取Parquet文件的全部内容(默认显示前10行,可通过-n参数指定行数):
bashdocker run --rm -v /local/data:/data <镜像名称> cat /data/sample.parquet
读取指定列的内容:
bashdocker run --rm -v /local/data:/data <镜像名称> cat -c "col1,col2" /data/sample.parquet
显示Parquet文件的详细模式定义:
bashdocker run --rm -v /local/data:/data <镜像名称> schema /data/sample.parquet
将Parquet文件转换为CSV格式并输出到本地文件:
bashdocker run --rm -v /local/data:/data <镜像名称> convert /data/sample.parquet /data/output.csv
统计Parquet文件的总行数:
bashdocker run --rm -v /local/data:/data <镜像名称> count /data/sample.parquet
目前parquet-tools工具本身无特殊环境变量配置需求,所有功能通过命令行参数控制。若需持久化常用配置,可通过编写shell脚本或Docker Compose文件简化操作。
创建docker-compose.yml文件,定义常用挂载和命令:
yamlversion: '3' services: parquet-tools: image: <镜像名称> volumes: - /local/data:/data command: meta /data/sample.parquet # 默认执行的命令,可根据需要修改
通过docker-compose up启动,执行默认命令。如需执行其他命令,可覆盖command字段:
bashdocker-compose run --rm parquet-tools cat /data/sample.parquet
cat命令可能输出大量内容,建议结合head、grep等命令分页或过滤查看(需通过容器内shell或本地管道实现)。

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
在 Linux 系统配置镜像服务
在 Docker Desktop 配置镜像
Docker Compose 项目配置
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
MacOS OrbStack 容器配置
在宝塔面板一键配置镜像
Synology 群晖 NAS 配置
飞牛 fnOS 系统配置镜像
极空间 NAS 系统配置服务
爱快 iKuai 路由系统配置
绿联 NAS 系统配置镜像
QNAP 威联通 NAS 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
无需登录使用专属域名
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
免费版仅支持 Docker Hub 访问,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等;免费版仅支持 docker.io。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
来自真实用户的反馈,见证轩辕镜像的优质服务