mcp/aws-dataprocessing-mcp-server Docker Image Overview

mcp/aws-dataprocessing-mcp-server

AWS Data Processing MCP Server是一个提供数据处理和转换服务的Docker镜像，支持Glue、EMR、Athena等AWS数据处理服务，提供32种工具用于IAM角色管理、S3使用分析、数据目录管理、查询执行等操作，帮助用户高效管理和执行AWS数据处理工作流。

0 次下载

🙃 代码没问题，结果发布失败在拉镜像

中文简介版本下载

🙃 代码没问题，结果发布失败在拉镜像

AWS Data Processing MCP Server

数据处理和转换服务。

什么是MCP Server？

MCP信息

属性	详情
Docker镜像	mcp/aws-dataprocessing-mcp-server
作者	awslabs
仓库	[***]

镜像构建信息

属性	详情
Dockerfile	[***]
Docker镜像构建者	Docker Inc.
Docker Scout健康评分	!Docker Scout Health Score
验证签名	`COSIGN_REPOSITORY=mcp/signatures cosign verify mcp/aws-dataprocessing-mcp-server --key [***]`
许可证	Apache License 2.0

可用工具（32种）

服务提供的工具	简短描述
`add_inline_policy`	向IAM角色添加新的内联策略。
`analyze_s3_usage_for_data_processing`	分析数据处理服务（Glue、EMR、Athena）的S3存储桶使用模式。
`create_data_processing_role`	为数据处理服务创建新的IAM角色。
`get_policies_for_role`	获取附加到IAM角色的所有策略。
`get_roles_for_service`	获取可由特定AWS服务承担的所有IAM角色。
`list_s3_buckets`	列出名称中包含“glue”且位于指定区域的S3存储桶。
`manage_aws_athena_data_catalogs`	管理AWS Athena数据目录，支持读写操作。
`manage_aws_athena_databases_and_tables`	管理AWS Athena数据库和表，支持只读操作。
`manage_aws_athena_named_queries`	管理AWS Athena中的已保存SQL查询。
`manage_aws_athena_query_executions`	执行和管理AWS Athena SQL查询。
`manage_aws_athena_workgroups`	管理AWS Athena工作组，支持读写操作。
`manage_aws_emr_clusters`	全面控制EMR集群生命周期，管理AWS EMR EC2集群。
`manage_aws_emr_ec2_instances`	管理AWS EMR EC2实例，支持读写操作。
`manage_aws_emr_ec2_steps`	管理AWS EMR EC2步骤，用于在EMR集群上处理数据。
`manage_aws_glue_catalog`	管理AWS Glue数据目录，支持读写操作。
`manage_aws_glue_classifiers`	管理AWS Glue分类器，以确定数据格式和模式。
`manage_aws_glue_connections`	管理AWS Glue数据目录连接，支持读写操作。
`manage_aws_glue_crawler_management`	管理AWS Glue爬虫调度并监控性能指标。
`manage_aws_glue_crawlers`	管理AWS Glue爬虫，以发现和编目数据源。
`manage_aws_glue_databases`	管理AWS Glue数据目录数据库，支持读写操作。
`manage_aws_glue_encryption`	管理AWS Glue数据目录加密设置，用于数据保护。
`manage_aws_glue_jobs`	管理AWS Glue ETL作业和作业运行，支持读写操作。
`manage_aws_glue_partitions`	管理AWS Glue数据目录分区，支持读写操作。
`manage_aws_glue_resource_policies`	管理AWS Glue资源策略，用于访问控制。
`manage_aws_glue_security_configurations`	管理AWS Glue安全配置，用于数据加密。
`manage_aws_glue_sessions`	管理AWS Glue交互式会话，用于运行Spark和Ray工作负载。
`manage_aws_glue_statements`	管理AWS Glue交互式会话语句，用于执行代码和检索结果。
`manage_aws_glue_tables`	管理AWS Glue数据目录表，支持读写操作。
`manage_aws_glue_triggers`	管理AWS Glue触发器，以自动化工作流和作业执行。
`manage_aws_glue_usage_profiles`	管理AWS Glue使用配置文件，用于资源分配和成本管理。
`manage_aws_glue_workflows`	管理AWS Glue工作流，以编排复杂的ETL活动。
`upload_to_s3`	使用putObject将Python代码内容直接上传到S3存储桶。

工具详情

工具：`add_inline_policy`

向IAM角色添加新的内联策略。

此工具创建具有指定权限的新内联策略，并将其添加到IAM角色。内联策略嵌入在角色中，不能附加到多个角色。通常用于授予数据处理服务对AWS资源的访问权限，启用Glue作业访问数据源，以及配置CloudWatch日志和S3访问权限。

要求

服务器必须使用--allow-write标志运行
角色必须存在于您的AWS账户中
策略名称在角色内必须唯一
无法使用此工具修改现有策略

权限格式

permissions参数可以是单个策略语句或语句列表。

单语句示例

json
{
    "Effect": "Allow",
    "Action": ["s3:GetObject", "s3:PutObject"],
    "Resource": "arn:aws:s3:::example-bucket/*"
}

常见数据处理权限示例

Glue作业权限

json
{
    "Effect": "Allow",
    "Action": [
        "glue:*",
        "s3:GetObject",
        "s3:PutObject",
        "s3:DeleteObject",
        "s3:ListBucket",
        "iam:PassRole"
    ],
    "Resource": "*"
}

EMR集群权限

json
{
    "Effect": "Allow",
    "Action": [
        "elasticmapreduce:*",
        "ec2:DescribeInstances",
        "ec2:DescribeSecurityGroups",
        "s3:ListBucket",
        "s3:GetObject",
        "s3:PutObject"
    ],
    "Resource": "*"
}

Athena查询权限

json
{
    "Effect": "Allow",
    "Action": [
        "athena:*",
        "glue:GetDatabase",
        "glue:GetTable",
        "glue:GetPartition",
        "s3:GetObject",
        "s3:ListBucket",
        "s3:PutObject"
    ],
    "Resource": "*"
}

使用提示

遵循最小权限原则，仅授予必要的权限
尽可能使用特定资源而非"*"
考虑使用条件进一步限制权限
将相关权限分组到具有描述性名称的逻辑策略中

参数	类型	描述
`permissions`	`string`	要包含在策略中的权限，格式为JSON格式的IAM策略语句。可以是单个语句对象或语句对象数组。
`policy_name`	`string`	要创建的内联策略的名称。在角色内必须唯一。
`role_name`	`string`	要添加策略的IAM角色的名称。该角色必须存在。

工具：`analyze_s3_usage_for_data_processing`

分析数据处理服务（Glue、EMR、Athena）的S3存储桶使用模式。

此工具帮助识别哪些存储桶被数据处理服务积极使用，哪些可能处于空闲或未充分利用状态。

参数	类型	描述
`bucket_name`	`string` 可选	要分析的特定存储桶（留空则分析所有存储桶）

工具：`create_data_processing_role`

为数据处理服务创建新的IAM角色。

此工具创建具有指定数据处理服务（Glue、EMR或Athena）适当信任关系的新IAM角色。它还可以附加托管策略并向内联策略添加权限。

要求

服务器必须使用--allow-write标志运行
角色名称在您的AWS账户中必须唯一
具有创建IAM角色权限的有效AWS凭证

服务类型

glue：创建可由Glue服务承担的角色
emr：创建可由EMR服务承担的角色
athena：创建可由Athena服务承担的角色

常见托管策略

建议添加以下策略：

Glue: 'arn:aws:iam::aws:policy/service-role/AWSGlueServiceRole'
EMR: 'arn:aws:iam::aws:policy/service-role/AmazonElasticMapReduceRole'
Athena: 'arn:aws:iam::aws:policy/service-role/AmazonAthenaFullAccess'

使用提示

始终为角色提供描述性名称和说明
仅附加必要的托管策略以遵循最小权限原则
对特定于用例的自定义权限使用内联策略
考虑添加对数据源和目标的S3访问权限

参数	类型	描述
`role_name`	`string`	要创建的IAM角色的名称。在您的AWS账户中必须唯一。
`service_type`	`string`	数据处理服务类型：'glue'、'emr'或'athena'。
`description`	`string` 可选	IAM角色的可选描述。
`inline_policy`	`string` 可选	要添加到角色的可选内联策略。
`managed_policy_arns`	`string` 可选	要附加到角色的可选托管策略ARN列表。

工具：`get_policies_for_role`

获取附加到IAM角色的所有策略。

此工具检索与IAM角色关联的所有策略，提供角色权限和信任关系的全面视图。它帮助您了解当前权限，识别缺失或过多的权限，排查数据处理问题，并验证服务角色的信任关系。

要求

角色必须存在于您的AWS账户中
具有读取IAM角色信息权限的有效AWS凭证

响应信息

响应包括角色ARN、假设角色策略文档（信任关系）、角色描述、托管策略及其文档，以及内联策略及其文档。

使用提示

在添加新权限之前使用此工具了解现有访问权限
检查假设角色策略以验证哪些服务或角色可以承担此角色
查找可能带来安全风险的过度宽松策略
结合add_inline_policy实施最小权限原则
对于Glue作业，确保角色有权访问所需的数据源和目标
对于EMR集群，验证EC2实例配置文件权限
对于Athena查询，检查S3存储桶访问权限

参数	类型	描述
`role_name`	`string`	要获取策略的IAM角色的名称。该角色必须存在于您的AWS账户中。

工具：`get_roles_for_service`

获取可由特定AWS服务承担的所有IAM角色。

此工具检索您AWS账户中所有与指定服务具有信任关系的IAM角色。它帮助您识别可用于Glue作业、EMR集群或Athena查询等服务的角色，使您在创建这些资源时更容易选择合适的角色。

服务类型

常见服务类型包括：

glue：AWS Glue服务（glue.amazonaws.com）
emr：Amazon EMR服务（elasticmapreduce.amazonaws.com）
athena：Amazon Athena服务（athena.amazonaws.com）
您也可以指定其他AWS服务主体

响应信息

响应包括可由指定服务承担的角色列表，包含角色名称、ARN、描述、创建日期以及完整的假设角色策略文档等详细信息。

使用提示

在创建新角色之前使用此工具查找现有角色
验证角色是否具有您用例所需的权限
对于Glue作业，查找具有AWSGlueServiceRole或类似策略的角色
对于EMR集群，查找具有AmazonElasticMapReduceRole或类似策略的角色
对于Athena查询，查找具有AmazonAthenaFullAccess或类似策略的角色

参数	类型	描述
`service_type`	`string`	数据处理服务类型：'glue'、'emr'、'athena'或其他AWS服务名称。

工具：`list_s3_buckets`

列出名称中包含“glue”且位于指定区域的S3存储桶。

此工具帮助识别通常用于数据处理工作流的S3存储桶，特别是与AWS Glue操作相关的存储桶。它提供使用统计信息和空闲时间信息，以帮助进行资源管理。

要求

具有列出S3存储桶权限的有效AWS凭证
S3:ListAllMyBuckets权限

响应信息

响应包括存储桶名称、创建日期、区域、对象计数、最后修改日期和空闲时间分析。

使用提示

在创建新存储桶之前使用此工具查找现有数据处理存储桶
监控90天以上未访问的空闲存储桶
验证存储桶区域是否与您的数据处理服务区域匹配
检查对象计数以了解存储桶使用模式

参数	类型	描述
`region`	`string` 可选	用于筛选存储桶的AWS区域（默认为AWS_REGION环境变量）

工具：`manage_aws_athena_data_catalogs`

管理AWS Athena数据目录，支持读写操作。

此工具提供管理Athena数据目录的操作，包括创建、检索、列出、更新和删除数据目录。数据目录用于组织和访问Athena中的数据源，使您能够跨各种源（如AWS Glue数据目录、Apache Hive元存储或联邦源）查询数据。

要求

对于create-data-catalog、delete-data-catalog和update-data-catalog操作，服务器必须使用--allow-write标志运行
Athena数据目录操作的适当AWS权限

操作

create-data-catalog：创建新数据目录
delete-data-catalog：删除现有数据目录
get-data-catalog：获取单个数据目录的信息
list-data-catalogs：列出所有数据目录
update-data-catalog：更新现有数据目录

使用提示

使用list-data-catalogs查找可用数据目录
数据目录类型可以是LAMBDA、GLUE、HIVE或FEDERATED
参数特定于数据目录类型

示例

# 列出所有数据目录
{'operation': 'list-data-catalogs', 'max_results': 10}

# 创建Glue数据目录
{
    'operation': 'create-data-catalog',
    'name': 'my-glue-catalog',
    'type': 'GLUE',
    'description': '我的Glue数据目录',
    'parameters': {'catalog-id': '123456789012'},
}

参数	类型	描述
`operation`	`string`	要执行的操作：create-data-catalog、delete-data-catalog、get-data-catalog、list-data-catalogs、update-data-catalog。当禁用写访问时选择只读操作。
`delete_catalog_only`	`string` 可选	对于delete-data-catalog操作，是否仅删除Athena数据目录（true）还是也删除其资源（false）。仅适用于FEDERATED目录。
`description`	`string` 可选	数据目录的描述（create-data-catalog和update-data-catalog可选）。
`max_results`	`string` 可选	list-data-catalogs操作返回的最大结果数（范围：2-50）。
`name`	`string` 可选	数据目录名称（create-data-catalog、delete-data-catalog、get-data-catalog、update-data-catalog必需）。目录名称