msftspeech/spx Docker Image Overview

msftspeech/spx

用于认知服务语音SDK的命令行工具，提供语音相关功能的命令行操作接口，简化语音服务集成与调用流程。

2 收藏0 次下载

🚀 生产环境还在裸拉官方镜像？一次故障=一次通宵

中文简介版本下载

🚀 生产环境还在裸拉官方镜像？一次故障=一次通宵

认知服务语音SDK命令行工具镜像

镜像概述和主要用途

本Docker镜像封装了基于认知服务语音SDK的命令行工具，旨在提供便捷的语音服务操作接口。通过命令行界面，用户可快速执行语音相关任务，如语音转文本（语音识别）、文本转语音（语音合成）等，无需复杂的代码集成，简化语音服务的测试、开发与部署流程。

核心功能和特性

多语音服务支持：集成语音SDK核心能力，支持语音识别（ Speech-to-Text ）、语音合成（ Text-to-Speech ）等主流语音服务操作。
命令行便捷操作：提供简洁的命令行接口，通过参数配置即可完成语音任务，降低使用门槛。
跨平台兼容性：基于Docker容器化封装，可在任何支持Docker的环境中运行，不受底层操作系统限制。
服务集成能力：支持与主流认知服务平台（如Azure认知服务）对接，通过配置API密钥和服务区域即可快速接入云端语音服务。

使用场景和适用范围

开发测试环境：开发人员在无图形界面的终端环境中快速测试语音服务功能，验证API调用与参数配置。
自动化脚本集成：在CI/CD流程或自动化任务中嵌入语音处理步骤，如批量语音文件转写、动态生成语音提示等。
服务器端语音处理：在服务器或边缘设备中部署，提供轻量级语音服务能力，适用于日志语音化、语音告警等场景。

使用方法和配置说明

基本使用流程

拉取镜像
从Docker仓库拉取最新版本镜像：

bash
docker pull [镜像仓库地址]/cognitive-speech-cli:latest

配置环境变量
通过环境变量配置认知服务访问凭证（以Azure认知服务为例）：
- SPEECH_KEY：认知服务API密钥（必填）
- SPEECH_REGION：服务区域（如eastus，必填）
- SPEECH_LANGUAGE：默认语言代码（如zh-CN，可选，默认值根据服务区域自动匹配）
执行语音任务
通过docker run命令启动容器并执行具体语音操作。

命令示例

示例1：语音转文本（语音识别）

将本地音频文件转换为文本：

bash
docker run -it --rm \
  -e SPEECH_KEY="your_api_key" \
  -e SPEECH_REGION="eastus" \
  -v $(pwd)/audio:/app/audio \  # 挂载本地音频文件目录到容器内
  [镜像仓库地址]/cognitive-speech-cli \
  speech-to-text --input /app/audio/input.wav --output /app/audio/output.txt --language zh-CN

--input：容器内音频文件路径（需通过-v挂载本地文件）
--output：识别结果输出文件路径
--language：语音语言代码（如en-US、zh-CN）

示例2：文本转语音（语音合成）

将文本转换为语音文件：

bash
docker run -it --rm \
  -e SPEECH_KEY="your_api_key" \
  -e SPEECH_REGION="eastus" \
  -v $(pwd)/output:/app/output \  # 挂载输出目录
  [镜像仓库地址]/cognitive-speech-cli \
  text-to-speech --text "您好，这是语音合成示例" --output /app/output/speech.wav --voice "zh-CN-XiaoxiaoNeural"

--text：待合成的文本内容
--output：合成语音输出文件路径
--voice：语音类型（如zh-CN-XiaoxiaoNeural为中文女声神经语音）

配置参数说明

环境变量

变量名	描述	是否必填	默认值
`SPEECH_KEY`	认知服务API密钥	是	-
`SPEECH_REGION`	服务区域（如`eastus`）	是	-
`SPEECH_LANGUAGE`	默认语言代码	否	根据`SPEECH_REGION`自动匹配

命令行参数（通用）

参数	描述	适用命令
`--help`	显示命令帮助信息	所有命令
`--version`	显示工具版本信息	所有命令

语音转文本命令参数（`speech-to-text`）

参数	描述	是否必填
`--input`	输入音频文件路径（容器内路径）	是
`--output`	输出文本文件路径（容器内路径）	否
`--language`	语音语言代码（如`zh-CN`）	否

语音合成命令参数（`text-to-speech`）

参数	描述	是否必填
`--text`	待合成文本内容	是
`--output`	输出语音文件路径（容器内路径）	是
`--voice`	语音类型（神经语音/标准语音）	否
`--format`	输出音频格式（如`wav`）	否