本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

fish-speech Docker 镜像下载 - 轩辕镜像

fish-speech 镜像详细信息和使用指南

fish-speech 镜像标签列表和版本信息

fish-speech 镜像拉取命令和加速下载

fish-speech 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

fish-speech
fishaudio/fish-speech

fish-speech 镜像详细信息

fish-speech 镜像标签列表

fish-speech 镜像使用说明

fish-speech 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

Fish Speech***容器镜像,用于部署和运行Fish Speech语音处理相关应用,提供***支持的标准化运行环境。
11 收藏0 次下载activefishaudio镜像

fish-speech 镜像详细说明

fish-speech 使用指南

fish-speech 配置说明

fish-speech 官方文档

Fish Speech Docker 镜像文档

镜像概述和主要用途

Fish Speech(现更名为OpenAudio)是一个开源的多语言文本转语音(TTS)工具,支持语音克隆功能。该Docker镜像提供了便捷的部署方式,让用户能够快速体验和集成高质量的文本转语音技术。OpenAudio系列模型在TTS-Arena2基准测试中排名第一,具备卓越的语音合成质量和多语言支持能力。

核心功能和特性

卓越的TTS质量

OpenAudio S1模型在Seed TTS评估指标中表现优异,在英文文本上实现了0.008 WER(词错误率)和0.004 CER(字符错误率),显著优于先前模型。

模型词错误率 (WER)字符错误率 (CER)说话人相似度
S10.0080.0040.332
S1-mini0.0110.0050.380

语音控制能力

支持多种情感、语调和特殊标记来增强语音合成:

  • 基本情感:(angry) (sad) (excited) (surprised) (satisfied) 等
  • 高级情感:(disdainful) (unhappy) (anxious) (hysterical) 等
  • 语调标记:(in a hurry tone) (shouting) (whispering) (soft tone) 等
  • 特殊音频效果:(laughing) (sobbing) (sighing) (panting) 等

核心功能

  1. 零样本和少样本TTS:仅需10-30秒的语音样本即可生成高质量TTS输出
  2. 多语言和跨语言支持:支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语
  3. 无需音素依赖:模型具有很强的泛化能力,可处理任何语言脚本的文本
  4. 高精度:实现约0.4%的CER和0.8%的WER
  5. 快速性能:通过torch编译加速,在Nvidia RTX 4090 GPU上实时因子约为1:7
  6. WebUI界面:基于Gradio的易用Web界面,兼容主流浏览器
  7. GUI界面:提供PyQt6图形界面,支持Linux、Windows和macOS

两种模型类型

模型大小可用性特点
S14B参数fish.audio全功能旗舰模型
S1-mini0.5B参数Hugging Face精简版,保留核心功能

使用场景和适用范围

  • 文本转语音应用开发
  • 语音助手和虚拟人语音生成
  • 有声内容创作和音频书籍制作
  • 多语言语音合成需求
  • 语音克隆和个性化语音生成
  • 教育、无障碍和辅助技术应用

快速开始

前提条件

  • Docker Engine 20.10+
  • 对于GPU加速:
    • NVIDIA GPU with CUDA support
    • NVIDIA Container Toolkit

基本使用 (Web UI)

bash
docker run -p 7860:7860 --name fish-speech fishaudio/fish-speech

访问 http://localhost:7860 即可使用Web界面。

GPU加速

bash
docker run --gpus all -p 7860:7860 --name fish-speech fishaudio/fish-speech

后台运行

bash
docker run -d --gpus all -p 7860:7860 --name fish-speech fishaudio/fish-speech

高级配置

Docker Compose 部署

创建 docker-compose.yml 文件:

yaml
version: '3.8'

services:
  fish-speech:
    image: fishaudio/fish-speech
    container_name: fish-speech
    restart: unless-stopped
    ports:
      - "7860:7860"  # Web UI端口
      - "5000:5000"  # API端口
    volumes:
      - ./data:/app/data  # 数据持久化
      - ./models:/app/models  # 模型文件
    environment:
      - MODEL_TYPE=s1-mini  # 模型类型: s1 或 s1-mini
      - ENABLE_API=true     # 启用API服务
      - CORS_ALLOWED_ORIGINS=*  # CORS设置
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

启动服务:

bash
docker-compose up -d

环境变量配置

环境变量说明默认值可选值
MODEL_TYPE模型类型选择s1-minis1, s1-mini
ENABLE_WEBUI是否启用Web UItruetrue, false
ENABLE_API是否启用API服务falsetrue, false
WEBUI_PORTWeb UI端口78601-65535
API_PORTAPI服务端口50001-65535
CORS_ALLOWED_ORIGINSCORS允许的源*具体域名或*
LOG_LEVEL日志级别infodebug, info, warning, error
MAX_BATCH_SIZE最大批处理大小4正整数
CACHE_DIR缓存目录/app/cache容器内路径

模型持久化

为避免每次启动重新下载模型,可以将模型目录挂载到宿主机:

bash
docker run --gpus all -p 7860:7860 \
  -v ./fish-speech-models:/app/models \
  --name fish-speech fishaudio/fish-speech

API 使用示例

启用API后,可以通过HTTP请求调用TTS服务:

bash
curl -X POST http://localhost:5000/tts \
  -H "Content-Type: application/json" \
  -d '{
    "text": "你好,这是Fish Speech的API示例。",
    "speaker_id": 0,
    "emotion": "neutral",
    "speed": 1.0,
    "pitch": 0.0
  }' --output output.wav

许可证信息

  • 代码库采用 Apache License 许可
  • 所有模型权重采用 CC-BY-NC-SA-4.0 License 许可

声明:我们不对代码库的任何非法使用承担责任。请参考当地关于DMCA和其他相关的规定。

相关资源

  • ***网站
  • GitHub 仓库
  • 模型下载
  • 技术报告
  • 文档中心

引用

bibtex
@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={[***]},
}

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

oldzhang的头像

oldzhang

运维工程师

Linux服务器

5

"Docker加速体验非常流畅,大镜像也能快速完成下载。"