type
status
date
slug
summary
tags
category
icon
password
URL
January 16, 2024 • 6 min read
by Simon Meng, mp.weixin.qq.com • See original
2D/3D/视频生成最近都有很多值得关注的工具,但是要输出完整的AIGC作品,肯定少不了声音🤔。其实声音生成也有很多革命性的工具,例如高质量的声音识别、文字转成人声、人声克隆、音乐生成,已经能组成完整工作流了,其中一些工具甚至已经打包好了,只要下载解压就能用!🤗
🌟语音转文字
- Const-me/Whisper(解压就能用): OpenAI Whisper自动语音识别模型的高性能GPGPU推理 ,基于DirectCompute技术,对Windows系统进行了优化,并且在性能和内存使用上优于原始OpenAI实现。
- ➡️_链接:
- WhisperX(需要配环境):带有单词级时间戳和说话人分离功能的自动语音识别。提供了比原始 Whisper 模型快 70 倍的实时语音转录速度,并使用了更快的后端 faster-whisper。●🎯 通过 wav2vec2 对齐技术,WhisperX 能够实现准确的单词级时间戳。●👯♂️ 该工具还支持多说话人的自动语音识别,并通过 pyannote-audio 实现说话人分离
🌟文字转声音+声音克隆
- clone-voice(解压就能用):这是一个基于Web界面的声音克隆工具,可以将文字或声音转换为特定音色的音频,支持多种语言,📦 提供预编译版本,用户可直接下载并运行,无需N卡GPU也可使用。🎤 用户可以在线录制5-20秒的声音作为音色样本,或上传本地音频文件进行声音转换。
- **SeamlessExpressive:**可实现高质量的语音翻译,在翻译输出中保持原始说话者的声音风格、语气和独特的表达方式。目前还要申请acess,包含模块:
- 🔊 Prosody UnitY2是基于UnitY2架构的语音到单元转换模型,能够转换短语级别的语调,如语速或停顿。
- 🌐 PRETSSEL是一个表达性单元到语音生成器,能够有效地从语音中分离语义和表达性成分,并转移话语级别的表达性,如个人的声音风格。
- 📜 mExpresso(多语言Expresso)是一个包含七种朗读风格(默认、快乐、悲伤、困惑、清晰、耳语和笑声)的表达性语音到语音翻译数据集,涵盖英语和其他五种语言。
- ➡️_链接:
🌟音乐+音效生成
- Stable Audio:一个可以用文字描述生成音乐的网页工具,打开即用;也包括了文生语音和声音克隆功能。
- ➡️_链接:
- Suno.ai:一个运行在discord中的工具,你只需要输入一段文字描述即可,包括你需要的音乐风格和对音乐的期望,Suno即可帮你生成2段30秒左右带歌词的音乐。
- ➡️_链接:https://www.suno.ai/
🌟根据人声生成人物对口型动画(talking head)
- SadTalker:单张图+音频即可生成对口型视频,已加入stable diffusion A1111全家桶。
- ➡️_链接:
- DreamTalk: 基于扩散概率模型的音频驱动表情丰富的人头生成框架,它可以处理多种语言和噪声音频,生成高质量的视频,并提供了对表情风格和头部姿态的控制,但对输出视频的分辨率并未优先考虑(应该是目前这类工具的Sota?)。
- ➡️_链接:
- GeneFace: 高度泛化和高保真的音频驱动3D说话面部合成。效果好,但是对于每个人物要单独训练模型。
- ➡️_链接:
🌟综合类工具(几乎包含所有和声音相关的功能,但是使用更复杂)
- AudioLDM 2 一个效果非常好的音乐、音效生成工具 📮 AudioLDM 2框架提出了一种统一的方法来生成语音、音乐和音效。🎶 该框架利用音频的通用表示作为“音频语言”,并结合语言模型和潜在扩散模型进行音频合成。
- ➡️_链接:
- Amphion:支持多种音频生成任务,包括文本到语音(TTS)、歌声合成(SVS)、声音转换(VC)、歌声转换(SVC)、文本到音频(TTA)和文本到音乐(TTM)等。
- AudioGPT: 支持的任务包括音频文本转换、音频翻译、音频字幕、音频风格转换、音频增强、语音分离、单声道转立体声、填补音频空白、音频事件提取、声音检测、语音生成头像视频、文本语音生成、图像音频生成以及乐谱生成歌声等多种音频理解与生成任务。
- ➡️_链接:
- 作者:Simon阿蒙
- 链接:https://shengyu.me//article/AI-sound-tool
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章