type
status
date
slug
summary
tags
category
icon
password
URL
January 16, 2024 • 6 min read
by Simon Meng, mp.weixin.qq.com • See original
2D/3D/视频生成最近都有很多值得关注的工具,但是要输出完整的AIGC作品,肯定少不了声音🤔。其实声音生成也有很多革命性的工具,例如高质量的声音识别、文字转成人声、人声克隆、音乐生成,已经能组成完整工作流了,其中一些工具甚至已经打包好了,只要下载解压就能用!🤗
notion image

🌟语音转文字

  • Const-me/Whisper(解压就能用): OpenAI Whisper自动语音识别模型的高性能GPGPU推理 ,基于DirectCompute技术,对Windows系统进行了优化,并且在性能和内存使用上优于原始OpenAI实现。
  • ➡️_链接:
notion image
  • WhisperX(需要配环境):带有单词级时间戳和说话人分离功能的自动语音识别。提供了比原始 Whisper 模型快 70 倍的实时语音转录速度,并使用了更快的后端 faster-whisper。●🎯 通过 wav2vec2 对齐技术,WhisperX 能够实现准确的单词级时间戳。●👯‍♂️ 该工具还支持多说话人的自动语音识别,并通过 pyannote-audio 实现说话人分离
notion image

🌟文字转声音+声音克隆

  • clone-voice(解压就能用):这是一个基于Web界面的声音克隆工具,可以将文字或声音转换为特定音色的音频,支持多种语言,📦 提供预编译版本,用户可直接下载并运行,无需N卡GPU也可使用。🎤 用户可以在线录制5-20秒的声音作为音色样本,或上传本地音频文件进行声音转换。
notion image
  • **SeamlessExpressive:**可实现高质量的语音翻译,在翻译输出中保持原始说话者的声音风格、语气和独特的表达方式。目前还要申请acess,包含模块:
  • 🔊 Prosody UnitY2是基于UnitY2架构的语音到单元转换模型,能够转换短语级别的语调,如语速或停顿。
  • 🌐 PRETSSEL是一个表达性单元到语音生成器,能够有效地从语音中分离语义和表达性成分,并转移话语级别的表达性,如个人的声音风格。
  • 📜 mExpresso(多语言Expresso)是一个包含七种朗读风格(默认、快乐、悲伤、困惑、清晰、耳语和笑声)的表达性语音到语音翻译数据集,涵盖英语和其他五种语言。
  • ➡️_链接:
notion image

🌟音乐+音效生成

  • Stable Audio:一个可以用文字描述生成音乐的网页工具,打开即用;也包括了文生语音和声音克隆功能。
  • ➡️_链接:
notion image
  • Suno.ai:一个运行在discord中的工具,你只需要输入一段文字描述即可,包括你需要的音乐风格和对音乐的期望,Suno即可帮你生成2段30秒左右带歌词的音乐。
notion image

🌟根据人声生成人物对口型动画(talking head)

  • SadTalker:单张图+音频即可生成对口型视频,已加入stable diffusion A1111全家桶。
  • ➡️_链接:
notion image
  • DreamTalk: 基于扩散概率模型的音频驱动表情丰富的人头生成框架,它可以处理多种语言和噪声音频,生成高质量的视频,并提供了对表情风格和头部姿态的控制,但对输出视频的分辨率并未优先考虑(应该是目前这类工具的Sota?)。
  • ➡️_链接:
notion image
  • GeneFace: 高度泛化和高保真的音频驱动3D说话面部合成。效果好,但是对于每个人物要单独训练模型。
  • ➡️_链接:
notion image

🌟综合类工具(几乎包含所有和声音相关的功能,但是使用更复杂)

  • AudioLDM 2 一个效果非常好的音乐、音效生成工具 📮 AudioLDM 2框架提出了一种统一的方法来生成语音、音乐和音效。🎶 该框架利用音频的通用表示作为“音频语言”,并结合语言模型和潜在扩散模型进行音频合成。
  • ➡️_链接:
notion image
  • Amphion:支持多种音频生成任务,包括文本到语音(TTS)、歌声合成(SVS)、声音转换(VC)、歌声转换(SVC)、文本到音频(TTA)和文本到音乐(TTM)等。
notion image
  • AudioGPT: 支持的任务包括音频文本转换、音频翻译、音频字幕、音频风格转换、音频增强、语音分离、单声道转立体声、填补音频空白、音频事件提取、声音检测、语音生成头像视频、文本语音生成、图像音频生成以及乐谱生成歌声等多种音频理解与生成任务。
  • ➡️_链接:
notion image
相关文章
2022年威尼斯-元宇宙艺术年度展-自然如何启发设计
Lazy loaded image
AI设计作品 The Non-human City Driven by AI and Ecological Environment 在奥地利 Tirol 建筑中心展出
Lazy loaded image
2023的最后,带给大家两个抚慰人心的AI小工具,和大家说说心里话
Lazy loaded image
AI时代抗焦虑指北 —— 被AI包围之后,人类“完蛋”了吗?
Lazy loaded image
我攒了一扇AI平行时空传送门
Lazy loaded image
三维场景编辑进入AI文字交互时代
Lazy loaded image
作品《The Garden of Robotic Delights》参加伦敦计算机艺术协会会员展2023的最后,带给大家两个抚慰人心的AI小工具,和大家说说心里话
Loading...
Simon阿蒙
Simon阿蒙
兴趣使然的AI艺术家,跨领域研究者,在读博士,科普博主
最新发布
系列作品-无界智能
2024-10-13
强迫AI创作反常识诗歌
2024-10-13
高效使用AI编程工具Cursor实用教程
2024-10-13
他竟然用人工智能做“梦”
2024-10-3
吴恩达LLM系列短课笔记2:Building Systems with ChatGPT API - 使用GPT构建对话系统
2024-10-3
系列作品-次元重构
2024-9-27
公告
-- 关于我 ---
-- 联系我 ---
设计及艺术创作 | AIGC咨询培训 | 商业投放