作者:王双 尹子成 白玉棋 张珈毓 何媛媛出版社:清华大学出版社出版时间:2025年07月 编辑推荐
可学AI团队倾力打造,详解AI语音与音乐生成的核心知识与场景应用
只讲干货,重在实践提升,通过33个典型案例快速提高读者的实际动手能力
国内知名游戏音乐公司“小旭音乐”创始人卢小旭点评并推荐
采用“图书 教学视频 拓展学习 答疑解惑”的立体教学方式
赠送教学视频、案例素材、提示词、教学PPT等超值资源
提供QQ书友群、B站和公众号等完善的售后服务渠道
本书特色:
轻松上手:通过“图书 教学视频 拓展学习 答疑解惑”的立体教学方式,带领读者轻松上手。
内容全面:涵盖AI语音的发展历史、基本原理、平台与工具、场景应用和综合实战等,涉及31个AI语音类在线平台与工具、16个开源AI语音模型、4种常用ComfyUI语音工作流,帮助读者一站式掌握AI语音与音乐生成的相关知识。
技术新颖:紧跟技术发展趋势,基于当前流行的工具、平台和模型进行讲解,以确保技术的新颖性和时效性。
图文并茂:结合230多幅图讲解核心知识点和应用实战案例,直观地展现AI语音与音乐生成的基本原理和实际效果。
实践性强:详解33个类型丰富、由易到难的典型应用案例,涵盖AI语音与音乐生成的各种常见场景应用,帮助读者快速提高实际动手能力。
举一反三:针对同一功能或场景应用,提供多种实现思路,帮助读者融会贯通,从而达到举一反三的效果。
资料超值:提供大量的超值配套学习资源,帮助读者高效、直观地学习。
服务完善:提供QQ书友群、电子邮箱、B站和公众号等多种服务渠道,为读者的学习保驾护航。
内容简介
《AI语音与音乐生成》结合33个典型案例,从AI语音与音乐生成的发展历史、基本原理、平台与工具、场景应用、综合实战5方面详细介绍其核心知识、主流工具、操作技巧和应用实践等,从而帮助读者系统掌握AI语音与音乐生成的相关知识,并给相关企业解决真实场景问题提供参考。《AI语音与音乐生成》提供配套教学视频、案例素材、提示词文件、语音类工作流文件、教学PPT和软件安装文件等超值配套资源,帮助读者高效、直观地学习。
《AI语音与音乐生成》共19章,分为5篇。第1篇AI语音概论,系统介绍AI语音发展历史、AI语音技术引发的社会争议和AI语音未来展望;第2篇音频技术原理,主要介绍语音识别、语音合成和音乐生成的基本原理等;第3篇AI语音平台与工具,主要介绍国内综合语音平台、国外综合语音平台、常用的专业化语音平台、重要的开源AI语音模型等;第4篇AI语音场景应用,主要介绍声音处理、声音识别、语音合成和音乐生成4种常见的AI语音场景应用;第5篇AI语音综合应用实战,首先介绍AI语音类工作流,然后介绍如何综合使用前面章节介绍的工具、模型和技巧,带领读者进行应用实践,从而完成AI翻唱、文案配音、 “复活”亲人和郭老师说英语4个热门AI语音综合应用实战案例。
《AI语音与音乐生成》内容丰富,讲解深入浅出,案例典型、适合自媒体创作、音乐创作、游戏配音和影视配音等相关领域的从业者与爱好者阅读,也适合高等院校和培训机构作为AI语音类课程的教材或培训用书。
作者简介
王双:博士,毕业于中国科学院大学。现任教于武汉纺织大学,兼任可学AI的顾问。自2017年起教授人工智能的相关课程,对PINN和AIGC的相关理论与应用有深入的研究,熟练掌握AIGC的相关原理、工具与开发技巧,熟悉AIGC的各种场景应用,主持开发了高校AIGC实训中心平台。已为多所高等院校提供AIGC相关课程、师资、平台综合解决方案。主持编写并出版了《AI绘画大师之道:轻松入门》《AI绘画全场景案例应用与实践》《AIGC绘画与音视频生成:ComfyUI工作流应用与实践》等图书。
尹子成:现任可学AI高级研发工程师。兼任智能语音和生成式音乐负责人,从事AI语音与音乐课程开发、应用开发与技术测试,理论基础扎实,经验丰富。
白玉棋:现任可学AI高级研发工程师,专注于ComfyUI工作流研发,能为特定的AIGC任务开发复杂的工作流。授课经验丰富,已经为武昌理工学院、东湖学院和武汉交通职业学院等多所院校的师生授课。
张珈毓:现任可学AI研发工程师,负责文案撰写、语音教程编写、开源模型测试等,代码编写能力较强,能熟练使用各类开源语音模型与工具。
何媛媛:博士,毕业于中国科学院大学。现任教于武汉纺织大学,兼任可学AI的顾问。自2024年起研究AIGC,并专注于生成式3D,熟悉Nerf、Guassians Splatting等3D重建算法,致力于探索AI 3D的推广与应用。
目 录
第1篇 AI语音概论
第1章 AI语音简史 2
1.1 缓慢进步时期 4
1.2 快速发展时期 7
1.3 突破爆发时期 10
第2章 AI语音技术引发的社会争议 12
2.1 AI语音电诈 12
2.1.1 AI语音电诈防不胜防 12
2.1.2 诈骗2亿港元的视频会议 13
2.2 利用AI语音“复活”亲人 14
2.3 AI语音产品版权之争 16
2.3.1 AI生成的内容有版权吗 16
2.3.2 第一例AI声音侵权案 17
2.3.3 孙某某的无奈 18
显示全部信息
前 言
以AIGC(人工智能生成内容)为代表的人工智能浪潮正在以前所未有的速度席卷各行各业。各种新模型层出不穷,基于新模型的新应用场景不断涌现。AI语音与音乐作为AIGC的重要应用场景正在深刻地影响着人们的日常生活。从智能家居控制到自动驾驶,从数字人口播到跨语种沟通,从音乐生成到文案配音等,AI语音与音乐正在逐渐成为人们生活的一部分。可以说,AI语音与音乐生成已经成为音视频领域的创作者、音乐从业者、智能产品开发者、游戏从业者以及大中专院校影视动画与音乐等相关专业的师生必须掌握的基本技能。
为了帮助AIGC从业者全面、系统、深入地学习绘画、语音和视频等生成与处理技术,“可学AI”团队于2023年便开始组织人员筹划相关图书的写作和出版事宜,并于2024年先后出版了《AI绘画大师之道:轻松入门》和《AI绘画全场景案例应用与实践》。这两部图书上市后均获得了广大读者的好评。为了帮助读者更加系统地学习AIGC相关技术,“可学AI”团队经过调研,计划进一步推出《AIGC绘画与音视频生成:ComfyUI工作流应用与实践》《AI语音与音乐生成:原理、工具与应用实践》《AI视频生成:原理、工具与应用实践》《AI绘画与视频生成模型微调:原理、工具与应用实践》等图书,这些图书组成“AIGC技术探索丛书”供读者阅读。
显示全部信息
媒体评论
AI时代,音频行业迎来前所未有的挑战与机遇。本书从AI语音生成的黑科技到AI音乐创作的魔法技能,一一掰开揉碎讲透其原理,还详细介绍了AI语音与音乐生成的相关工具和使用场景。阅读完本书,你也可以直接拿捏AI音频生产力,诚意推荐!
——小旭音乐创始人 卢小旭
本书全面、系统地介绍了AI语音与音乐的发展历史、技术原理、平台与工具、应用实践等,帮助读者快速掌握AI语音和音乐生成技术,从而适应AIGC的飞速发展。本书内容丰富,讲解深入浅出,适合影视、自媒体、音乐创作、播音和主持等领域的从业者和爱好者阅读,也适合高等院校的相关专业作为人工智能课程的教材。
——武汉纺织大学艺术与设计学院教授、院长 石元伍
本书结合33个典型案例,系统地介绍了AI语音与音乐生成的完整知识体系。本书案例类型丰富,涵盖声音处理、声音识别、语音合成、音乐生成等具体场景应用,实现了AI翻唱、文案配音、亲人“复活”和郭老师说英语等热门实战案例。读者通过系统地学习本书核心知识并动手实践书中的每一个案例,相信会在较短的时间内掌握AI语音与音乐生成的相关知识。
——湖北工业大学数字艺术产业学院副院长 邓诗元
在短短的两年多的时间里,AIGC的快速发展让很多人相信AGI(通用人工智能)离我们已不再遥远。语音作为人机交互的重要入口和人际交流的主要方式,其在AIGC中一直扮演着极为重要的角色。本书系统地介绍了AI语音和音乐生成的核心知识,并通过多个典型案例展示其各种场景应用,既适合自媒体、音乐创作、音视频创作等领域的读者阅读,也适合高等院校音乐类专业作为人工智能课程的教学用书。
——湖北海天时代科技股份有限公司总监、重庆职业院校技能大赛专家裁判、全国职业院校技能大赛执委会专家、职业教育国家级教学成果奖评审专家 谭智
客服微信 售前咨询 售后服务