南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)
孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官方媒体博客上写了一篇英文版的长文,正式回应现在满城风雨的“AI孙燕姿”现象,流行天后展示了超人一等的智识水平,行文优美,绵恒隽永,对AIGC艺术表现得极其克制,又相当宽容,充满了语言上的古典之美,表现出了“任彼如泰山压顶,我只当清风拂面”的博大胸怀。
本次我们利用edge-tts和Sadtalker库让AI孙燕姿朗诵本尊的博文,让流行天后念给你听。
(相关资料图)
之前我们曾经使用百度开源的PaddleGAN视觉效果模型中一个子模块Wav2lip实现了人物口型与输入的歌词语音同步,但Wav2lip的问题是虚拟人物的动态效果只能局限在嘴唇附近,事实上,音频和不同面部动作之间的连接是不同的,也就是说,虽然嘴唇运动与音频的联系最强,但可以通过不同的头部姿势和眨眼来反作用于音频。
和Wav2lip相比,SadTaker是一种通过隐式3D系数调制的风格化音频驱动Talking头部视频生成的库,一方面,它从音频中生成逼真的运动系数(例如,头部姿势、嘴唇运动和眨眼),并单独学习每个运动以减少不确定性。对于表达,通过从的仅嘴唇运动系数和重建的渲染三维人脸上的感知损失(唇读损失,面部landmark loss)中提取系数,设计了一种新的音频到表达系数网络。
对于程序化的头部姿势,通过学习给定姿势的残差,使用条件VAE来对多样性和逼真的头部运动进行建模。在生成逼真的3DMM系数后,通过一种新颖的3D感知人脸渲染来驱动源图像。并且通过源和驱动的无监督3D关键点生成扭曲场,并扭曲参考图像以生成最终视频。
Sadtalker可以单独配置,也可以作为Stable-Diffusion-Webui的插件而存在,这里推荐使用Stable-Diffusion插件的形式,因为这样Stable-Diffusion和Sadtalker可以共用一套WebUI的界面,更方便将Stable-Diffusion生成的图片做成动态效果。
进入到Stable-Diffusion的项目目录:
cd stable-diffusion-webui
启动服务:
python3.10 webui.py
程序返回:
Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr 5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)] Version: v1.3.0 Commit hash: 20ae71faa8ef035c31aa3a410b707d792c8203a3 Installing requirements Launching Web UI with arguments: --xformers --opt-sdp-attention --api --lowvram Loading weights [b4d453442a] from D:\work\stable-diffusion-webui\models\Stable-diffusion\protogenV22Anime_protogenV22.safetensors load Sadtalker Checkpoints from D:\work\stable-diffusion-webui\extensions\SadTalker\checkpoints Creating model from config: D:\work\stable-diffusion-webui\configs\v1-inference.yaml LatentDiffusion: Running in eps-prediction mode DiffusionWrapper has 859.52 M params. Running on local URL: http://127.0.0.1:7860
代表启动成功,随后http://localhost:7860
选择插件(Extensions)选项卡
点击从url安装,输入插件地址:github.com/Winfredy/SadTalker
安装成功后,重启WebUI界面。
接着需要手动下载相关的模型文件:
https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt
随后将模型文件放入项目的stable-diffusion-webui/extensions/SadTalker/checkpoints/目录即可。
接着配置一下模型目录的环境变量:
set SADTALKER_CHECKPOINTS=D:/stable-diffusion-webui/extensions/SadTalker/checkpoints/
至此,SadTalker就配置好了。
edge-tts音频转录之前的歌曲复刻是通过So-vits库对原歌曲的音色进行替换和预测,也就是说需要原版的歌曲作为基础数据。但目前的场景显然有别于歌曲替换,我们首先需要将文本转换为语音,才能替换音色。
这里使用edge-tts库进行文本转语音操作:
import asyncio import edge_tts TEXT = """ As my AI voice takes on a life of its own while I despair over my overhanging stomach and my children"s every damn thing, I can"t help but want to write something about it. My fans have officially switched sides and accepted that I am indeed 冷门歌手 while my AI persona is the current hot property. I mean really, how do you fight with someone who is putting out new albums in the time span of minutes. Whether it is ChatGPT or AI or whatever name you want to call it, this "thing" is now capable of mimicking and/or conjuring, unique and complicated content by processing a gazillion chunks of information while piecing and putting together in a most coherent manner the task being asked at hand. Wait a minute, isn"t that what humans do? The very task that we have always convinced ourselves; that the formation of thought or opinion is not replicable by robots, the very idea that this is beyond their league, is now the looming thing that will threaten thousands of human conjured jobs. Legal, medical, accountancy, and currently, singing a song. You will protest, well I can tell the difference, there is no emotion or variance in tone/breath or whatever technical jargon you can come up with. Sorry to say, I suspect that this would be a very short term response. Ironically, in no time at all, no human will be able to rise above that. No human will be able to have access to this amount of information AND make the right calls OR make the right mistakes (ok mayyyybe I"m jumping ahead). This new technology will be able to churn out what exactly EVERYTHING EVERYONE needs. As indie or as warped or as psychotic as you can get, there"s probably a unique content that could be created just for you. You are not special you are already predictable and also unfortunately malleable. At this point, I feel like a popcorn eater with the best seat in the theatre. (Sidenote: Quite possibly in this case no tech is able to predict what it"s like to be me, except when this is published then ok it"s free for all). It"s like watching that movie that changed alot of our lives Everything Everywhere All At Once, except in this case, I don"t think it will be the idea of love that will save the day. In this boundless sea of existence, where anything is possible, where nothing matters, I think it will be purity of thought, that being exactly who you are will be enough. With this I fare thee well. """ VOICE = "en-HK-YanNeural" OUTPUT_FILE = "./test_en1.mp3" async def _main() -> None: communicate = edge_tts.Communicate(TEXT, VOICE) await communicate.save(OUTPUT_FILE) if __name__ == "__main__": asyncio.run(_main())
音频使用英文版本的女声:en-HK-YanNeural,关于edge-tts,请移步:口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10),这里不再赘述。
随后再将音频文件的音色替换为AI孙燕姿的音色即可:AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践,复刻《遥远的歌》,原唱晴子(Python3.10)。
本地推理和爆显存问题准备好生成的图片以及音频文件后,就可以在本地进行推理操作了,访问 localhost:7860
这里输入参数选择full,如此会保留整个图片区域,否则只保留头部部分。
生成效果:
SadTalker会根据音频文件生成对应的口型和表情。
这里需要注意的是,音频文件只支持MP3或者wav。
除此以外,推理过程中Pytorch库可能会报这个错误:
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 6.00 GiB total capacity; 5.38 GiB already allocated; 0 bytes free; 5.38 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
这就是所谓的"爆显存问题"。
一般情况下,是因为当前GPU的显存不够了所导致的,可以考虑缩小torch分片文件的体积:
set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:60
如果音频文件实在过大,也可以通过ffmpeg对音频文件切片操作,分多次进行推理:
ffmpeg -ss 00:00:00 -i test_en.wav -to 00:30:00 -c copy test_en_01.wav
藉此,就解决了推理过程中的爆显存问题。
结语和Wav2Lip相比,SadTalker(Stylized Audio-Driven Talking-head)提供了更加细微的面部运动细节(如眼睛眨动)等等,可谓是细致入微,巨细靡遗,当然随之而来的是模型数量和推理成本以及推理时间的增加,但显然,这些都是值得的。
标签:
上一篇:中金:当前银行估值存在系统性低估 H股修复空间高于A股
下一篇:最后一页
- 南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)
- 中金:当前银行估值存在系统性低估 H股修复空间高于A股
- 广东省财政加快惠农补贴发放 下达资金预算33.53亿元
- 三力士:公司如有相关方面的进展请您查看公司在中国证监会指定信息披露媒体的相关公告
- 安杰思(688581.SH)2022年度拟每10股派7.6元
- 盘点众明星为高考学子加油_贝克汉姆用中文说“高考加油”_当前看点
- 环球焦点!“关注房颤 预防卒中” 襄阳市第一人民医院开展“中国房颤日”义诊活动
- 天天讯息:咸宁近视防控知识宣讲进校园,指导孩子们点亮“睛”彩童年
- 精选 | 夜盘盘前要闻汇总 6月6日 周二
- 青岩寺在辽宁什么地方(辽阳青岩寺)
- 仿写春写夏_仿写春
- 暗黑破坏神4近战游侠build一览
- 济南建设数字先锋城市 打造万亿级数字经济发展新高地
- 头条焦点:北京秀水街服装市场_北京秀水街
- 焦点速读:苹果发布首款MR头显:这才是真的遥遥领先?
- 张良点金:晚间黄金一小时形态见顶,现价1957直接空!
- 张良点金:晚间黄金一小时形态见顶,现价1957直接空! 天天播报
- 张良点金:晚间黄金一小时形态见顶,现价1957直接空!
- 【世界新视野】验资账户验资期间只收不付_验资账户
- 高考如何调整心态?海南心理专家支招
- 日本排污入海进入最后阶段 国际社会反对呼声强烈
- 单排溜冰鞋十大品牌排行榜_溜冰鞋的品牌排行榜 当前视讯
- 戴睿推出新款R16 Pro笔记本电脑:配备16英寸2.5K显示屏,214美元
- 乌克兰国际储备达373.113亿美元历史新高
- 世界快资讯丨戴睿推出新款R16 Pro笔记本电脑:配备16英寸2.5K显示屏,214美元
- 世界银行上调2023年全球经济预测,下调2024年经济前景
- “十四五”以来天津PM2.5年均浓度累计下降22.9% 降幅全国名列前茅 焦点快播
- 前沿热点:“餐饮安全 你我同查” 护航中高考食品安全
- 世界信息:AI冲击好莱坞 演员工会维权:要对AI分身收费
- 世界热议:美国多名参议员致信扎克伯格寻求有关大型语言模型LLaMA泄露的信息
- 当前要闻:新疆“Z世代”返乡择业 上班不再“舍近求远”
- 全球观速讯丨明日高考,哪些事项需注意?这份指南请查收
- 甘州区长安镇中心学校开展“六·五”环境日宣传教育活动|环球精选
- 白芷图片大全_白芷图片_世界报资讯
- 汉滨区五里镇四合初级中学_关于汉滨区五里镇四合初级中学简述-焦点要闻
- 双十一的起源英语 双十一的起源
- 控股股东用时半年累计减持3.22%,天佑德酒股价连续两日下跌
- 绿色低碳 创新高效 数智赋能 | 京信通信亮相2023年中国国际信息通信展
- 天天热资讯!高三班主任花式应援为考生减压具体情况 怎么回事
- 淮滨县召开“三夏”生产工作推进会
- 华特气体:目前市场上稀有气体价格已恢复到2022年涨价前水平,这种趋势会持续很长一段时间_世界快看
- 挚文集团一季度营收28.189亿元,净利润4.719亿元 环球消息
- 这首毕业歌唱出我们平凡又深刻的青春
- 中国代表:日方一意孤行加速推进核污染水排海计划极不负责
- 北京警方多措并举服务保障高考_全球头条
- 世界快看点丨北京用户每日10点可领至高1600元消费券 京东购追觅V16S只需2499元
- 房地产经纪人考试成绩查询时间 中国房地产经纪人考试成绩查询|环球关注
- 横梁合龙|天天新动态
- 国内商品期货早盘开盘,玻璃跌超2%
- 信用卡逾期十五次怎么快速补救?信用卡出现逾期后银行通常会采取哪些措施? 当前通讯_全球微速讯
-
世界新动态:信用卡一千五逾期一天会上门吗(信用卡1000逾期一天多少钱)|当前关注
信用卡逾期催缴不还的话法院会上门清债的。翼钱包一千五逾期会上门吗会
-
这里没有“卷”能减压 老年大学“圈粉”成了年轻人的“向往”
老年大学“圈粉”成了年轻人的“向往”他们说:百余元一学期的课程,比
-
焦点热门:外文期刊影响因子_影响因子高的外文期刊
1、进入JCR数据库网站,选择JCReditionandyear:JCRScienceedition,20
-
你知道今年最好看悬疑小说是哪本吗?隐藏着什么样的惊天秘密?_今日最新
为了维持他的生长,李星辰需要长期服用,一种价格不菲的营养液,原因
-
【世界报资讯】5月头部房企销售增速放缓 政策调整预期增强
5月头部房企销售增速放缓政策调整预期增强,万科,金地集团
-
汽油的主要成分有哪些(汽油的主要成分)
1、汽油,主要成分是C4~C12烃类,为混合烃类物品之一。2、是一种无色或
-
天天速看:江苏海洋大学有哪些专业 江苏海洋大学专业排名
江苏海洋大学最好的专业排名榜(附第一与前十名的专业名单)江苏海洋大
-
当前短讯!中核钛白(002145.SZ):拟0元受让泽通伟力得44%股权
格隆汇6月5日丨中核钛白002145002145SZ公布公司与四川伟力得能源股份有
-
明沟散水(明沟)
沟散水,明沟这个问题很多朋友还不知道,来为大家解答以上的问题,现在
-
邮储银行(01658.HK):558.48亿股A股限售股将于6月12日上市流通_全球关注
邮储银行(01658)发布公告,本次上市流通的限售股为本行首次公开发行A股
-
今天最新消息 中国首套自主研发的橇装天然气制氢装置投用|世界快报
中新网8月23日电题:中国首套自主研发的橇装天然气制氢装置投用中新财
-
焦点快播:大动作!官方方案来了!启动实施
国家体育总局表示,下一步将会同国家发展改革委、财政部、住建部、中国
-
新疆兵团沙漠中建数字化农业“车间”-当前动态
中新网新疆昆玉6月5日电 (史玉江)地处塔克拉玛干沙漠上的新疆生产
-
利物浦夏窗首签曝光!世界杯冠军签约5年,转会费不足6000万|天天动态
周一,著名记者罗马诺透露,利物浦已将完成麦克阿利斯特的签约,双方将
-
天天微动态丨哈尔滨中医看银屑病医院-牛皮皮癣图片 早期症状
黑龙江牛皮癣医院表示中医认为,本病系风湿热邪搏于肌肤,复感风邪,凝
-
超长续航的ARIYA 艾睿雅,整体表现如何?
近年来,随着燃油车的政策限制越来越严格,许多消费者们在选购车辆时都
-
不干胶标签印刷
1、不干胶标签印刷,是用选定的方法印刷标签并在其背面涂以薄层不干胶
-
毛坦厂中学 88 辆大巴车送考生出征,万人雨中撑伞助威,居民:场面震撼 天天微速讯
6月5日,安徽六安。今早7点半,毛坦厂中学送考车队又一次出发,考生集
-
天天新消息丨生产推迟至10月,12月全面供货,传苹果MR头显24年目标120万台
距离WWDC2023还有不到一天时间,近期关于苹果AR VR的新闻不少,彭博Mar
-
松霖科技:公司智能健身品类实现与Keep等品牌的首次合作 全球今亮点
松霖科技近期披露投资者关系活动记录表显示,厨卫健康品类未来的增长相
-
廊坊市高考考点位置及考场分布出炉!-环球新消息
廊坊市高考考点位置及考场分布一、廊坊市安次区考区1、考点名称:廊坊
-
华阳变速收《问询函》 要求说明是否存在核心产品丧失竞争力等事项
6月2日,湖北华阳汽车变速系统股份有限公司收到来自北京证券交易所的《
-
兰舍新风 官网 兰舍新风系统官网
今天来聊聊关于兰舍新风,官网,兰舍新风系统官网的文章,现在就为大家
-
《吴王金戈越王剑》登陆北京人艺曹禺剧场
《吴王金戈越王剑》登陆北京人艺曹禺剧场
-
突然!十年来首次大规模裁员,包括多名高管|每日聚焦
据央视财经报道,当地时间3日,美国迪士尼公司旗下皮克斯动画工作室传
-
合理膳食多运动,监控血压常测量,预防高血压,越早越好!
高血压普遍被认为是老年病,其实现如今高血压人群已经趋于年轻化,很多
-
环球视点!厦门养老待遇2023有多少?申领的条件是什么?
厦门养老待遇2023有多少?申领的条件是什么?如何申请的?随社保网小编
-
工信部明确全面推进6G技术研发
加快培育新兴产业,持续增强移动通信、光通信等领域全产业链优势,前瞻布局下一代互联网等前沿领域,全面推
-
河南已收获小麦4964万亩 抢收重心将转至黄河以北
河南已收获小麦4964万亩抢收重心将转至黄河以北6月4日,河南省农业农村厅召开新闻通气会,通报了河南“...
-
环球播报:印度列车脱轨相撞事故伤亡者家属焦急寻找亲人 部分遗体难以辨认
目前印度列车脱轨相撞事故的现场搜救工作已基本结束,但由于本次事故造成大量人员伤亡,当地时间4日,部分
-
男男情侣头像动漫分开_男男情侣头像动漫
1、静临黑塔利亚银魂黑执事青驱后面自己截的==扶额==不够的话私信我吧不能发图了。本文就为大家分享到这里
-
最资讯丨白云国际机场t1停车场(白云国际机场t1t2区别)
来为大家解答以上问题。白云国际机场t1停车场,白云国际机场t1t2区别这个很多人还不清楚,现在一起跟着来瞧
-
Failed to connect to zw.gozuowen.com port 80: Timed out
1、“临渊羡鱼,不如退而结网”后一句是“扬汤止沸,不如釜底抽薪。2、”“临渊羡鱼,不如退而结网”的...
-
狼性总裁要够了没无删减-天雅的恋人们 世界热头条
1、没有咧。2、鲜网还在更新中~你去【新鲜中文网】搜索。3、估计会有最新的哟。本文到此分享完毕,希望对大
-
EDG时空回溯引热议,TES顶住压力,下路大胆组合碾压EDG_焦点滚动
对于TES来说,之前输给LNG还是有点难受的,TES这支战队也是神奇,首局就是赢不了,按照惯例来说,打EDG应该
-
委内瑞拉一金矿发生坍塌事故 已致至少12人死亡
当地时间6月3日晚,委内瑞拉玻利瓦尔州公共安全厅负责人科林纳·雷耶斯通过社交媒体发文证实,日前发生...
-
快播:吕蒙死后,孙权为什么不直接让陆逊接任大都督?
吕蒙死后,孙权为什么不直接让陆逊接任大都督?,大家知道,在孙权执政初期,孙氏集团的核心,是孙坚、孙策
-
观焦点:造梦西游3混沌在哪 造梦西游3混沌在哪里
1、a)新副本可以进入挑战看守混沌之门的BOSS天庭战神b)新副本混沌之门是通往新世界的入口(暂未开启)c)
-
世界头条:自然资源部与中国气象局联合发布地质灾害气象风险预警:自然资源部与中国气象局6月4日18时联合发布地质灾害气象风险预警
自然资源部与中国气象局联合发布地质灾害气象风险预警:自然资源部与中国气象局6月4日18时联合发布地质灾害
-
今日热门!excel表如何使用数据透视表 如何使用数据透析表
1、1 打开你需要汇总的EXCEL表格,点击插入里面的数据透视表 2 出现数据透视表的数据源选择项,选
-
eatx主板能装ATX的机箱吗_eatx主板_当前热议
1、是ExtendedATX的缩写,主要用于Rackmount服务器系统。2、它通常用于双处理器和标准ATX主板上无法胜任的
-
高考时间确定:6月7日-10日!可下载打印准考证查询考点信息_全球热点评
天津北方网讯:从市教育招生考试院获悉,2023年高考及高中学业水平等级性考试安排日前确定。 据市高招办
-
我国自主设计建造超大集装箱船多项指标均居世界最高水平 全球新资讯
央视网消息:近日,我国自主研制的超大型集装箱船“地中海米歇尔卡佩里尼”轮首航。该轮首站停靠宁波舟...
-
电脑怎么连接电视_电脑连接电视怎么设置
电脑怎么连接电视,电脑连接电视怎么设置很多人还不知道,现在让我们一起来看看吧!1、打开电视,将电视信
-
新疆赛里木湖即将举办国家级水上赛事 世界短讯
2023年全国电动冲浪板联赛(赛里木湖站)暨百城桨板公开赛(赛里木湖站)将于6月中旬在新疆赛里木湖风景名
-
全球短讯!8000公里海藻大军淹没美国沿岸,臭气冲天惊现“食肉”细菌
范围达5000英里(约8046公里)的大西洋马尾藻带(GreatAtlanticSargassumBelt)冲上美国佛州沿岸,大量海藻
-
国际能源署或于年内制定电动汽车关键矿物进口基准 环球新要闻
日经新闻6月4日消息,据悉,国际能源署(IEA)将于今年年底前推出电动汽车原材料进口基准 指导方针,寻求限
-
环球观焦点:意志怎么用(意志石板在)
今天小编岚岚来为大家解答以上的问题。意志怎么用,意志石板在相信很多小伙伴还不知道,现在让我们一起来看
-
六爻冲克是什么意思?六爻冲和克的区别是什么?
一、六爻冲克合生什么意思?1、生克是相对六爻中的五行来说,生即为生养,克即为克制,胜,如水克火即
-
安迪-科尔:曼联不应引进芒特,球队需要具有X因素属性的球员_天天快播报
近日有媒体报道将芒特与曼联联系在了一起,对此,安迪-科尔在接受采访的时候表示,红魔不应引进芒特。安迪-
X 关闭
X 关闭