1-Click: MakeEasy
Attention is All you Need
Copy and paste bilibili.com/youtube.com/douyin.com video link directly or upload local file below 👇
Register to get free 60 minutes (Click to purchase or you can donate me 🥳, and fill in your own key)
🎯【AutoMV】一键生成 MV 画面(AI 孙燕姿,但是每一句歌词都由 AI 作画)🎵
欢迎词
哈喽哈喽大家好,欢迎来到沥青的频道。
介绍视频内容
今天我要给大家介绍一个新的项目,AI孙燕姿。她可谓是2023年B站最火的冷门歌手了。之前B站的大佬们出了很多AI孙燕姿的翻唱歌曲,但我一直觉得有一个遗憾,就是没有恋爱作画的画面。所以我今天做了一个Auto MV,也就是可以输入一个B站视频链接,然后点击生成就可以有这样一个视频啦。我们可以先来看一下效果。
展示生成的视频效果
这样一个音乐MV是我根据B站的链接来生成的。当我们输入一个B站链接,它就会重新获取,根据歌词自动创建了对应的AI画面。比如狼牙月有这样一个月亮,并且有一个人站在这里。我也做了其他歌曲的一些介绍,比如说你可以在B站这边直接复制一首歌的链接,然后粘在这里,点击生成,就可以有种爱是非,然后它就会有对应的画面。这是一首断了的弦,我的弦再怎么练,我的感觉你也已听不见,你的转变像断掉的弦再怎么接引导,我肯定陶喆的melody没有言语能够说明道,别人欢喜不拉一带山里没有句点,已无法再继续。你看最后那个埋伏在街头的某种气息,是不是就画面特别贴切。
展示不同风格的画面
当然,目前我也允许了可以设置作画的风格。刚刚我们看到的其实就是我用的新海诚的动漫风格。其他的像梵高、达芬奇等等这些风格,我还在具体的试验当中。当然,也可以识别歌曲演唱的语言,可以看到其他识别的语言文字可能有一些不准确了,但是如果能够识别出具体的人物和画面,它就会根据具体的场景来进行生成。
展示之前使用的Diffusion B软件的问题
之前我使用的Diffusion B软件非常大,而且只能本地运行。你可以看,让我们打开它,它会要求下载模型,而这个模型相当大,可能有三四个G,而且这还只是模型之一。并且,它只支持Mac系统,特别占空间,而且只能离线使用,不能线上直接调用,也就是说没有办法公开给大家来用。
介绍新的版本可以供大家使用
另外,它生成的时候内存占用也非常大,我几乎不能去干其他的事情了。所以,这一次做的这个版本就是可以让大家一起来用了。在Bilibili输入B站音乐链接,然后你就可以直接点击生成MV,还可以结合歌词和风格来让Step Fusion自动生成画面,从而也规避了版权问题。不用担心素材库,使用AI孙燕姿搭配AI作画的画面,让整个视频更加有趣。
介绍部署在AWS上的过程
目前我是在AWS上面,也就是亚马逊云服务当中部署的Stable Diffusion。亚马逊云是一个计算平台,而我这次使用的亚马逊CG Maker更是可以非常方便的一键部署Stable Diffusion。我就是跟着这个OG Shop的教程,然后一步一步搭建了主peter的notebook,通过一个notebook实例就可以轻松部署网页版的Stable Diffusion。
介绍部署的具体步骤
下面我就教大家手把手的一步一步部署,然后其中也踩过一些坑,可以带大家再重新过一遍,让大家也可以把代码和模型部署到CG Maker的endpoints。然后我们借助于endpoints,可以在前端去开发一个简易的纹身图Web应用,就像这样输入提示词,然后产生对应的画面。
介绍AWS的峰会
另外,值得一提的是,亚马逊云科技也会在上海举行一个中国峰会,大家可以点击评论区的邀请链接进行注册,可以直接参与和专家的交流,也可以更加深入地了解亚马逊云关于人工智能相关的技术和服务。当然,也会有非常重磅的一些嘉宾会参与其中,整个峰会持续两天,也有具体的OKShop和动手先试,可以供大家共同参与。
介绍使用AWS部署的Web应用
回到CG Maker的主页,然后登录一下控制台。如果你之前没有注册过,你可以创建一个新的账号。当然,我这里已经创建过账号了,所以我就直接选择登录。登录之后,你就会进入这样一个控制台主页,你可以在顶部直接搜索,比方说搜索CG Maker,这样的话你可以快速进入对应的服务。当然,我这里也可以点击加新,然后它就会出现在我的控制台的上方,这样你可以非常方便的直接点击进入CG Maker。你可以在左边找到笔记本以及笔记本实例。当然,在创建之前,你可以选择对应的区域,推荐大家选择亚太地区东京,因为离我们更近,相应的服务速度也会更快。
介绍创建笔记本实例的步骤
然后你可以点击右上角创建笔记本实例,点击创建,你可以输入你要创建的笔记本实例名称,比方说我就叫做Auto MV。然后这个时候要选择一下对应的笔记本实例,我们可以在教程中看到,我们即将选择g4dn.xlarge。而这就会遇到我们会遇到的第一个坑,也就是默认情况下,我们是没有xlarge这种instance的配额的,所以你就需要根据教程点击对应的链接,然后去申请一下配额,否则你就会遇到这样一个没有配额的错误信息。我们可以翻译一下,他说你超出了资源的限制,需要请求xlarge的相关配额,所以你直接进入到教程当中的配合链接,然后输入相应的配额,点击进去请求增加配额就可以了,输入一就行了。相应的,我们在后续会用到CG Maker endpoints的限额,所以同样的,我们也在这个地方先把它增加一遍,这样的话方便我们后续直接申请部署endpoint。同样的,在这里输入endpoint usage,然后在这边请求增加配额,点击确认即可。通常来说,这个配合的等待时间大概半天的样子,所以也不用着急。另外一个需要注意的点就是在其他配置当中,我们需要把这个圈大小要改大一点,最好改到80GB,因为我们下载模型啊或者是部署可能需要比较大的容量才可以。就这两个需要踩的坑。
介绍其他配置
在这里跟大家介绍一下其他具体的配置,可以参考这张图。基本不用动的,另外就是配置一下笔记本的IAM角色。这里点击创建新角色,然后选择你要访问的任意S3存储桶,然后点击确认创建角色即可。之后等待几分钟,你就可以看到你创建好的Auto MV笔记本实例就会in service,也就在运行当中了。这个时候你可以打开Jupyter或者是Jupyter Lab,我通常来说会打开这个Lab,因为这个Lab实验室,它比普通的GPA要多一个文件夹管理系统,所以我们就可以看到具体下载的模型有哪些。但我这是已经下载过了,所以这边会有一个Stable Fusion v1.5的文件夹。最开始你们这应该是什么都没有的。
介绍运行Stable Diffusion的代码
接下来我们就要准备运行和使用这样的一个模型了。在这边克隆模型仓库之后,你就可以使用Diffusion B的这个Stable Diffusion pipeline来加载模型。这边你就可以看到我们可以通过模型参数来进行设定了,比方说这里的prompt或者是后面会用到的宽度、高度等等。如果大家之前使用过Step Fusion Web UI,对这些参数肯定是有所了解的。这里也包括正向的prompt和负向的prompt。
介绍运行模型所需的库文件
然后我们就可以运行模型所需要的库文件,包括Transformers、Diffusers等等这些库。你可以看到,在云端环境一个非常好的好处就是它的下载速度极快。你可以看这边有一个库的下载速度,甚至达到了154.7MB每秒或者12.1MB每秒。这样也就少去了你在本地安装这种依赖所需要耗费的大量时间。
介绍下载模型的过程
我们就可以下载Stable Fusion v1.5的模型,这里通过Git LFS来下载模型仓库上的Diffusion开源模型文件。当然,这个模型文件是存在Hugging Face上面的,Hugging Face我们之后可以再做介绍。总之,这一步骤耗费的时间非常长,因为它需要下载整个模型包到你的云端环境当中。下载完了之后,你这里就会有一个Stable Fusion v1.5的文件夹。
介绍使用模型生成图片的过程
接下来我们就可以使用模型生成图片了。在这个Notebook里面,总共分成了三个部分。第一个部分就是用Step Fusion模型直接生成图片的一个过程,我们可以直接在Notebook里面运行Stable Fusion的生成代码。然后第二部分则是使用CG Maker来运行该模型,并且部署模型,我们可以供给API来供外部调用。所以我们可以逐步运行这里面的代码,你可以选中对应的代码,点击这个上方的开始按钮,当然了它就会执行对应的代码。当然这里有一个快捷键,你可以使用Shift加Enter,然后它就会直接运行了。下面的这个部分就是运行的结果,每次运行完了,它会有个数字,比方说先前运行的时候应该会显示1,但它运行完了,我们可以看到每一次的一个输出结果。这里我们就快速过一下,一定要等待它从星号变成具体的数字,它才算运行成功。有些步骤会耗费时间比较长,所以可以耐心等待一下。
介绍部署模型到SageMaker的过程
第三步就是我们要进行后续开发,非常重要的一步,就是部署模型到SageMaker的endpoint。部署的方式有很多种,但这里有使用到Boto3来将CG Maker的代码进行部署,其实也很简单,你就按照它对应的步骤,Shift加回车来进行逐步的运行。运行完了之后,你就可以看到我们可以把模型打包上传到S3,从而到左边这里会有一个压缩包,这个压缩包会被上传到S3。这一些步骤也是需要对应的一些时间的,所以可以耐心等待一下。然后你可以看这里是最关键的一个部署脚本,使用这个model,然后点dep,并且指定好了instance的类型和对应的endpoint,这个endpoint是后续会用到的。最后的这个endpoint名称就是Step Diffusion v1.5的endpoint。
展示使用API生成图片的过程
有了这个endpoint之后,你就可以在外部去调用它了。这里是最简单的一个示例了,你就可以看到这边还是同样的prompt,使用火星上的埃菲尔铁塔,然后直接生成了这张图片。那么整个教程的运行和部署就讲到这里。如果大家在Notebook的运行过程当中能够看到这些生成的图片,就已经说明运行成功和部署成功了。
介绍使用AWS部署的Web应用
接下来有两种方式,你可以去开发Web应用。第一种就是AWS的Cloud9,也就是一个云集成开发环境,直接在浏览器里面编写和运行调试代码。这个教程我就不带大家一一过了。最后你可以在这边运行一个网页来输入prompt,最后生成对应的图片。我这边给大家做了一个靓丽的Next.js的Web,这个Web应用包括如何去集成CG Maker的endpoint,代码也是完全开源的,大家可以去为我点个star。
总结
随着对AI的持续深入了解,我发现AI远比我能想象中的能做的更多,包括AI文本生成、AI作画甚至AI视频,都在持续不断的颠覆当中。作为程序员,我们希望能够通过工程化、产品化的方式,把这种能力带给更多的人,让大家都可以提高效率。我一直觉得AI出来之后,它绝对不是一个替代人类的关系,或者有人会说AI不会取代你,而是使用AI的人会取代你。但我觉得这明显是制造焦虑的一种方式。我觉得AI最大的价值就在于,它让每个人都有机会去做以前做不到的事情。比方说我作为一个理科生,现在我也有了机会去画好看的图片,去创作好听的歌曲。而如果你作为文科生,也有机会轻松创建自己的网站,实现自己的天马行空。这就好比你所谓的消费升级,可能是用星巴克、奈雪等等替代了你以前喝瓶装饮料的体验,但更多人的升级其实是从以前从来不喝饮料到现在喝上了蜜雪冰城。所以你可能以前从来没有画过画、创作过歌曲或者是做过自己的软件,那么现在借助AI的力量,你可以轻松地去实现自己的任何想法,实现自己的天马行空。所以这完全是一个从无到有的升级,大家一起把蛋糕做大好。希望大家能够有所收获,不要忘记报名AWS爱马逊云科技峰会。我们下期再见,拜拜!祝大家身体健康,天天开心!

深受好多好多朋友的喜爱
博客

大模型让 AI 开发者更佛系?

感谢您的大力支持!
产品正在持续迭代中,请多给我们一些时间。
如果您有任何反馈,欢迎提建议哦!
$0
60minutes
- Support local audio/video file
- Support importing files from cloud drive
- Support for Open API & Webhook
$10$4.9
600minutes
- More usage minutes
- Chat with audio/video content (🐣)
- Double the output content length
- Support local audio/video file
- Support importing files from cloud drive
- Support for Open API & Webhook
$50$19.8
Most popular
3000minutes
- More usage minutes
- Chat with audio/video content (🐣)
- Double the output content length
- Support local audio/video file
- Support importing files from cloud drive
- Support for Open API & Webhook
- Get the e-book "ChatGPT Prompting Art: A Guide to Creating Clear and Effective Prompts.pdf"
AI 音视频 知行助理
让你的音视频看得快,搜得到,用得好,真正做到「知行合一」