1-Click: MakeEasy

Attention is All you Need

Copy and paste bilibili.com/youtube.com/douyin.com video link directly or upload local file below 👇

Register to get free 60 minutes (Click to purchase or you can donate me 🥳, and fill in your own key

Due to server resource limitations and to prevent abuse (some people previously scraped our API maliciously 😭), using your own API key will have a daily limit of 20 calls.
How to find your own APIKey? Please help us promote the app! If you exceed the limit, please remove the API key and use the remaining account duration.
👉 We highly recommend using Alipay/WeChat Pay to automatically recharge duration! ⚡⚡⚡
Or

🎯【AutoMV】一键生成 MV 画面(AI 孙燕姿,但是每一句歌词都由 AI 作画)🎵

欢迎词

哈喽哈喽大家好,欢迎来到沥青的频道。

介绍视频内容

今天我要给大家介绍一个新的项目,AI孙燕姿。她可谓是2023年B站最火的冷门歌手了。之前B站的大佬们出了很多AI孙燕姿的翻唱歌曲,但我一直觉得有一个遗憾,就是没有恋爱作画的画面。所以我今天做了一个Auto MV,也就是可以输入一个B站视频链接,然后点击生成就可以有这样一个视频啦。我们可以先来看一下效果。

展示生成的视频效果

这样一个音乐MV是我根据B站的链接来生成的。当我们输入一个B站链接,它就会重新获取,根据歌词自动创建了对应的AI画面。比如狼牙月有这样一个月亮,并且有一个人站在这里。我也做了其他歌曲的一些介绍,比如说你可以在B站这边直接复制一首歌的链接,然后粘在这里,点击生成,就可以有种爱是非,然后它就会有对应的画面。这是一首断了的弦,我的弦再怎么练,我的感觉你也已听不见,你的转变像断掉的弦再怎么接引导,我肯定陶喆的melody没有言语能够说明道,别人欢喜不拉一带山里没有句点,已无法再继续。你看最后那个埋伏在街头的某种气息,是不是就画面特别贴切。

展示不同风格的画面

当然,目前我也允许了可以设置作画的风格。刚刚我们看到的其实就是我用的新海诚的动漫风格。其他的像梵高、达芬奇等等这些风格,我还在具体的试验当中。当然,也可以识别歌曲演唱的语言,可以看到其他识别的语言文字可能有一些不准确了,但是如果能够识别出具体的人物和画面,它就会根据具体的场景来进行生成。

展示之前使用的Diffusion B软件的问题

之前我使用的Diffusion B软件非常大,而且只能本地运行。你可以看,让我们打开它,它会要求下载模型,而这个模型相当大,可能有三四个G,而且这还只是模型之一。并且,它只支持Mac系统,特别占空间,而且只能离线使用,不能线上直接调用,也就是说没有办法公开给大家来用。

介绍新的版本可以供大家使用

另外,它生成的时候内存占用也非常大,我几乎不能去干其他的事情了。所以,这一次做的这个版本就是可以让大家一起来用了。在Bilibili输入B站音乐链接,然后你就可以直接点击生成MV,还可以结合歌词和风格来让Step Fusion自动生成画面,从而也规避了版权问题。不用担心素材库,使用AI孙燕姿搭配AI作画的画面,让整个视频更加有趣。

介绍部署在AWS上的过程

目前我是在AWS上面,也就是亚马逊云服务当中部署的Stable Diffusion。亚马逊云是一个计算平台,而我这次使用的亚马逊CG Maker更是可以非常方便的一键部署Stable Diffusion。我就是跟着这个OG Shop的教程,然后一步一步搭建了主peter的notebook,通过一个notebook实例就可以轻松部署网页版的Stable Diffusion。

介绍部署的具体步骤

下面我就教大家手把手的一步一步部署,然后其中也踩过一些坑,可以带大家再重新过一遍,让大家也可以把代码和模型部署到CG Maker的endpoints。然后我们借助于endpoints,可以在前端去开发一个简易的纹身图Web应用,就像这样输入提示词,然后产生对应的画面。

介绍AWS的峰会

另外,值得一提的是,亚马逊云科技也会在上海举行一个中国峰会,大家可以点击评论区的邀请链接进行注册,可以直接参与和专家的交流,也可以更加深入地了解亚马逊云关于人工智能相关的技术和服务。当然,也会有非常重磅的一些嘉宾会参与其中,整个峰会持续两天,也有具体的OKShop和动手先试,可以供大家共同参与。

介绍使用AWS部署的Web应用

回到CG Maker的主页,然后登录一下控制台。如果你之前没有注册过,你可以创建一个新的账号。当然,我这里已经创建过账号了,所以我就直接选择登录。登录之后,你就会进入这样一个控制台主页,你可以在顶部直接搜索,比方说搜索CG Maker,这样的话你可以快速进入对应的服务。当然,我这里也可以点击加新,然后它就会出现在我的控制台的上方,这样你可以非常方便的直接点击进入CG Maker。你可以在左边找到笔记本以及笔记本实例。当然,在创建之前,你可以选择对应的区域,推荐大家选择亚太地区东京,因为离我们更近,相应的服务速度也会更快。

介绍创建笔记本实例的步骤

然后你可以点击右上角创建笔记本实例,点击创建,你可以输入你要创建的笔记本实例名称,比方说我就叫做Auto MV。然后这个时候要选择一下对应的笔记本实例,我们可以在教程中看到,我们即将选择g4dn.xlarge。而这就会遇到我们会遇到的第一个坑,也就是默认情况下,我们是没有xlarge这种instance的配额的,所以你就需要根据教程点击对应的链接,然后去申请一下配额,否则你就会遇到这样一个没有配额的错误信息。我们可以翻译一下,他说你超出了资源的限制,需要请求xlarge的相关配额,所以你直接进入到教程当中的配合链接,然后输入相应的配额,点击进去请求增加配额就可以了,输入一就行了。相应的,我们在后续会用到CG Maker endpoints的限额,所以同样的,我们也在这个地方先把它增加一遍,这样的话方便我们后续直接申请部署endpoint。同样的,在这里输入endpoint usage,然后在这边请求增加配额,点击确认即可。通常来说,这个配合的等待时间大概半天的样子,所以也不用着急。另外一个需要注意的点就是在其他配置当中,我们需要把这个圈大小要改大一点,最好改到80GB,因为我们下载模型啊或者是部署可能需要比较大的容量才可以。就这两个需要踩的坑。

介绍其他配置

在这里跟大家介绍一下其他具体的配置,可以参考这张图。基本不用动的,另外就是配置一下笔记本的IAM角色。这里点击创建新角色,然后选择你要访问的任意S3存储桶,然后点击确认创建角色即可。之后等待几分钟,你就可以看到你创建好的Auto MV笔记本实例就会in service,也就在运行当中了。这个时候你可以打开Jupyter或者是Jupyter Lab,我通常来说会打开这个Lab,因为这个Lab实验室,它比普通的GPA要多一个文件夹管理系统,所以我们就可以看到具体下载的模型有哪些。但我这是已经下载过了,所以这边会有一个Stable Fusion v1.5的文件夹。最开始你们这应该是什么都没有的。

介绍运行Stable Diffusion的代码

接下来我们就要准备运行和使用这样的一个模型了。在这边克隆模型仓库之后,你就可以使用Diffusion B的这个Stable Diffusion pipeline来加载模型。这边你就可以看到我们可以通过模型参数来进行设定了,比方说这里的prompt或者是后面会用到的宽度、高度等等。如果大家之前使用过Step Fusion Web UI,对这些参数肯定是有所了解的。这里也包括正向的prompt和负向的prompt。

介绍运行模型所需的库文件

然后我们就可以运行模型所需要的库文件,包括Transformers、Diffusers等等这些库。你可以看到,在云端环境一个非常好的好处就是它的下载速度极快。你可以看这边有一个库的下载速度,甚至达到了154.7MB每秒或者12.1MB每秒。这样也就少去了你在本地安装这种依赖所需要耗费的大量时间。

介绍下载模型的过程

我们就可以下载Stable Fusion v1.5的模型,这里通过Git LFS来下载模型仓库上的Diffusion开源模型文件。当然,这个模型文件是存在Hugging Face上面的,Hugging Face我们之后可以再做介绍。总之,这一步骤耗费的时间非常长,因为它需要下载整个模型包到你的云端环境当中。下载完了之后,你这里就会有一个Stable Fusion v1.5的文件夹。

介绍使用模型生成图片的过程

接下来我们就可以使用模型生成图片了。在这个Notebook里面,总共分成了三个部分。第一个部分就是用Step Fusion模型直接生成图片的一个过程,我们可以直接在Notebook里面运行Stable Fusion的生成代码。然后第二部分则是使用CG Maker来运行该模型,并且部署模型,我们可以供给API来供外部调用。所以我们可以逐步运行这里面的代码,你可以选中对应的代码,点击这个上方的开始按钮,当然了它就会执行对应的代码。当然这里有一个快捷键,你可以使用Shift加Enter,然后它就会直接运行了。下面的这个部分就是运行的结果,每次运行完了,它会有个数字,比方说先前运行的时候应该会显示1,但它运行完了,我们可以看到每一次的一个输出结果。这里我们就快速过一下,一定要等待它从星号变成具体的数字,它才算运行成功。有些步骤会耗费时间比较长,所以可以耐心等待一下。

介绍部署模型到SageMaker的过程

第三步就是我们要进行后续开发,非常重要的一步,就是部署模型到SageMaker的endpoint。部署的方式有很多种,但这里有使用到Boto3来将CG Maker的代码进行部署,其实也很简单,你就按照它对应的步骤,Shift加回车来进行逐步的运行。运行完了之后,你就可以看到我们可以把模型打包上传到S3,从而到左边这里会有一个压缩包,这个压缩包会被上传到S3。这一些步骤也是需要对应的一些时间的,所以可以耐心等待一下。然后你可以看这里是最关键的一个部署脚本,使用这个model,然后点dep,并且指定好了instance的类型和对应的endpoint,这个endpoint是后续会用到的。最后的这个endpoint名称就是Step Diffusion v1.5的endpoint。

展示使用API生成图片的过程

有了这个endpoint之后,你就可以在外部去调用它了。这里是最简单的一个示例了,你就可以看到这边还是同样的prompt,使用火星上的埃菲尔铁塔,然后直接生成了这张图片。那么整个教程的运行和部署就讲到这里。如果大家在Notebook的运行过程当中能够看到这些生成的图片,就已经说明运行成功和部署成功了。

介绍使用AWS部署的Web应用

接下来有两种方式,你可以去开发Web应用。第一种就是AWS的Cloud9,也就是一个云集成开发环境,直接在浏览器里面编写和运行调试代码。这个教程我就不带大家一一过了。最后你可以在这边运行一个网页来输入prompt,最后生成对应的图片。我这边给大家做了一个靓丽的Next.js的Web,这个Web应用包括如何去集成CG Maker的endpoint,代码也是完全开源的,大家可以去为我点个star。

总结

随着对AI的持续深入了解,我发现AI远比我能想象中的能做的更多,包括AI文本生成、AI作画甚至AI视频,都在持续不断的颠覆当中。作为程序员,我们希望能够通过工程化、产品化的方式,把这种能力带给更多的人,让大家都可以提高效率。我一直觉得AI出来之后,它绝对不是一个替代人类的关系,或者有人会说AI不会取代你,而是使用AI的人会取代你。但我觉得这明显是制造焦虑的一种方式。我觉得AI最大的价值就在于,它让每个人都有机会去做以前做不到的事情。比方说我作为一个理科生,现在我也有了机会去画好看的图片,去创作好听的歌曲。而如果你作为文科生,也有机会轻松创建自己的网站,实现自己的天马行空。这就好比你所谓的消费升级,可能是用星巴克、奈雪等等替代了你以前喝瓶装饮料的体验,但更多人的升级其实是从以前从来不喝饮料到现在喝上了蜜雪冰城。所以你可能以前从来没有画过画、创作过歌曲或者是做过自己的软件,那么现在借助AI的力量,你可以轻松地去实现自己的任何想法,实现自己的天马行空。所以这完全是一个从无到有的升级,大家一起把蛋糕做大好。希望大家能够有所收获,不要忘记报名AWS爱马逊云科技峰会。我们下期再见,拜拜!祝大家身体健康,天天开心!

📒 Export to Note Apps

AI 音视频 知行助理

让你的音视频看得快,搜得到,用得好,真正做到「知行合一」

Client 01
Client 02
Client 03
Client 04
Client 05
Video
一键总结
省流神器 & AI课代表
一键问答
对话古今中外的智者
一键订阅
音视频知识库,支持 RSS
内容转换
多模态,学习的自由
结构化思考
思维导图,标签联想
笔记集成
Notion、Obsidian、Roam Research
微信助理
移动端转发即总结
浏览器插件
随身小帮手,沉浸体验
开放 API
IFTTT 无限想象力

深受好多好多朋友的喜爱

博客

大模型让 AI 开发者更佛系?

大模型让 AI 开发者更佛系?

Interviews · · Episode 232
文章讨论了三位年轻开发者,他们在AI时代开发了各自的应用,如BibiGPT和减压笔记。这些开发者都有互联网背景,热衷于产品开发,他们认为AI技术让产品开发更容易。此外,文章也提到了AI应用领域的竞争和AI技术的壁垒,并强调了产品开发的重要性。
Cooperate with
Logo
Logo
Logo
Logo

感谢您的大力支持!

产品正在持续迭代中,请多给我们一些时间。
如果您有任何反馈,欢迎提建议哦!

$0

Free Register to get 60 minutes
Invite friends, get up to 1200 minutes
-

60minutes

  • Support local audio/video file
  • Support importing files from cloud drive
  • Support for Open API & Webhook

$10$4.9

Limited time Double-11 discount: 5 off
Wow, 1-click summary, save time
-

600minutes

  • More usage minutes
  • Chat with audio/video content (🐣)
  • Double the output content length
  • Support local audio/video file
  • Support importing files from cloud drive
  • Support for Open API & Webhook

$50$19.8

Most popular

Limited time Double-11 discount: 2.5 off
Wow wow wow 🤩 1-click summary, save lives
-

3000minutes

  • More usage minutes
  • Chat with audio/video content (🐣)
  • Double the output content length
  • Support local audio/video file
  • Support importing files from cloud drive
  • Support for Open API & Webhook
  • Get the e-book "ChatGPT Prompting Art: A Guide to Creating Clear and Effective Prompts.pdf"

AI 音视频 知行助理

让你的音视频看得快,搜得到,用得好,真正做到「知行合一」