免费、开源,做出来的视频真实到你怀疑人生。 #
最近谷歌那个VEO-3,就因为一个文本提示就能生成视频,着实火了一把。但我要告诉你一个更炸裂的消息:
一个免费的替代品刚刚横空出世,而且它可能比VEO-3更厉害。
它叫“混元视频头像”(Hunyuan Video Avatar),跟VEO-3不一样的是,它能给你完整的掌控权:你上传一张图片,再上传一段音频,然后“砰”的一下,它就能生成那种让你下巴都掉下来的超逼真视频,而且嘴型完美同步,全身动作都有,甚至连情绪都能捕捉到。
全程离线。不限数量。还没水印。
为什么这对创作者来说是颠覆性的? #
市面上大多数AI视频工具,要么就是收费的,要么就只能做个“会说话的头像”那种。
但混元可不止是动动嘴皮子那么简单,它能让整个身体都动起来,支持各种风格(动漫、皮克斯、写实),甚至连生气、大笑、难过……还有唱歌时的情绪和表情都能拿捏得死死的。
比VEO-3还强?数据对比给你看 #
用VEO-3,你连自己的声音都不能上传。但用混元,你可以用这些工具生成声音:
-
RVC(基于检索的语音转换)
-
Fakeyou, Tortoise, ElevenLabs(结合TTS或语音克隆)
这意味着,你对角色的身份、声音、情绪,以及在多个视频里的表现,都有完整的创作控制权。
是的,在家就能跑,就算显存小也行 #
一开始,这工具对显卡的要求可高了,得是个96GB显存的“怪兽级”GPU才行。但最近更新后,现在只要10GB显存就能跑了。
更妙的是什么?它还专门给那些“显卡贫民”(GPU Poor)出了个安装选项,我没开玩笑,它就叫Wan2GP。这个版本自带各种优化、参数调整和性能提升,比如:
-
支持平铺式VAE
-
TC缓存,速度提升2.5倍
-
Sage Attention,渲染速度快40%
想立即体验,不想安装? #
你可以直接去他们免费的在线平台试试看(用Chrome浏览器加自动翻译效果最好,因为是中文界面)。
不过在线版会有水印,也不支持自定义提示词。但如果你想在本地安装前先体验一下,这是个很好的方式。
如何在本地安装混元视频头像(Wan2GP) #
这份指南会手把手教你如何安装和运行HunyuanVideo-Avatar这个强大的开源AI工具。它能根据一张图片和一段音频,生成超逼真、嘴型同步的视频,而且没水印,完全离线,不限数量。
系统要求 #
分步安装指南 #
1. 安装Git #
克隆代码库需要用到Git。
-
根据你的操作系统下载对应版本。
-
运行安装程序,然后一路“下一步”就行,保持默认设置。
-
完成安装。
试试看: 打开命令提示符(Command Prompt),输入:
git --version
你应该会看到类似这样的信息:
git version 2.45.0.windows.1
2. 安装Miniconda(轻量级Python管理器) #
-
访问:https://www.anaconda.com/docs/getting-started/miniconda/install
-
下载Miniconda3 Windows安装程序(Python 3.11)。
-
运行安装程序:
-
选择“为所有用户安装”(Install for All Users)
-
勾选选项:“将Miniconda添加到PATH环境变量”(Add Miniconda to PATH)
-
勾选选项:“安装后清除包缓存”(Clear package cache after install)
试试看: 重新打开命令提示符,输入:
conda --version
你应该会看到:
conda 24.5.0
3. 克隆Wan2GP仓库 #
这个仓库包含了混元视频头像工具和用户界面。
git clone https://github.com/deepbeepmeep/Wan2GP.git
cd Wan2GP
4. 创建Python虚拟环境 #
conda create -n wan2gp python=3.10.9
conda activate wan2gp
这时候,你的命令行最前面应该就能看到 (Wan2GP)
了。
5. 安装PyTorch(需CUDA 12.4+) #
首先检查你的CUDA版本:
nvcc --version
如果你的CUDA版本是12.4或更新:
# 安装 PyTorch 2.6.0,支持 CUDA 12.4
pip install torch2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu124
如果你是其他CUDA版本,可以去:
找到对应的安装命令。
6. 安装所需的Python包 #
pip install -r requirements.txt
这一步会安装所有必要的库,比如 gradio
、transformers
、opencv
等等。
这可能需要几分钟,因为它会安装超过1GB的软件包。
7. 可选:提升性能(强烈推荐) #
a. 安装Triton,加快注意力机制
# 仅限Windows:安装Triton
pip install triton-windows
# Windows和Linux都适用
pip install sageattention1.0.6
b. 安装SAGE Attention(渲染速度快40%)
# Windows
pip install triton-windows
pip install https://github.com/woct0rdho/SageAttention/releases/download/v2.1.1-windows/sageattention-2.1.1+cu126torch2.6.0-cp310-cp310-win_amd64.whl
# Linux(需要手动编译)
git clone https://github.com/thu-ml/SageAttention
cd SageAttention
pip install -e .
8. 启动应用 #
在 Wan2GP
文件夹内:
python wgp.py # 文本到视频(默认)
python wgp.py --i2v # 图片到视频
等服务器初始化完成,你会看到一个链接,类似这样:
Running on local URL: http://127.0.0.1:7860
点击这个链接,或者把它复制到你的浏览器里。这就是混元视频头像的本地Gradio界面了。
生成你的第一个视频 #
-
上传一张参考图片
-
上传你的音频片段(WAV/MP3格式)
-
添加一段简短的提示词
-
设置视频长度(比如150帧,大概就是6秒)
-
点击“生成”(Generate)
搞定!你就会得到一段超逼真的动画视频,音频和身体动作完全同步,而且还没水印。
最后的思考:开源AI革命来了 #
混元视频头像这个工具,实打实地证明了一件事:想玩转AI视频的魔法,根本不需要什么巨额预算或者云服务积分。开源世界正在迎头赶上,而且速度快得惊人。
如果你是个创作者、独立电影制作人、教育工作者,或者只是个有笔记本电脑和想法的普通人,这都是你的机会。
最棒的是什么?你根本不用看谷歌的脸色。你只需要几个G的硬盘空间,再加上一点点想象力就够了。
欢迎关注微信公众号【WellthyHackers】
