跳过正文

我是怎么在自己电脑上,一分钱不花做出媲美VEO-3的AI视频的

免费、开源,做出来的视频真实到你怀疑人生。
#

最近谷歌那个VEO-3,就因为一个文本提示就能生成视频,着实火了一把。但我要告诉你一个更炸裂的消息:

一个免费的替代品刚刚横空出世,而且它可能比VEO-3更厉害

它叫“混元视频头像”(Hunyuan Video Avatar),跟VEO-3不一样的是,它能给你完整的掌控权:你上传一张图片,再上传一段音频,然后“砰”的一下,它就能生成那种让你下巴都掉下来的超逼真视频,而且嘴型完美同步,全身动作都有,甚至连情绪都能捕捉到。

全程离线。不限数量。还没水印。


为什么这对创作者来说是颠覆性的?
#

市面上大多数AI视频工具,要么就是收费的,要么就只能做个“会说话的头像”那种。

但混元可不止是动动嘴皮子那么简单,它能让整个身体都动起来,支持各种风格(动漫、皮克斯、写实),甚至连生气、大笑、难过……还有唱歌时的情绪和表情都能拿捏得死死的。


比VEO-3还强?数据对比给你看
#

用VEO-3,你连自己的声音都不能上传。但用混元,你可以用这些工具生成声音:

  • RVC(基于检索的语音转换)

  • Fakeyou, Tortoise, ElevenLabs(结合TTS或语音克隆)

这意味着,你对角色的身份、声音、情绪,以及在多个视频里的表现,都有完整的创作控制权


是的,在家就能跑,就算显存小也行
#

一开始,这工具对显卡的要求可高了,得是个96GB显存的“怪兽级”GPU才行。但最近更新后,现在只要10GB显存就能跑了。

更妙的是什么?它还专门给那些“显卡贫民”(GPU Poor)出了个安装选项,我没开玩笑,它就叫Wan2GP。这个版本自带各种优化、参数调整和性能提升,比如:

  • 支持平铺式VAE

  • TC缓存,速度提升2.5倍

  • Sage Attention,渲染速度快40%

想立即体验,不想安装?
#

你可以直接去他们免费的在线平台试试看(用Chrome浏览器加自动翻译效果最好,因为是中文界面)。

腾讯混元

不过在线版会有水印,也不支持自定义提示词。但如果你想在本地安装前先体验一下,这是个很好的方式。


如何在本地安装混元视频头像(Wan2GP)
#

这份指南会手把手教你如何安装和运行HunyuanVideo-Avatar这个强大的开源AI工具。它能根据一张图片和一段音频,生成超逼真、嘴型同步的视频,而且没水印,完全离线,不限数量。


系统要求
#


分步安装指南
#

1. 安装Git
#

克隆代码库需要用到Git。

  • 访问:https://git-scm.com/downloads/win

  • 根据你的操作系统下载对应版本。

  • 运行安装程序,然后一路“下一步”就行,保持默认设置。

  • 完成安装。

试试看: 打开命令提示符(Command Prompt),输入:

git --version

你应该会看到类似这样的信息: git version 2.45.0.windows.1


2. 安装Miniconda(轻量级Python管理器)
#

  • 访问:https://www.anaconda.com/docs/getting-started/miniconda/install

  • 下载Miniconda3 Windows安装程序(Python 3.11)。

  • 运行安装程序:

  • 选择“为所有用户安装”(Install for All Users)

  • 勾选选项:“将Miniconda添加到PATH环境变量”(Add Miniconda to PATH)

  • 勾选选项:“安装后清除包缓存”(Clear package cache after install)

试试看: 重新打开命令提示符,输入:

conda --version

你应该会看到: conda 24.5.0


3. 克隆Wan2GP仓库
#

这个仓库包含了混元视频头像工具和用户界面。

git clone https://github.com/deepbeepmeep/Wan2GP.git
cd Wan2GP

4. 创建Python虚拟环境
#

conda create -n wan2gp python=3.10.9
conda activate wan2gp

这时候,你的命令行最前面应该就能看到 (Wan2GP) 了。


5. 安装PyTorch(需CUDA 12.4+)
#

首先检查你的CUDA版本:

nvcc --version

如果你的CUDA版本是12.4或更新:

# 安装 PyTorch 2.6.0,支持 CUDA 12.4
pip install torch2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu124  

如果你是其他CUDA版本,可以去:

Get Started

找到对应的安装命令。


6. 安装所需的Python包
#

pip install -r requirements.txt

这一步会安装所有必要的库,比如 gradiotransformersopencv等等。

这可能需要几分钟,因为它会安装超过1GB的软件包。


7. 可选:提升性能(强烈推荐)
#

a. 安装Triton,加快注意力机制

# 仅限Windows:安装Triton
pip install triton-windows 

# Windows和Linux都适用
pip install sageattention1.0.6 

b. 安装SAGE Attention(渲染速度快40%)

# Windows
pip install triton-windows 
pip install https://github.com/woct0rdho/SageAttention/releases/download/v2.1.1-windows/sageattention-2.1.1+cu126torch2.6.0-cp310-cp310-win_amd64.whl

# Linux(需要手动编译)
git clone https://github.com/thu-ml/SageAttention
cd SageAttention 
pip install -e .

8. 启动应用
#

Wan2GP 文件夹内:

python wgp.py  # 文本到视频(默认)
python wgp.py --i2v  # 图片到视频

等服务器初始化完成,你会看到一个链接,类似这样:

Running on local URL: http://127.0.0.1:7860

点击这个链接,或者把它复制到你的浏览器里。这就是混元视频头像的本地Gradio界面了。


生成你的第一个视频
#

  1. 上传一张参考图片

  2. 上传你的音频片段(WAV/MP3格式)

  3. 添加一段简短的提示词

  4. 设置视频长度(比如150帧,大概就是6秒)

  5. 点击“生成”(Generate)

搞定!你就会得到一段超逼真的动画视频,音频和身体动作完全同步,而且还没水印。


最后的思考:开源AI革命来了
#

混元视频头像这个工具,实打实地证明了一件事:想玩转AI视频的魔法,根本不需要什么巨额预算或者云服务积分。开源世界正在迎头赶上,而且速度快得惊人。

如果你是个创作者、独立电影制作人、教育工作者,或者只是个有笔记本电脑和想法的普通人,这都是你的机会。

最棒的是什么?你根本不用看谷歌的脸色。你只需要几个G的硬盘空间,再加上一点点想象力就够了。


欢迎关注微信公众号【WellthyHackers】