我是怎么在自己电脑上，一分钱不花做出媲美VEO-3的AI视频的

免费、开源，做出来的视频真实到你怀疑人生。
#

最近谷歌那个VEO-3，就因为一个文本提示就能生成视频，着实火了一把。但我要告诉你一个更炸裂的消息：

一个免费的替代品刚刚横空出世，而且它可能比VEO-3更厉害。

它叫“混元视频头像”（Hunyuan Video Avatar），跟VEO-3不一样的是，它能给你完整的掌控权：你上传一张图片，再上传一段音频，然后“砰”的一下，它就能生成那种让你下巴都掉下来的超逼真视频，而且嘴型完美同步，全身动作都有，甚至连情绪都能捕捉到。

全程离线。不限数量。还没水印。

为什么这对创作者来说是颠覆性的？
#

市面上大多数AI视频工具，要么就是收费的，要么就只能做个“会说话的头像”那种。

但混元可不止是动动嘴皮子那么简单，它能让整个身体都动起来，支持各种风格（动漫、皮克斯、写实），甚至连生气、大笑、难过……还有唱歌时的情绪和表情都能拿捏得死死的。

比VEO-3还强？数据对比给你看
#

用VEO-3，你连自己的声音都不能上传。但用混元，你可以用这些工具生成声音：

RVC（基于检索的语音转换）
Fakeyou, Tortoise, ElevenLabs（结合TTS或语音克隆）

这意味着，你对角色的身份、声音、情绪，以及在多个视频里的表现，都有完整的创作控制权。

是的，在家就能跑，就算显存小也行
#

一开始，这工具对显卡的要求可高了，得是个96GB显存的“怪兽级”GPU才行。但最近更新后，现在只要10GB显存就能跑了。

更妙的是什么？它还专门给那些“显卡贫民”（GPU Poor）出了个安装选项，我没开玩笑，它就叫Wan2GP。这个版本自带各种优化、参数调整和性能提升，比如：

支持平铺式VAE
TC缓存，速度提升2.5倍
Sage Attention，渲染速度快40%

想立即体验，不想安装？
#

你可以直接去他们免费的在线平台试试看（用Chrome浏览器加自动翻译效果最好，因为是中文界面）。

腾讯混元

不过在线版会有水印，也不支持自定义提示词。但如果你想在本地安装前先体验一下，这是个很好的方式。

如何在本地安装混元视频头像（Wan2GP）
#

这份指南会手把手教你如何安装和运行HunyuanVideo-Avatar这个强大的开源AI工具。它能根据一张图片和一段音频，生成超逼真、嘴型同步的视频，而且没水印，完全离线，不限数量。

系统要求
#

分步安装指南
#

1. 安装Git
#

克隆代码库需要用到Git。

访问：https://git-scm.com/downloads/win
根据你的操作系统下载对应版本。
运行安装程序，然后一路“下一步”就行，保持默认设置。
完成安装。

试试看：打开命令提示符（Command Prompt），输入：

git --version

你应该会看到类似这样的信息： git version 2.45.0.windows.1

2. 安装Miniconda（轻量级Python管理器）
#

访问：https://www.anaconda.com/docs/getting-started/miniconda/install
下载Miniconda3 Windows安装程序（Python 3.11）。
运行安装程序：
选择“为所有用户安装”（Install for All Users）
勾选选项：“将Miniconda添加到PATH环境变量”（Add Miniconda to PATH）
勾选选项：“安装后清除包缓存”（Clear package cache after install）

试试看：重新打开命令提示符，输入：

conda --version

你应该会看到： conda 24.5.0

3. 克隆Wan2GP仓库
#

这个仓库包含了混元视频头像工具和用户界面。

git clone https://github.com/deepbeepmeep/Wan2GP.git
cd Wan2GP

4. 创建Python虚拟环境
#

conda create -n wan2gp python=3.10.9
conda activate wan2gp

这时候，你的命令行最前面应该就能看到 (Wan2GP) 了。

5. 安装PyTorch（需CUDA 12.4+）
#

首先检查你的CUDA版本：

nvcc --version

如果你的CUDA版本是12.4或更新：

# 安装 PyTorch 2.6.0，支持 CUDA 12.4
pip install torch2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu124

如果你是其他CUDA版本，可以去：

Get Started

找到对应的安装命令。

6. 安装所需的Python包
#

pip install -r requirements.txt

这一步会安装所有必要的库，比如 gradio、transformers、opencv等等。

这可能需要几分钟，因为它会安装超过1GB的软件包。

7. 可选：提升性能（强烈推荐）
#

a. 安装Triton，加快注意力机制

# 仅限Windows：安装Triton
pip install triton-windows 

# Windows和Linux都适用
pip install sageattention1.0.6

b. 安装SAGE Attention（渲染速度快40%）

# Windows
pip install triton-windows 
pip install https://github.com/woct0rdho/SageAttention/releases/download/v2.1.1-windows/sageattention-2.1.1+cu126torch2.6.0-cp310-cp310-win_amd64.whl

# Linux（需要手动编译）
git clone https://github.com/thu-ml/SageAttention
cd SageAttention 
pip install -e .

8. 启动应用
#

在 Wan2GP 文件夹内：

python wgp.py  # 文本到视频（默认）
python wgp.py --i2v  # 图片到视频

等服务器初始化完成，你会看到一个链接，类似这样：

Running on local URL: http://127.0.0.1:7860

点击这个链接，或者把它复制到你的浏览器里。这就是混元视频头像的本地Gradio界面了。

生成你的第一个视频
#

上传一张参考图片
上传你的音频片段（WAV/MP3格式）
添加一段简短的提示词
设置视频长度（比如150帧，大概就是6秒）
点击“生成”（Generate）

搞定！你就会得到一段超逼真的动画视频，音频和身体动作完全同步，而且还没水印。

最后的思考：开源AI革命来了
#

混元视频头像这个工具，实打实地证明了一件事：想玩转AI视频的魔法，根本不需要什么巨额预算或者云服务积分。开源世界正在迎头赶上，而且速度快得惊人。

如果你是个创作者、独立电影制作人、教育工作者，或者只是个有笔记本电脑和想法的普通人，这都是你的机会。

最棒的是什么？你根本不用看谷歌的脸色。你只需要几个G的硬盘空间，再加上一点点想象力就够了。

欢迎关注微信公众号【WellthyHackers】

免费、开源，做出来的视频真实到你怀疑人生。 #

为什么这对创作者来说是颠覆性的？ #

比VEO-3还强？数据对比给你看 #

是的，在家就能跑，就算显存小也行 #

想立即体验，不想安装？ #

如何在本地安装混元视频头像（Wan2GP） #

系统要求 #

分步安装指南 #

1. 安装Git #

2. 安装Miniconda（轻量级Python管理器） #

3. 克隆Wan2GP仓库 #

4. 创建Python虚拟环境 #

5. 安装PyTorch（需CUDA 12.4+） #

6. 安装所需的Python包 #

7. 可选：提升性能（强烈推荐） #

8. 启动应用 #

生成你的第一个视频 #

最后的思考：开源AI革命来了 #