我是怎麼在自己的電腦上，一毛錢都不花就做出媲美 VEO-3 的 AI 影片的

免費、開源，做出來的影片真實到讓你懷疑人生。
#

最近 Google 的 VEO-3，光是輸入文字就能生成影片，真的紅了一陣子。但我要告訴你一個更爆炸性的消息：

一款免費的替代工具剛橫空出世，而且它搞不好比 VEO-3更厲害。

它叫做「混元影片替身」（Hunyuan Video Avatar），跟 VEO-3 不一樣的是，它能給你完整的掌控權：你只要上傳一張圖片，再上傳一段音訊，然後「砰」地一下，它就能生成那種讓你下巴都掉下來的超逼真影片，而且嘴型完美同步，全身的動作都能表現出來，甚至連情緒都能捕捉到。

全程離線作業。不限數量。也沒有浮水印。

為什麼這對創作者來說是顛覆性的？
#

市面上大多數 AI 影片工具，不是要收費，就是只能做那種「會說話的頭像」。

但混元可不只是動動嘴巴那麼簡單，它能讓整個身體都動起來，支援各種風格（像是動漫、皮克斯、寫實風格），甚至連生氣、大笑、難過……還有唱歌時的情緒跟表情，都能抓得很到位。

比 VEO-3 還強？數據對比給你看
#

用 VEO-3 的話，你連自己的聲音都不能上傳。但用混元的話，你可以用這些工具來生成聲音：

RVC（基於檢索的語音轉換）
Fakeyou, Tortoise, ElevenLabs（結合 TTS 或語音複製）

這代表說，你對角色的身份、聲音、情緒，以及在多個影片裡的表現，都有完整的創作控制權。

對，沒錯，在家就能跑，就算顯示記憶體比較小也沒問題
#

一開始啊，這個工具對顯示卡的要求可高了，那時候需要有 96GB 顯示記憶體的「怪獸級」GPU 才跑得動。但最近更新後，現在只要 10GB 顯示記憶體就能跑了。

更棒的是什麼？它還特別為那些「顯示卡貧民」（GPU Poor）出了一個安裝選項，我可沒開玩笑，它就叫做 Wan2GP。這個版本自帶了各種最佳化、參數調整以及效能提升，像是：

支援平鋪式 VAE
TC 快取，速度提升 2.5 倍
Sage Attention，渲染速度快 40%

想馬上體驗，不想安裝嗎？
#

你可以直接去他們免費的線上平台試試看（用 Chrome 瀏覽器再搭配自動翻譯效果會最好，因為介面是中文的喔）。

騰訊混元

不過線上版會有浮水印，也不支援自訂提示詞。但如果你想在本地安裝前先體驗看看的話，這是個很不錯的方式。

如何在本地安裝混元影片替身（Wan2GP）
#

這份指南會手把手教你如何安裝與執行 HunyuanVideo-Avatar 這個強大的開源 AI 工具。它能根據一張圖片跟一段音訊，生成超逼真、嘴型同步的影片，而且沒浮水印、完全離線、不限數量。

系統要求
#

分步安裝指南
#

1. 安裝 Git
#

複製程式碼庫需要用到 Git。

前往：https://git-scm.com/downloads/win
根據你的作業系統下載對應版本。
執行安裝程式，然後一路點選「下一步」就行，保持預設設定。
完成安裝。

試試看：開啟命令提示字元（Command Prompt），輸入：

git --version

你應該會看到類似這樣的訊息： git version 2.45.0.windows.1

2. 安裝 Miniconda（輕量級 Python 管理器）
#

前往：https://www.anaconda.com/docs/getting-started/miniconda/install
下載 Miniconda3 Windows 安裝程式（Python 3.11）。
執行安裝程式：
選擇「為所有使用者安裝」（Install for All Users）
勾選選項：「將 Miniconda 加入 PATH 環境變數」（Add Miniconda to PATH）
勾選選項：「安裝後清除套件快取」（Clear package cache after install）

試試看：重新開啟命令提示字元，輸入：

conda --version

你應該會看到： conda 24.5.0

3. 複製 Wan2GP 儲存庫
#

這個儲存庫包含了混元影片替身工具跟使用者介面。

git clone https://github.com/deepbeepmeep/Wan2GP.git
cd Wan2GP

4. 建立 Python 虛擬環境
#

conda create -n wan2gp python=3.10.9
conda activate wan2gp

這時候，你的命令列最前面應該就能看到 (Wan2GP) 了。

5. 安裝 PyTorch（需 CUDA 12.4+）
#

首先檢查你的 CUDA 版本：

nvcc --version

如果你的 CUDA 版本是 12.4 或更新：

# 安裝 PyTorch 2.6.0，支援 CUDA 12.4
pip install torch2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu124

如果你是其他 CUDA 版本，可以前往：

Get Started

找到對應的安裝指令。

6. 安裝所需的 Python 套件
#

pip install -r requirements.txt

這一步會安裝所有必要的函式庫，像是 gradio、transformers、opencv 等等。

這可能需要幾分鐘，因為它會安裝超過 1GB 的軟體套件。

7. 選用：提升效能（強烈推薦）
#

a. 安裝 Triton，加速注意力機制

# 僅限 Windows：安裝 Triton
pip install triton-windows 

# Windows 跟 Linux 都適用
pip install sageattention1.0.6

b. 安裝 SAGE Attention（渲染速度快 40%）

# Windows
pip install triton-windows 
pip install https://github.com/woct0rdho/SageAttention/releases/download/v2.1.1-windows/sageattention-2.1.1+cu126torch2.6.0-cp310-cp310-win_amd64.whl

# Linux（需要手動編譯）
git clone https://github.com/thu-ml/SageAttention
cd SageAttention 
pip install -e .

8. 啟動應用程式
#

在 Wan2GP 資料夾內：

python wgp.py  # 文字轉影片（預設）
python wgp.py --i2v  # 圖片轉影片

等伺服器初始化完成，你會看到一個連結，像這樣：

Running on local URL: http://127.0.0.1:7860

點擊這個連結，或者把它複製到你的瀏覽器裡。這就是混元影片替身在本地端的 Gradio 介面了。

生成你的第一個影片
#

上傳一張參考圖片
上傳你的音訊片段（WAV/MP3 格式）
加入一段簡短的提示詞
設定影片長度（比方說 150 幀，大概就是 6 秒）
點擊「生成」（Generate）

搞定！你就會得到一段超逼真的動畫影片，音訊跟身體動作完全同步，而且也沒有浮水印。

最後的思考：開源 AI 革命來了
#

混元影片替身這個工具，實實在在地證明了一件事：想玩轉 AI 影片的魔法，根本不需要什麼鉅額預算或是雲端服務的點數。開源世界正在迎頭趕上，而且速度快得驚人。

如果你是個創作者、獨立製片人、教育工作者，或是只是個有筆記型電腦跟想法的普通人，這都是你的機會。

最棒的是什麼？你根本不用看 Google 的臉色。你只需要幾個 G 的硬碟空間，再加上一點點想像力就夠了。

免費、開源，做出來的影片真實到讓你懷疑人生。 #

為什麼這對創作者來說是顛覆性的？ #

比 VEO-3 還強？數據對比給你看 #

對，沒錯，在家就能跑，就算顯示記憶體比較小也沒問題 #

想馬上體驗，不想安裝嗎？ #

如何在本地安裝混元影片替身（Wan2GP） #

系統要求 #

分步安裝指南 #

1. 安裝 Git #

2. 安裝 Miniconda（輕量級 Python 管理器） #

3. 複製 Wan2GP 儲存庫 #

4. 建立 Python 虛擬環境 #

5. 安裝 PyTorch（需 CUDA 12.4+） #

6. 安裝所需的 Python 套件 #

7. 選用：提升效能（強烈推薦） #

8. 啟動應用程式 #

生成你的第一個影片 #

最後的思考：開源 AI 革命來了 #