免費、開源,做出來的影片真實到讓你懷疑人生。 #
最近 Google 的 VEO-3,光是輸入文字就能生成影片,真的紅了一陣子。但我要告訴你一個更爆炸性的消息:
一款免費的替代工具剛橫空出世,而且它搞不好比 VEO-3更厲害。
它叫做「混元影片替身」(Hunyuan Video Avatar),跟 VEO-3 不一樣的是,它能給你完整的掌控權:你只要上傳一張圖片,再上傳一段音訊,然後「砰」地一下,它就能生成那種讓你下巴都掉下來的超逼真影片,而且嘴型完美同步,全身的動作都能表現出來,甚至連情緒都能捕捉到。
全程離線作業。不限數量。也沒有浮水印。
為什麼這對創作者來說是顛覆性的? #
市面上大多數 AI 影片工具,不是要收費,就是只能做那種「會說話的頭像」。
但混元可不只是動動嘴巴那麼簡單,它能讓整個身體都動起來,支援各種風格(像是動漫、皮克斯、寫實風格),甚至連生氣、大笑、難過……還有唱歌時的情緒跟表情,都能抓得很到位。
比 VEO-3 還強?數據對比給你看 #
用 VEO-3 的話,你連自己的聲音都不能上傳。但用混元的話,你可以用這些工具來生成聲音:
-
RVC(基於檢索的語音轉換)
-
Fakeyou, Tortoise, ElevenLabs(結合 TTS 或語音複製)
這代表說,你對角色的身份、聲音、情緒,以及在多個影片裡的表現,都有完整的創作控制權。
對,沒錯,在家就能跑,就算顯示記憶體比較小也沒問題 #
一開始啊,這個工具對顯示卡的要求可高了,那時候需要有 96GB 顯示記憶體的「怪獸級」GPU 才跑得動。但最近更新後,現在只要 10GB 顯示記憶體就能跑了。
更棒的是什麼?它還特別為那些「顯示卡貧民」(GPU Poor)出了一個安裝選項,我可沒開玩笑,它就叫做 Wan2GP。這個版本自帶了各種最佳化、參數調整以及效能提升,像是:
-
支援平鋪式 VAE
-
TC 快取,速度提升 2.5 倍
-
Sage Attention,渲染速度快 40%
想馬上體驗,不想安裝嗎? #
你可以直接去他們免費的線上平台試試看(用 Chrome 瀏覽器再搭配自動翻譯效果會最好,因為介面是中文的喔)。
不過線上版會有浮水印,也不支援自訂提示詞。但如果你想在本地安裝前先體驗看看的話,這是個很不錯的方式。
如何在本地安裝混元影片替身(Wan2GP) #
這份指南會手把手教你如何安裝與執行 HunyuanVideo-Avatar 這個強大的開源 AI 工具。它能根據一張圖片跟一段音訊,生成超逼真、嘴型同步的影片,而且沒浮水印、完全離線、不限數量。
系統要求 #
分步安裝指南 #
1. 安裝 Git #
複製程式碼庫需要用到 Git。
-
根據你的作業系統下載對應版本。
-
執行安裝程式,然後一路點選「下一步」就行,保持預設設定。
-
完成安裝。
試試看: 開啟命令提示字元(Command Prompt),輸入:
git --version
你應該會看到類似這樣的訊息:
git version 2.45.0.windows.1
2. 安裝 Miniconda(輕量級 Python 管理器) #
-
前往:https://www.anaconda.com/docs/getting-started/miniconda/install
-
下載 Miniconda3 Windows 安裝程式(Python 3.11)。
-
執行安裝程式:
-
選擇「為所有使用者安裝」(Install for All Users)
-
勾選選項:「將 Miniconda 加入 PATH 環境變數」(Add Miniconda to PATH)
-
勾選選項:「安裝後清除套件快取」(Clear package cache after install)
試試看: 重新開啟命令提示字元,輸入:
conda --version
你應該會看到:
conda 24.5.0
3. 複製 Wan2GP 儲存庫 #
這個儲存庫包含了混元影片替身工具跟使用者介面。
git clone https://github.com/deepbeepmeep/Wan2GP.git
cd Wan2GP
4. 建立 Python 虛擬環境 #
conda create -n wan2gp python=3.10.9
conda activate wan2gp
這時候,你的命令列最前面應該就能看到 (Wan2GP)
了。
5. 安裝 PyTorch(需 CUDA 12.4+) #
首先檢查你的 CUDA 版本:
nvcc --version
如果你的 CUDA 版本是 12.4 或更新:
# 安裝 PyTorch 2.6.0,支援 CUDA 12.4
pip install torch2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu124
如果你是其他 CUDA 版本,可以前往:
找到對應的安裝指令。
6. 安裝所需的 Python 套件 #
pip install -r requirements.txt
這一步會安裝所有必要的函式庫,像是 gradio
、transformers
、opencv
等等。
這可能需要幾分鐘,因為它會安裝超過 1GB 的軟體套件。
7. 選用:提升效能(強烈推薦) #
a. 安裝 Triton,加速注意力機制
# 僅限 Windows:安裝 Triton
pip install triton-windows
# Windows 跟 Linux 都適用
pip install sageattention1.0.6
b. 安裝 SAGE Attention(渲染速度快 40%)
# Windows
pip install triton-windows
pip install https://github.com/woct0rdho/SageAttention/releases/download/v2.1.1-windows/sageattention-2.1.1+cu126torch2.6.0-cp310-cp310-win_amd64.whl
# Linux(需要手動編譯)
git clone https://github.com/thu-ml/SageAttention
cd SageAttention
pip install -e .
8. 啟動應用程式 #
在 Wan2GP
資料夾內:
python wgp.py # 文字轉影片(預設)
python wgp.py --i2v # 圖片轉影片
等伺服器初始化完成,你會看到一個連結,像這樣:
Running on local URL: http://127.0.0.1:7860
點擊這個連結,或者把它複製到你的瀏覽器裡。這就是混元影片替身在本地端的 Gradio 介面了。
生成你的第一個影片 #
-
上傳一張參考圖片
-
上傳你的音訊片段(WAV/MP3 格式)
-
加入一段簡短的提示詞
-
設定影片長度(比方說 150 幀,大概就是 6 秒)
-
點擊「生成」(Generate)
搞定!你就會得到一段超逼真的動畫影片,音訊跟身體動作完全同步,而且也沒有浮水印。
最後的思考:開源 AI 革命來了 #
混元影片替身這個工具,實實在在地證明了一件事:想玩轉 AI 影片的魔法,根本不需要什麼鉅額預算或是雲端服務的點數。開源世界正在迎頭趕上,而且速度快得驚人。
如果你是個創作者、獨立製片人、教育工作者,或是只是個有筆記型電腦跟想法的普通人,這都是你的機會。
最棒的是什麼?你根本不用看 Google 的臉色。你只需要幾個 G 的硬碟空間,再加上一點點想像力就夠了。