快轉到主要內容

我是怎麼在自己的電腦上,一毛錢都不花就做出媲美 VEO-3 的 AI 影片的

免費、開源,做出來的影片真實到讓你懷疑人生。
#

最近 Google 的 VEO-3,光是輸入文字就能生成影片,真的紅了一陣子。但我要告訴你一個更爆炸性的消息:

一款免費的替代工具剛橫空出世,而且它搞不好比 VEO-3更厲害

它叫做「混元影片替身」(Hunyuan Video Avatar),跟 VEO-3 不一樣的是,它能給你完整的掌控權:你只要上傳一張圖片,再上傳一段音訊,然後「砰」地一下,它就能生成那種讓你下巴都掉下來的超逼真影片,而且嘴型完美同步,全身的動作都能表現出來,甚至連情緒都能捕捉到。

全程離線作業。不限數量。也沒有浮水印。


為什麼這對創作者來說是顛覆性的?
#

市面上大多數 AI 影片工具,不是要收費,就是只能做那種「會說話的頭像」。

但混元可不只是動動嘴巴那麼簡單,它能讓整個身體都動起來,支援各種風格(像是動漫、皮克斯、寫實風格),甚至連生氣、大笑、難過……還有唱歌時的情緒跟表情,都能抓得很到位。


比 VEO-3 還強?數據對比給你看
#

用 VEO-3 的話,你連自己的聲音都不能上傳。但用混元的話,你可以用這些工具來生成聲音:

  • RVC(基於檢索的語音轉換)

  • Fakeyou, Tortoise, ElevenLabs(結合 TTS 或語音複製)

這代表說,你對角色的身份、聲音、情緒,以及在多個影片裡的表現,都有完整的創作控制權


對,沒錯,在家就能跑,就算顯示記憶體比較小也沒問題
#

一開始啊,這個工具對顯示卡的要求可高了,那時候需要有 96GB 顯示記憶體的「怪獸級」GPU 才跑得動。但最近更新後,現在只要 10GB 顯示記憶體就能跑了。

更棒的是什麼?它還特別為那些「顯示卡貧民」(GPU Poor)出了一個安裝選項,我可沒開玩笑,它就叫做 Wan2GP。這個版本自帶了各種最佳化、參數調整以及效能提升,像是:

  • 支援平鋪式 VAE

  • TC 快取,速度提升 2.5 倍

  • Sage Attention,渲染速度快 40%

想馬上體驗,不想安裝嗎?
#

你可以直接去他們免費的線上平台試試看(用 Chrome 瀏覽器再搭配自動翻譯效果會最好,因為介面是中文的喔)。

騰訊混元

不過線上版會有浮水印,也不支援自訂提示詞。但如果你想在本地安裝前先體驗看看的話,這是個很不錯的方式。


如何在本地安裝混元影片替身(Wan2GP)
#

這份指南會手把手教你如何安裝與執行 HunyuanVideo-Avatar 這個強大的開源 AI 工具。它能根據一張圖片跟一段音訊,生成超逼真、嘴型同步的影片,而且沒浮水印、完全離線、不限數量。


系統要求
#


分步安裝指南
#

1. 安裝 Git
#

複製程式碼庫需要用到 Git。

  • 前往:https://git-scm.com/downloads/win

  • 根據你的作業系統下載對應版本。

  • 執行安裝程式,然後一路點選「下一步」就行,保持預設設定。

  • 完成安裝。

試試看: 開啟命令提示字元(Command Prompt),輸入:

git --version

你應該會看到類似這樣的訊息: git version 2.45.0.windows.1


2. 安裝 Miniconda(輕量級 Python 管理器)
#

  • 前往:https://www.anaconda.com/docs/getting-started/miniconda/install

  • 下載 Miniconda3 Windows 安裝程式(Python 3.11)。

  • 執行安裝程式:

  • 選擇「為所有使用者安裝」(Install for All Users)

  • 勾選選項:「將 Miniconda 加入 PATH 環境變數」(Add Miniconda to PATH)

  • 勾選選項:「安裝後清除套件快取」(Clear package cache after install)

試試看: 重新開啟命令提示字元,輸入:

conda --version

你應該會看到: conda 24.5.0


3. 複製 Wan2GP 儲存庫
#

這個儲存庫包含了混元影片替身工具跟使用者介面。

git clone https://github.com/deepbeepmeep/Wan2GP.git
cd Wan2GP

4. 建立 Python 虛擬環境
#

conda create -n wan2gp python=3.10.9
conda activate wan2gp

這時候,你的命令列最前面應該就能看到 (Wan2GP) 了。


5. 安裝 PyTorch(需 CUDA 12.4+)
#

首先檢查你的 CUDA 版本:

nvcc --version

如果你的 CUDA 版本是 12.4 或更新:

# 安裝 PyTorch 2.6.0,支援 CUDA 12.4
pip install torch2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu124  

如果你是其他 CUDA 版本,可以前往:

Get Started

找到對應的安裝指令。


6. 安裝所需的 Python 套件
#

pip install -r requirements.txt

這一步會安裝所有必要的函式庫,像是 gradiotransformersopencv 等等。

這可能需要幾分鐘,因為它會安裝超過 1GB 的軟體套件。


7. 選用:提升效能(強烈推薦)
#

a. 安裝 Triton,加速注意力機制

# 僅限 Windows:安裝 Triton
pip install triton-windows 

# Windows 跟 Linux 都適用
pip install sageattention1.0.6 

b. 安裝 SAGE Attention(渲染速度快 40%)

# Windows
pip install triton-windows 
pip install https://github.com/woct0rdho/SageAttention/releases/download/v2.1.1-windows/sageattention-2.1.1+cu126torch2.6.0-cp310-cp310-win_amd64.whl

# Linux(需要手動編譯)
git clone https://github.com/thu-ml/SageAttention
cd SageAttention 
pip install -e .

8. 啟動應用程式
#

Wan2GP 資料夾內:

python wgp.py  # 文字轉影片(預設)
python wgp.py --i2v  # 圖片轉影片

等伺服器初始化完成,你會看到一個連結,像這樣:

Running on local URL: http://127.0.0.1:7860

點擊這個連結,或者把它複製到你的瀏覽器裡。這就是混元影片替身在本地端的 Gradio 介面了。


生成你的第一個影片
#

  1. 上傳一張參考圖片

  2. 上傳你的音訊片段(WAV/MP3 格式)

  3. 加入一段簡短的提示詞

  4. 設定影片長度(比方說 150 幀,大概就是 6 秒)

  5. 點擊「生成」(Generate)

搞定!你就會得到一段超逼真的動畫影片,音訊跟身體動作完全同步,而且也沒有浮水印。


最後的思考:開源 AI 革命來了
#

混元影片替身這個工具,實實在在地證明了一件事:想玩轉 AI 影片的魔法,根本不需要什麼鉅額預算或是雲端服務的點數。開源世界正在迎頭趕上,而且速度快得驚人。

如果你是個創作者、獨立製片人、教育工作者,或是只是個有筆記型電腦跟想法的普通人,這都是你的機會。

最棒的是什麼?你根本不用看 Google 的臉色。你只需要幾個 G 的硬碟空間,再加上一點點想像力就夠了。