FramePackを使ってローカルで動画生成

　FramePackを使用するとVRAM６GBのマシンでも、ローカル環境で動画生成を行うことができると聞き、さっそく試してみました。
　私のPCは、AIモデルとしてのスペックは高くないので、どの程度動くのか実験です。（モンハンワイルズの高画質推奨設定程度）

環境

Windows11 home
　CPU　Core i7 14700
　メモリー　32GB
　ビデオボード　 NVIDIA RTX 4060(8GB)

インストール

GitHubの次のサイトからダウンロードさせてもらいました。
　lllyasviel/FramePack: Lets make video diffusion practical!
Readmeが丁寧に作られているので、この通りやっていけばトラブルなくインストールできました。

　　ワンクリックパッケージが用意されているので、ダウンロードして、実行するだけです。

ダウンロードファイルを解凍した様子

解凍フォルダの
　　①update.bat　を実行（最新バージョンにアップデートしてくれます）
　　②run.bat　を実行（モデルのダウンロードを行うので、３０分～１時間くらいかかります）
これだけです。
　ダウンロードファイルサイズは４５GBくらいでした。
　実行時のコマンドプロンプトは次の通りです。

# ダウンロードしたファイルを解凍し、同フォルダに移動
C:\???\framepack_cu126_torch26 > dir
2025/04/18  12:05               270 environment.bat
2025/04/18  13:55               132 run.bat
2025/04/18  13:17    <DIR>          system
2023/01/25  06:49               168 update.bat
2025/04/19  13:20    <DIR>          webui
               3 個のファイル                 570 バイト

# update.batを実行
C:\???\framepack_cu126_torch26 > update.bat
Updating 1b371ad..743657e
HEAD is now at 1b371ad better gradio args for win
Updating 1b371ad..743657e
Fast-forward
 README.md                 | 10 +++++++++-
 demo_gradio.py            | 15 ++++++++++-----
 diffusers_helper/utils.py |  4 ++--
 3 files changed, 21 insertions(+), 8 deletions(-)
続行するには何かキーを押してください . . .

# run.bat を実行
C:\???\framepack_cu126_torch26 > run.bat
Currently enabled native sdp backends: ['flash', 'math', 'mem_efficient', 'cudnn']
Xformers is not installed!
Flash Attn is not installed!
Sage Attn is not installed!
Namespace(share=False, server='127.0.0.1', port=None, inbrowser=True)
Free VRAM 6.9326171875 GB
High-VRAM Mode: False
config.json: 100%|█████████████████████████████████████████████████████████████████████| 766/766 [00:00<00:00, 768kB/s]
:
# これでWebUIが起動します

WebUIにアクセス

ブラウザから「http://127.0.0.1:7860/」にアクセスするとWebUIが開きます。
7860ポートを開放しているのですね。

Readmeに書いてある手順で動画を生成しました。
　　①「画像をここにドロップ」と書かれている場所にサンプル画像をドラック
　　②プロンプトを入力
　　　「The man dances energetically, leaping mid-air with fluid arm swings and quick footwork.」
　　　※プロンプトは日本語入力に対応していないようです
　　③「Start Generation」をクリック
　　　動画生成が始まるので待つだけです

　サンプル画像から２．５秒の動画を生成したところ、３０分位かかりました。

生成した動画　mp4形式　2.5秒　ファイルサイズ 946KB
　静止画であるサンプル画像から、ローカル環境でここまでの動画を作れるのは驚きました。
　感じたこと
　　服の質感　レザー風の上着がフリースに変化
　　ズボンのしわが伸びている
　　スニーカーの雰囲気は悪くない
　　ダンスはスムーズ（この踊りは誰が考えたんだろう）
といった感じで、個人で遊ぶには充分なレベルです。

他の画像で実験

次の画像を使ってウサギを立たせようとしましたが、煙が少し動くだけで、立ち上がることなく失敗しました。

人間をモデルにしているのなら、ウサギではだめなのかもしれません。(ウサギとして認識されていないのかも）
　ヒゲのおじさんの画像を使ってみたところ、ちゃんと動作してくれました。

　入力画像の右手が隠れているのに、出力動画に右手が表示されていることから、手を生成しているのがわかります。
　２．５秒の動画を生成するのに、３０分ちょっとかかりました。
　袖口が少し不自然ですが、シード値を変えると、自然なものもありそうです。

生成した動画　2.5秒　mp4 1,049MB

ヒゲのおじさんが、いい表情になっています。good!

感想

　手書きのイラストも動かせるのかと思い実験したのですが、私の画力がなさ過ぎてか、動画にしてもらうことはできませんでした。
　英語でプロンプトを入力するのが一番大変ですが、AIを使えば日本語プロンプトも近いうちに可能になると思います。
　ローカル環境で動くので、家族の写真を動画にしたり、踊っている友人をLINEで送っても楽しそうですね。