Huimi Frame 模型能将输入上下文压缩至固定长度,因此生成任务量不受视频时长影响,即便是在笔记本电脑的 GPU 上,借助 130 亿参数模型,Huimi Frame 也能处理极多数量的帧。而且,Huimi Frame可采用大得多的批量大小进行训练,这与图像扩散训练的批量大小相当。
配置要求:
- 需配备英伟达 RTX 30XX、40XX、50XX 系列显卡,且支持 fp16 和 bf16 格式。GTX 10XX/20XX 系列未经过测试。
- 操作系统为 Linux 或 Windows。
- 显卡显存至少 6GB。
- 使用 13B 模型生成 1 分钟(60 秒)、30 帧 / 秒(共 1800 帧)的视频时,最低需 6GB 显存(没错,是 6GB,并非笔误,笔记本显卡也适用)。
关于速度
在我的 RTX 4090 台式机上,生成速度为 2.5 秒 / 帧(未优化)或 1.5 秒 / 帧(启用 teacache)。在 3070ti、3060 等笔记本显卡上,速度会慢 4 到 8 倍左右。如果你的速度远低于此,请排查问题。
无论如何,由于采用的是下一帧(片段)预测模式,你能直接看到生成的帧画面。因此,在完整视频生成前,就能获得大量视觉反馈。
安装
>>>点击此处下载一键安装包(CUDA 12.6 + Pytorch 2.6)<<<(安装包请与惠米科技官方联系)
下载后,解压,使用update.bat
更新,使用run.bat
运行。
请注意,运行update.bat
很重要,否则您可能会使用未修复潜在错误的先前版本。
Linux:
我们建议使用独立的 Python 3.10。
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -r requirements.txt
要启动 GUI,请运行:python demo_gradio.py
请注意,它支持--share
、、--port
等--server
。
该软件支持 PyTorch attention、xformers、flash-attn 和 sage-attention。默认情况下,它只使用 PyTorch attention。如果您知道如何操作,可以安装这些 attention 内核。
例如,要安装 sage-attention (linux):pip install sageattention==1.0.6
图形用户界面

在左侧上传图像并写下提示,右侧是生成的视频和潜在预览,因为这是一个下一帧片段预测模型,所以生成的视频会越来越长,您将看到每个部分的进度条和下一部分的潜在预览。
以下测试以文生图片、或真人模特图片,来生成短视频的测试效果。

原始图片或模特定妆

图生视频提示词:那位女子在花丛中优雅地舞蹈,缓缓旋转,水袖飘动,手势优美。The woman dances elegantly among the blossoms, spinning slowly with flowing sleeves and graceful hand movements.