专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
北京经信局  ·  2025全球数字经济大会首设欧洲分会场!3月 ... ·  19 小时前  
北京经信局  ·  2025全球数字经济大会首设欧洲分会场!3月 ... ·  19 小时前  
易简财经  ·  DeepSeek带飞阿里股价,阿里人连夜看豪宅 ·  昨天  
构力科技PKPM BIMBase  ·  央企担当 | ... ·  3 天前  
构力科技PKPM BIMBase  ·  央企担当 | ... ·  3 天前  
51好读  ›  专栏  ›  GitHubStore

Vach: 实时流式数字头像,实现音视频同步对话,达到商用效果!

GitHubStore  · 公众号  ·  · 2024-05-24 11:10

正文

项目简介

实时流式数字头像,实现音视频同步对话,基本达到商用效果,支持文本和语音交互,适用于直播间业务和展厅显示屏互动


特点

  • 文本交互

  • 语音交互

  • SyncTalk项目支持

  • 声音克隆

  • 直播间业务

  • 展厅显示屏互动


测试

Ubuntu 18.04, Pytorch 1.12.1 和 CUDA 11.3上测试

git clonehttps://github.com/Hujiazeng/Vach.gitcd Vach


依赖安装

conda create -n Vach python==3.10conda activate Vachpip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113pip install -r requirements.txtpip install --no-index --no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py38_cu113_pyt1121/download.html# Note the following modules. If installation is unsuccessful, you can navigate to the path and use pip install . or python setup.py install to compile and install.# NeRF/freqencoder# NeRF/gridencoder# NeRF/raymarching# NeRF/shencoder


数字人模型文件

我们提供预训练模型下载并测试

可以替换成自己训练的模型(https://github.com/Fictionarry/ER-NeRF)

.├── data│   ├── obama(user-defined)│       ├── transforms_train.json│       ├── au.csv      │       ├── ngp_kf.pth│       ├── template.npy(首次运行自动生成)│       ├── torso_imgs(仅全身推理时使用)│       ├── fullbody_imgs(仅全身推理时使用)


快速开始

python app.py

开启麦克风监听功能

python app.py --mike

如果访问不了huggingface,在运行前

export HF_ENDPOINT=https://hf-mirror.com

用浏览器打开http://127.0.0.1:8010/webrtc.html, 建立连接后, 在文本框提交任何文字。


如果项目对你有帮助,帮忙点个star。也欢迎感兴趣的朋友一起来完善该项目。








请到「今天看啥」查看全文


推荐文章