update readme

This commit is contained in:
lihengzhong 2024-01-13 20:12:08 +08:00
parent 49d7446933
commit 5389761b06
1 changed files with 25 additions and 19 deletions

View File

@ -3,11 +3,11 @@ A streaming digital human based on the Ernerf model realize audio video synch
[![Watch the video]](/assets/demo.mp4) [![Watch the video]](/assets/demo.mp4)
## Installation ## 1. Installation
Tested on Ubuntu 18.04, Python3.10, Pytorch 1.12 and CUDA 11.3 Tested on Ubuntu 20.04, Python3.10, Pytorch 1.12 and CUDA 11.3
### Install dependency ### 1.1 Install dependency
```bash ```bash
conda create -n nerfstream python=3.10 conda create -n nerfstream python=3.10
@ -23,14 +23,14 @@ linux cuda环境搭建可以参考这篇文章 https://zhuanlan.zhihu.com/p/6749
参照 https://github.com/lipku/python_rtmpstream 参照 https://github.com/lipku/python_rtmpstream
## Run ## 2. Run
### 运行rtmpserver (srs) ### 2.1 运行rtmpserver (srs)
``` ```
docker run --rm -it -p 1935:1935 -p 1985:1985 -p 8080:8080 registry.cn-hangzhou.aliyuncs.com/ossrs/srs:5 docker run --rm -it -p 1935:1935 -p 1985:1985 -p 8080:8080 registry.cn-hangzhou.aliyuncs.com/ossrs/srs:5
``` ```
### 启动: ### 2.2 启动数字人
```python ```python
python app.py python app.py
@ -43,7 +43,7 @@ export HF_ENDPOINT=https://hf-mirror.com
运行成功后用vlc访问rtmp://serverip/live/livestream 运行成功后用vlc访问rtmp://serverip/live/livestream
### 网页端数字人播报输入文字 ### 2.3 网页端数字人播报输入文字
安装并启动nginx 安装并启动nginx
``` ```
apt install nginx apt install nginx
@ -52,24 +52,20 @@ nginx
修改echo.html中websocket和视频播放地址将serverip替换成实际服务器ip 修改echo.html中websocket和视频播放地址将serverip替换成实际服务器ip
然后将echo.html和mpegts-1.7.3.min.js拷到/var/www/html下 然后将echo.html和mpegts-1.7.3.min.js拷到/var/www/html下
启动数字人
```python
python app.py
```
用浏览器打开http://serverip/echo.html在文本框输入任意文字,提交。数字人播报该段文字 用浏览器打开http://serverip/echo.html, 在文本框输入任意文字,提交。数字人播报该段文字
### docker运行 ## 3. Docker Run
先运行srs和nginx 不需要第1步的安装直接运行。
启动数字人
``` ```
docker run --gpus all -it --network=host --rm registry.cn-hangzhou.aliyuncs.com/lipku/nerfstream:v1.2 docker run --gpus all -it --network=host --rm registry.cn-hangzhou.aliyuncs.com/lipku/nerfstream:v1.3
``` ```
srs和nginx的运行同2.1和2.3
## Data flow ## 4. Data flow
![](/assets/dataflow.png) ![](/assets/dataflow.png)
## 数字人模型文件 ## 5. 数字人模型文件
可以替换成自己训练的模型(https://github.com/Fictionarry/ER-NeRF) 可以替换成自己训练的模型(https://github.com/Fictionarry/ER-NeRF)
```python ```python
. .
@ -80,7 +76,17 @@ docker run --gpus all -it --network=host --rm registry.cn-hangzhou.aliyuncs.com
``` ```
## TODO ## 6. 性能分析
1. 帧率
在Tesla T4显卡上测试整体fps为18左右如果去掉音视频编码推流帧率在20左右。用4090显卡应该能达到25帧欢迎有显卡资源的同学提供数据。
优化:新开一个线程运行音视频编码推流
2. 延时
整体延时5s多
1tts延时2s左右目前用的edgetts需要将每句话转完后一次性输入可以优化tts改成流式输入
2wav2vec延时1s多需要缓存50帧音频做计算可以通过-m设置context_size来减少延时
3srs转发延时设置srs服务器减少缓冲延时
## 7. TODO
- 添加chatgpt实现数字人对话 - 添加chatgpt实现数字人对话
- 声音克隆 - 声音克隆
- 数字人静音时用一段视频代替 - 数字人静音时用一段视频代替