7.8K star 开源实时交互流式数字人引擎
⭐ 开源免费 · Apache-2.0LiveTalking 是一个实时交互流式数字人引擎,通过文本或语音驱动虚拟形象说话, 实现音视频同步对话。你只要在网页里打一句话,数字人就会立刻开口,口型与声音实时同步; 说到一半还能被打断、马上重说。结合大模型即可变成会聊天的 AI 数字人,已在业内广泛商用。
典型用途:虚拟主播 / 直播带货、AI 数字人客服、在线教育、大屏讲解、短视频批量制作。 核心流程为:用户输入文字 / 音频 → LLM 生成回复(可选)→ TTS 合成语音 → 数字人实时口型同步 → 音视频推流输出。
在 GitHub 搜索 LiveTalking 克隆项目,用 conda 创建环境并安装依赖:
conda create -n livetalking python=3.12
conda activate livetalking
# 按 nvidia-smi 的 CUDA 版本,到 PyTorch 官网选对应命令安装 torch
pip install -r requirements.txt
从「相关链接」里的网盘下载模型文件:
wav2lip256.pth 拷到项目 models/ 目录,重命名为 wav2lip.pthwav2lip256_avatar1.tar.gz 解压后整个文件夹拷到 data/avatars/ 目录运行启动命令(默认 WebRTC 推流,需开放 TCP:8010、UDP:1-65536):
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
打开服务的 index.html 首页,点「开始连接」播放数字人视频,
在文本框输入文字提交即可让数字人开口。还可访问 avatar.html 上传视频生成专属形象、
admin.html 监控会话与配置。
口型推理需要 GPU,wav2lip256 推荐 RTX 3060 及以上,musetalk 推荐 RTX 3080Ti 及以上。后端日志里 inferfps(推理帧率)和 finalfps(推流帧率)都需 ≥25 才算实时。
/human 接口支持 echo(直接复读)和 chat(LLM 对话)两种模式;TTS 模块化设计,支持 EdgeTTS、GPT-SoVITS、CosyVoice 等多种方案,按文档配置即可。
可以。除了低延迟的 WebRTC,还支持 RTMP 标准直播协议和虚拟摄像头输出。注意:基于本项目发布到各平台的视频需带上 LiveTalking 水印和标识。