LiveTalking 使用教程

7.8K star 开源实时交互流式数字人引擎

⭐ 开源免费 · Apache-2.0

📖 项目简介

LiveTalking 是一个实时交互流式数字人引擎,通过文本或语音驱动虚拟形象说话, 实现音视频同步对话。你只要在网页里打一句话,数字人就会立刻开口,口型与声音实时同步; 说到一半还能被打断、马上重说。结合大模型即可变成会聊天的 AI 数字人,已在业内广泛商用。

典型用途:虚拟主播 / 直播带货、AI 数字人客服、在线教育、大屏讲解、短视频批量制作。 核心流程为:用户输入文字 / 音频 → LLM 生成回复(可选)→ TTS 合成语音 → 数字人实时口型同步 → 音视频推流输出。

核心亮点

🧠
多种数字人模型
wav2lip、musetalk、ernerf、Ultralight 任选
👄
实时口型同步
文字/语音驱动,音视频同步对话
支持打断重说
说话被打断后立刻重新作答
🎙️
声音克隆
用你自己的音色配音
📡
多种推流输出
WebRTC / RTMP / 虚拟摄像头
👥
多并发 + 自定义形象
上传视频即可生成专属数字人

🚀 如何使用

💡
已在 Ubuntu 22.04、Python 3.12、PyTorch 2.9.1、CUDA 13.0 测试通过。推荐使用 RTX 3060 及以上显卡运行 wav2lip256。
1

安装依赖

在 GitHub 搜索 LiveTalking 克隆项目,用 conda 创建环境并安装依赖:

bash conda create -n livetalking python=3.12 conda activate livetalking # 按 nvidia-smi 的 CUDA 版本,到 PyTorch 官网选对应命令安装 torch pip install -r requirements.txt
2

下载模型

从「相关链接」里的网盘下载模型文件:

  • wav2lip256.pth 拷到项目 models/ 目录,重命名为 wav2lip.pth
  • wav2lip256_avatar1.tar.gz 解压后整个文件夹拷到 data/avatars/ 目录
3

启动服务

运行启动命令(默认 WebRTC 推流,需开放 TCP:8010、UDP:1-65536):

bash python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
4

浏览器接入

打开服务的 index.html 首页,点「开始连接」播放数字人视频, 在文本框输入文字提交即可让数字人开口。还可访问 avatar.html 上传视频生成专属形象、 admin.html 监控会话与配置。

常见问题

Q: 没有 GPU 能跑吗?

口型推理需要 GPU,wav2lip256 推荐 RTX 3060 及以上,musetalk 推荐 RTX 3080Ti 及以上。后端日志里 inferfps(推理帧率)和 finalfps(推流帧率)都需 ≥25 才算实时。

Q: 怎么接入大模型实现智能对话?

/human 接口支持 echo(直接复读)和 chat(LLM 对话)两种模式;TTS 模块化设计,支持 EdgeTTS、GPT-SoVITS、CosyVoice 等多种方案,按文档配置即可。

Q: 可以推流到 B站 / 抖音直播吗?

可以。除了低延迟的 WebRTC,还支持 RTMP 标准直播协议和虚拟摄像头输出。注意:基于本项目发布到各平台的视频需带上 LiveTalking 水印和标识。