LiveTalking 使用教程

📖 项目简介

LiveTalking 是一个实时交互流式数字人引擎，通过文本或语音驱动虚拟形象说话，实现音视频同步对话。你只要在网页里打一句话，数字人就会立刻开口，口型与声音实时同步；说到一半还能被打断、马上重说。结合大模型即可变成会聊天的 AI 数字人，已在业内广泛商用。

典型用途：虚拟主播 / 直播带货、AI 数字人客服、在线教育、大屏讲解、短视频批量制作。核心流程为：用户输入文字 / 音频 → LLM 生成回复（可选）→ TTS 合成语音 → 数字人实时口型同步 → 音视频推流输出。

📎 相关链接与下载地址（点击展开）

GitHub 项目： github.com/lipku/LiveTalking
国内镜像： gitee.com/lipku/LiveTalking
官方文档： doc.livetalking.ai
模型下载（夸克网盘）： pan.quark.cn/s/83a750323ef0
更多教程：关注公众号 / 抖音 / 视频号「IT小圈」

✨ 核心亮点

🧠

多种数字人模型

wav2lip、musetalk、ernerf、Ultralight 任选

👄

实时口型同步

文字/语音驱动，音视频同步对话

✋

支持打断重说

说话被打断后立刻重新作答

🎙️

声音克隆

用你自己的音色配音

📡

多种推流输出

WebRTC / RTMP / 虚拟摄像头

👥

多并发 + 自定义形象

上传视频即可生成专属数字人

🚀 如何使用

💡

已在 Ubuntu 22.04、Python 3.12、PyTorch 2.9.1、CUDA 13.0 测试通过。推荐使用 RTX 3060 及以上显卡运行 wav2lip256。

安装依赖

在 GitHub 搜索 LiveTalking 克隆项目，用 conda 创建环境并安装依赖：

                        bash
                        conda create -n livetalking python=3.12
conda activate livetalking
# 按 nvidia-smi 的 CUDA 版本，到 PyTorch 官网选对应命令安装 torch
pip install -r requirements.txt
                    

下载模型

从「相关链接」里的网盘下载模型文件：

把 wav2lip256.pth 拷到项目 models/ 目录，重命名为 wav2lip.pth
把 wav2lip256_avatar1.tar.gz 解压后整个文件夹拷到 data/avatars/ 目录

启动服务

运行启动命令（默认 WebRTC 推流，需开放 TCP:8010、UDP:1-65536）：

                        bash
                        python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
                    

浏览器接入

打开服务的 index.html 首页，点「开始连接」播放数字人视频，在文本框输入文字提交即可让数字人开口。还可访问 avatar.html 上传视频生成专属形象、 admin.html 监控会话与配置。

❓ 常见问题

Q: 没有 GPU 能跑吗？

口型推理需要 GPU，wav2lip256 推荐 RTX 3060 及以上，musetalk 推荐 RTX 3080Ti 及以上。后端日志里 inferfps（推理帧率）和 finalfps（推流帧率）都需 ≥25 才算实时。

Q: 怎么接入大模型实现智能对话？

/human 接口支持 echo（直接复读）和 chat（LLM 对话）两种模式；TTS 模块化设计，支持 EdgeTTS、GPT-SoVITS、CosyVoice 等多种方案，按文档配置即可。

Q: 可以推流到 B站 / 抖音直播吗？

可以。除了低延迟的 WebRTC，还支持 RTMP 标准直播协议和虚拟摄像头输出。注意：基于本项目发布到各平台的视频需带上 LiveTalking 水印和标识。