模块 API
ASR 和 TTS 引擎列表
XSwith AI 各模块引擎对应表
ALI(阿里)引擎列表
| 厂商 | 引擎类别 | 引擎名字 (engine) | 协议 | 官方文档链接 | 备注 |
|---|---|---|---|---|---|
| 阿里云 (Aliyun) | ASR | ali | WebSocket | 实时语音识别 | 经典智能语音交互,协议成熟稳定 |
| TTS | ali | HTTP | 语音合成 API | 经典版 RESTful 接口 | |
| 阿里百炼 (Bailian) | ASR | ali_bl | WebSocket | 实时音频流识别 | 适配 SenseVoice 等最新百炼模型 |
| TTS | ali_bl | WebSocket | CosyVoice 实时合成 | 基于百炼平台的 CosyVoice 流式接口 | |
| 通义千问 (Qwen) | ASR | ali_qwen | WebSocket | Qwen 实时语音识别 | Qwen 系列多模态识别专效接口 |
| TTS | ali_qwen | HTTP | Qwen 语音合成 | 非流式,适合对延迟不敏感的高音质生成 | |
| TTS | ali_qwen_tts | WebSocket | Qwen 实时语音合成 | 实时流式,Qwen3-TTS 私有化对接的首选参考协议 |
Tencent(腾讯)引擎列表
| 厂商 | 引擎类别 | 引擎名字 (engine) | 协议 | 官方文档链接 | 备注 |
|---|---|---|---|---|---|
| 腾讯云 (Tencent) | ASR | tencent | WebSocket | 实时语音识别 | 实时语音识别 (流式) |
| ASR | tencent_asr | HTTP | 一句话识别 | 标准 HTTP 接口 | |
| TTS | tencent | WebSocket | 实时语音合成 | 实时语音合成 (流式) | |
| TTS | tencent_tts | HTTP | 基础语音合成 | 基础语音合成接口 |
Volcengine(火山)引擎列表
| 厂商 | 引擎类别 | 引擎名字 (engine) | 协议 | 官方文档链接 | 备注 |
|---|---|---|---|---|---|
| 火山引擎 (Volcengine) | ASR | volcengine | WebSocket | 语音识别 (流式) | 基础版实时语音识别 |
| ASR | volcenginev3 | WebSocket | 实时语音识别-V3 | V3 协议实时流式识别 | |
| TTS | volcengine | WebSocket | 单向流式-V1 | 基础版语音合成 (单向流) | |
| TTS | volcenginev3_uni | WebSocket | 单向流式-V3 | V3 协议单向流式合成 | |
| TTS | volcenginev3 | WebSocket | 双向流式-V3 | V3 协议全双工实时合成 |
MiniMax 引擎列表
| 厂商 | 引擎类别 | 引擎名字 (engine) | 协议 | 官方文档链接 | 备注 |
|---|---|---|---|---|---|
| MiniMax | TTS | minimax | HTTP | 国内版 (V1) | V1 版本流式合成接口 |
| TTS | minimaxv2_tts | HTTP | 国内版 (V2) / 国际版 (V2) | V2 版本标准 HTTP 接口 | |
| TTS | minimaxv2 | WebSocket | 国内版 (V2) / 国际版 (V2) | V2 版本实时流式合成 |
Xunfei(讯飞) 引擎列表
| 厂商 | 引擎类别 | 引擎名字 (engine) | 协议 | 官方文档链接 | 备注 |
|---|---|---|---|---|---|
| 讯飞 (Xunfei) | ASR | xunfei_asr_short | WebSocket | 语音听写 (流式版) | 经典版:用于短语音识别 |
| ASR | xunfei | WebSocket | 实时语音转写 | 经典版:用于长段音频实时转写 | |
| ASR | xunfei_spark | WebSocket | 星火极速语音识别 | 大模型版:星火 IAT 接口 | |
| ASR | xunfei_spark2 | WebSocket | 星火实时语音识别 | 大模型版:星火 RTASR 接口 | |
| ASR | xunfei_native | WebSocket | 暂无 | 私有化部署引擎,本地化调用 | |
| TTS | xunfei | WebSocket | 在线语音合成 | 经典版:流式在线语音合成 |
Azure(微软) 引擎列表
| 厂商 | 引擎类别 | 引擎名字 (engine) | 协议 | 官方文档链接 | 备注 |
|---|---|---|---|---|---|
| 微软 (Azure) | ASR | azure | SDK/WS | Speech to Text (SDK) | 基于 SDK 对接,支持语言检测等全量特性 |
| ASR | azure2 | WebSocket | 暂无官方文档 | 直接对接 API,功能受限(无语言检测等) | |
| TTS | azure | SDK/WS | Text to Speech (SDK) | 基于 SDK 对接,支持样式/发音控制等全量特性 | |
| TTS | azure_tts | HTTP | REST API (Streaming) | 标准 RESTful 接口,支持流式返回 | |
| TTS | azure2 | WebSocket | 暂无官方文档 | 直接对接 API,缺少事件回调/语音样式精细控制 |
Stepfun(阶跃) 引擎列表
| 厂商 | 引擎类别 | 引擎名字 (engine) | 协议 | 官方文档链接 | 备注 |
|---|---|---|---|---|---|
| 阶跃星辰 (Stepfun) | TTS | stepfun_tts | HTTP | 语音合成 (Standard) | 标准 RESTful 接口 |
| TTS | stepfun | WebSocket | 语音合成 (Real-time) | 实时流式合成接口 |