模块 API

ASR 和 TTS 引擎列表

XSwith AI 各模块引擎对应表

ALI(阿里)引擎列表

厂商引擎类别引擎名字 (engine)协议官方文档链接备注
阿里云 (Aliyun)ASRaliWebSocket实时语音识别经典智能语音交互,协议成熟稳定
TTSaliHTTP语音合成 API经典版 RESTful 接口
阿里百炼 (Bailian)ASRali_blWebSocket实时音频流识别适配 SenseVoice 等最新百炼模型
TTSali_blWebSocketCosyVoice 实时合成基于百炼平台的 CosyVoice 流式接口
通义千问 (Qwen)ASRali_qwenWebSocketQwen 实时语音识别Qwen 系列多模态识别专效接口
TTSali_qwenHTTPQwen 语音合成非流式,适合对延迟不敏感的高音质生成
TTSali_qwen_ttsWebSocketQwen 实时语音合成实时流式,Qwen3-TTS 私有化对接的首选参考协议

Tencent(腾讯)引擎列表

厂商引擎类别引擎名字 (engine)协议官方文档链接备注
腾讯云 (Tencent)ASRtencentWebSocket实时语音识别实时语音识别 (流式)
ASRtencent_asrHTTP一句话识别标准 HTTP 接口
TTStencentWebSocket实时语音合成实时语音合成 (流式)
TTStencent_ttsHTTP基础语音合成基础语音合成接口

Volcengine(火山)引擎列表

厂商引擎类别引擎名字 (engine)协议官方文档链接备注
火山引擎 (Volcengine)ASRvolcengineWebSocket语音识别 (流式)基础版实时语音识别
ASRvolcenginev3WebSocket实时语音识别-V3V3 协议实时流式识别
TTSvolcengineWebSocket单向流式-V1基础版语音合成 (单向流)
TTSvolcenginev3_uniWebSocket单向流式-V3V3 协议单向流式合成
TTSvolcenginev3WebSocket双向流式-V3V3 协议全双工实时合成

MiniMax 引擎列表

厂商引擎类别引擎名字 (engine)协议官方文档链接备注
MiniMaxTTSminimaxHTTP国内版 (V1)V1 版本流式合成接口
TTSminimaxv2_ttsHTTP国内版 (V2) / 国际版 (V2)V2 版本标准 HTTP 接口
TTSminimaxv2WebSocket国内版 (V2) / 国际版 (V2)V2 版本实时流式合成

Xunfei(讯飞) 引擎列表

厂商引擎类别引擎名字 (engine)协议官方文档链接备注
讯飞 (Xunfei)ASRxunfei_asr_shortWebSocket语音听写 (流式版)经典版:用于短语音识别
ASRxunfeiWebSocket实时语音转写经典版:用于长段音频实时转写
ASRxunfei_sparkWebSocket星火极速语音识别大模型版:星火 IAT 接口
ASRxunfei_spark2WebSocket星火实时语音识别大模型版:星火 RTASR 接口
ASRxunfei_nativeWebSocket暂无私有化部署引擎,本地化调用
TTSxunfeiWebSocket在线语音合成经典版:流式在线语音合成

Azure(微软) 引擎列表

厂商引擎类别引擎名字 (engine)协议官方文档链接备注
微软 (Azure)ASRazureSDK/WSSpeech to Text (SDK)基于 SDK 对接,支持语言检测等全量特性
ASRazure2WebSocket暂无官方文档直接对接 API,功能受限(无语言检测等)
TTSazureSDK/WSText to Speech (SDK)基于 SDK 对接,支持样式/发音控制等全量特性
TTSazure_ttsHTTPREST API (Streaming)标准 RESTful 接口,支持流式返回
TTSazure2WebSocket暂无官方文档直接对接 API,缺少事件回调/语音样式精细控制

Stepfun(阶跃) 引擎列表

厂商引擎类别引擎名字 (engine)协议官方文档链接备注
阶跃星辰 (Stepfun)TTSstepfun_ttsHTTP语音合成 (Standard)标准 RESTful 接口
TTSstepfunWebSocket语音合成 (Real-time)实时流式合成接口
TTS(语音合成)