OpenAI Realtime 测试台 TTS · STT · 实时语音对话

API Key 未保存

提示：本页直接在浏览器调用 OpenAI 官方接口，需开启 VPN。Key 仅保存在本地，请使用可调用对应模型（speech / whisper / realtime）的密钥。

文本转语音 (Text-to-Speech)

调用 /v1/audio/speech。两种播放模式可切换：流式边生成边播、首音更快；完整模式等全部生成完毕再播。

① 完整生成后播放等整段音频生成完毕再播放（mp3/opus…，可下载） ② 流式播放 (PCM + Web Audio) 边接收 24kHz PCM 边用 AudioContext 播放，首音延迟低

当前：完整生成后播放 · 等 OpenAI 把整段音频生成完，再一次性播放。

输入文本

模型

音色

格式

语速 speed (0.25 ~ 4.0)

调用 /v1/audio/transcriptions，支持浏览器录音或上传音频文件。两种模式：整段一次性返回；流式边返回边显示（仅 gpt-4o-transcribe 系列，whisper-1 不支持流式）。

① 整段转录录完后一次性返回完整文本 ② 流式转录 (stream=true) 录完后边返回 transcript.text.delta 边显示

当前：整段转录 · 录完/选完文件后一次性返回结果。

模型

语言（可选，留空自动识别）

未录音

通过 WebRTC 连接 gpt-4o-realtime，全自动端点检测（VAD），可直接说话对话。

未连接

模型

音色

系统指令 instructions（AI 的人设 / 行为）

事件日志（收发的 Realtime 事件）