OpenAIの「gpt‑realtime」登場｜もっと自然で低遅延な音声AI時代へ

AIと人との対話が、ついに“自然”の領域になるか⁈

OpenAIが最新の音声対話モデル「gpt-realtime」と、正式版「Realtime API」を発表しました。
従来の複数工程を経る音声処理とは異なり、単一モデル・単一APIで応答する革新構造を実現することで

まるで友人と話すような快適さで、声の応答も直感的になるというのですが、海外の情報も合わせて現時点でわかっていることをまとめました。

米国メディアの情報

Inc.
「以前のモデルより信頼性が高く、安価。音声会話のレスポンスが迅速で自然」と報じています。
また、入力トークンごとに約32ドル、出力で64ドルと前モデルより20%安い価格設定が注目されています。
DEV Community+11Inc.com+11Seeking Alpha+1136Kr
SiliconAngle
OpenAIのモデルに対抗する形でMicrosoftも省性能志向のAI音声モデル「MAI-Voice-1」を投入
1GPUで1分の音声生成が高速かつ省リソースで現場効率が高い構造だと評価
SiliconANGLE
Geeky Gadgets
GPT-realtimeの特長として、感情の込められた音調や多言語対応
非同期の関数呼び出し、SIPによる電話通話対応があると説明しています。
OpenAI Community+6Geeky Gadgets+6OpenAI+6

公式アカウントから

The Realtime API is officially out of beta and ready for your production voice agents!

We’re also introducing gpt-realtime—our most advanced speech-to-speech model yet—plus new voices and API capabilities:

🔌 Remote MCPs
🖼️ Image input
📞 SIP phone calling
♻️ Reusable prompts pic.twitter.com/fX5yvt0CDD

— OpenAI Developers (@OpenAIDevs) August 28, 2025

GPT-Realtimeの技術的進化点

音声品質と柔軟性向上
CedarとMarinの新音声を含むアップデートで、話し方の抑揚や感情をより自然に再現
OpenAINeowin。
処理の統合化＆低レイテンシ
以前は「話す → テキスト変換 → 応答 → 返答」が複数APIをまたぐ工程でしたが、GPT‑Realtimeでは単一モデルで直感的に対話完結
応答が早く、声のニュアンスも保ったまま処理されます。
Inc.com+2Geeky Gadgets+2
ベンチマーク性能向上
- Big Bench Audio：**65.6% → 82.8%**へ大きく改善
- MultiChallenge音声ベンチ：**20.6% → 30.5%**へ向上
- ComplexFuncBench：**49.7% → 66.5%**とパフォーマンス急改善
  36Kr+3Neowin+3OpenAI+3。
APIの拡張機能
- 遠隔MCPサーバー対応で柔軟なデータ連携
- 画像入力サポートにより多モーダルな応答が可能に
- SIP電話を通じた通話対応で本格的な音声アプリが実現
  OpenAIGeeky Gadgets。

公式動画も公開されています。

実用シーンでのインパクト

開発者による評価
Zillowでは、GPT‑Realtimeが暮らしの条件に応じた物件提案を“会話のようにスムーズに”提供する様子が紹介され、自然な音声対話の力を実感させるユースケースとして注目
Inc.com

音声理解力に注目

Gigazineに記事が掲載されています。

gpt-realtimeは音声理解力も以前より高まっており、電話番号などの英数字の検出精度は82.8％と、2024年12月以前のモデルの65.6％から大きく改善されています。

また、開発者はモデルに対して「特定の状況で何を言うべきか、何をすべきか・すべきでないか」といった行動規範を指示します。OpenAIはこうした指示を守ることに集中して改善を行い、指示順守精度を測るMultiChallenge音声ベンチマークで30.5％というスコアを記録しました。これは2024年12年の従来モデルが記録した20.6％から大幅に向上しています。

関数呼び出しでも、ComplexFuncBench Audio Function Callingベンチマークで66.5％のスコアを記録し、従来モデルの49.7％を大きく上回りました。

このほか、MCPサポートの有効化や画像入力のサポートなどの改善が加わっています。

詳しくは以下のリンク先から👇

OpenAIが最も先進的な音声対話モデル「gpt-realtime」を公開、「Realtime API」も正式版に - GIGAZINE
https://gigazine.net/news/20250829-openai-gpt-realtime/

まとめと今後の期待

ポイント	内容
音声自然度	感情や抑揚を含む人間味豊かな音声表現
応答速度	単一モデルによるリアルタイム音声処理
応用幅	画像, 電話, 多言語、MCP統合など豊富なAPI対応
開発者視点	低価格／高性能の音声対話導入ハードル低下

GPT-Realtimeは、従来の音声AIでは難しかった自然会話と柔軟性を兼ね備えた、まさに本格的な“音声AI時代”の幕開けと言えます。

教育、顧客サポート、ウェブサイトなど幅広い分野での革新が期待

そこで

気になる費用ですが以下のように発表されています。

音声入力トークンが100万件あたり32ドル(約4700円)
キャッシュ済み入力トークンは0.4ドル(約59円)
音声出力トークンは100万件あたり64ドル(約9400円)となっています。

正式発表を待ちましょう