AIと人との対話が、ついに“自然”の領域になるか⁈
OpenAIが最新の音声対話モデル「gpt-realtime」と、正式版「Realtime API」を発表しました。
従来の複数工程を経る音声処理とは異なり、単一モデル・単一APIで応答する革新構造を実現することで
まるで友人と話すような快適さで、声の応答も直感的になるというのですが、海外の情報も合わせて現時点でわかっていることをまとめました。
目次
米国メディアの情報
-
Inc.
「以前のモデルより信頼性が高く、安価。音声会話のレスポンスが迅速で自然」と報じています。
また、入力トークンごとに約32ドル、出力で64ドルと前モデルより20%安い価格設定が注目されています。
DEV Community+11Inc.com+11Seeking Alpha+1136Kr -
SiliconAngle
OpenAIのモデルに対抗する形でMicrosoftも省性能志向のAI音声モデル「MAI-Voice-1」を投入
1GPUで1分の音声生成が高速かつ省リソースで現場効率が高い構造だと評価
SiliconANGLE -
Geeky Gadgets
GPT-realtimeの特長として、感情の込められた音調や多言語対応
非同期の関数呼び出し、SIPによる電話通話対応があると説明しています。
OpenAI Community+6Geeky Gadgets+6OpenAI+6
公式アカウントから
The Realtime API is officially out of beta and ready for your production voice agents!
We’re also introducing gpt-realtime—our most advanced speech-to-speech model yet—plus new voices and API capabilities:
🔌 Remote MCPs
🖼️ Image input
📞 SIP phone calling
♻️ Reusable prompts pic.twitter.com/fX5yvt0CDD— OpenAI Developers (@OpenAIDevs) August 28, 2025
GPT-Realtimeの技術的進化点
-
音声品質と柔軟性向上
CedarとMarinの新音声を含むアップデートで、話し方の抑揚や感情をより自然に再現
OpenAINeowin。 -
処理の統合化&低レイテンシ
以前は「話す → テキスト変換 → 応答 → 返答」が複数APIをまたぐ工程でしたが、GPT‑Realtimeでは単一モデルで直感的に対話完結
応答が早く、声のニュアンスも保ったまま処理されます。
Inc.com+2Geeky Gadgets+2 -
ベンチマーク性能向上
-
Big Bench Audio:**65.6% → 82.8%**へ大きく改善
-
MultiChallenge音声ベンチ:**20.6% → 30.5%**へ向上
-
ComplexFuncBench:**49.7% → 66.5%**とパフォーマンス急改善
36Kr+3Neowin+3OpenAI+3。
-
-
APIの拡張機能
-
遠隔MCPサーバー対応で柔軟なデータ連携
-
画像入力サポートにより多モーダルな応答が可能に
-
SIP電話を通じた通話対応で本格的な音声アプリが実現
OpenAIGeeky Gadgets。
-
公式動画も公開されています。
実用シーンでのインパクト
-
開発者による評価
Zillowでは、GPT‑Realtimeが暮らしの条件に応じた物件提案を“会話のようにスムーズに”提供する様子が紹介され、自然な音声対話の力を実感させるユースケースとして注目
Inc.com
音声理解力に注目
Gigazineに記事が掲載されています。
gpt-realtimeは音声理解力も以前より高まっており、電話番号などの英数字の検出精度は82.8%と、2024年12月以前のモデルの65.6%から大きく改善されています。
また、開発者はモデルに対して「特定の状況で何を言うべきか、何をすべきか・すべきでないか」といった行動規範を指示します。OpenAIはこうした指示を守ることに集中して改善を行い、指示順守精度を測るMultiChallenge音声ベンチマークで30.5%というスコアを記録しました。これは2024年12年の従来モデルが記録した20.6%から大幅に向上しています。
関数呼び出しでも、ComplexFuncBench Audio Function Callingベンチマークで66.5%のスコアを記録し、従来モデルの49.7%を大きく上回りました。
このほか、MCPサポートの有効化や画像入力のサポートなどの改善が加わっています。
詳しくは以下のリンク先から👇
OpenAIが最も先進的な音声対話モデル「gpt-realtime」を公開、「Realtime API」も正式版に - GIGAZINE
https://gigazine.net/news/20250829-openai-gpt-realtime/
まとめと今後の期待
ポイント | 内容 |
---|---|
音声自然度 | 感情や抑揚を含む人間味豊かな音声表現 |
応答速度 | 単一モデルによるリアルタイム音声処理 |
応用幅 | 画像, 電話, 多言語、MCP統合など豊富なAPI対応 |
開発者視点 | 低価格/高性能の音声対話導入ハードル低下 |
GPT-Realtimeは、従来の音声AIでは難しかった自然会話と柔軟性を兼ね備えた、まさに本格的な“音声AI時代”の幕開けと言えます。
教育、顧客サポート、ウェブサイトなど幅広い分野での革新が期待
そこで
気になる費用ですが以下のように発表されています。
音声入力トークンが100万件あたり32ドル(約4700円)
キャッシュ済み入力トークンは0.4ドル(約59円)
音声出力トークンは100万件あたり64ドル(約9400円)となっています。
正式発表を待ちましょう