※本ページはプロモーションが含まれています

今日のAI話

OpenAIの「gpt‑realtime」登場|もっと自然で低遅延な音声AI時代へ

AIと人との対話が、ついに“自然”の領域になるか⁈

OpenAIが最新の音声対話モデル「gpt-realtime」と、正式版「Realtime API」を発表しました。
従来の複数工程を経る音声処理とは異なり、単一モデル・単一APIで応答する革新構造を実現することで

まるで友人と話すような快適さで、声の応答も直感的になるというのですが、海外の情報も合わせて現時点でわかっていることをまとめました。

米国メディアの情報

  • Inc.
    「以前のモデルより信頼性が高く、安価。音声会話のレスポンスが迅速で自然」と報じています。
    また、入力トークンごとに約32ドル、出力で64ドルと前モデルより20%安い価格設定が注目されています。
    DEV Community+11Inc.com+11Seeking Alpha+1136Kr

  • SiliconAngle
    OpenAIのモデルに対抗する形でMicrosoftも省性能志向のAI音声モデル「MAI-Voice-1」を投入
    1GPUで1分の音声生成が高速かつ省リソースで現場効率が高い構造だと評価
    SiliconANGLE

  • Geeky Gadgets
    GPT-realtimeの特長として、感情の込められた音調や多言語対応
    非同期の関数呼び出しSIPによる電話通話対応があると説明しています。
    OpenAI Community+6Geeky Gadgets+6OpenAI+6

公式アカウントから


GPT-Realtimeの技術的進化点

  1. 音声品質と柔軟性向上
    CedarとMarinの新音声を含むアップデートで、話し方の抑揚や感情をより自然に再現
    OpenAI
    Neowin

  2. 処理の統合化&低レイテンシ
    以前は「話す → テキスト変換 → 応答 → 返答」が複数APIをまたぐ工程でしたが、GPT‑Realtimeでは単一モデルで直感的に対話完結
    応答が早く、声のニュアンスも保ったまま処理されます。
    Inc.com+2Geeky Gadgets+2

  3. ベンチマーク性能向上

    • Big Bench Audio:**65.6% → 82.8%**へ大きく改善

    • MultiChallenge音声ベンチ:**20.6% → 30.5%**へ向上

    • ComplexFuncBench:**49.7% → 66.5%**とパフォーマンス急改善
      36Kr+3Neowin+3OpenAI+3

  4. APIの拡張機能

    • 遠隔MCPサーバー対応で柔軟なデータ連携

    • 画像入力サポートにより多モーダルな応答が可能に

    • SIP電話を通じた通話対応で本格的な音声アプリが実現
      OpenAI
      Geeky Gadgets

公式動画も公開されています。

 

実用シーンでのインパクト

  • 開発者による評価
    Zillowでは、GPT‑Realtimeが暮らしの条件に応じた物件提案を“会話のようにスムーズに”提供する様子が紹介され、自然な音声対話の力を実感させるユースケースとして注目
    Inc.com

音声理解力に注目

Gigazineに記事が掲載されています。

gpt-realtimeは音声理解力も以前より高まっており、電話番号などの英数字の検出精度は82.8%と、2024年12月以前のモデルの65.6%から大きく改善されています。

また、開発者はモデルに対して「特定の状況で何を言うべきか、何をすべきか・すべきでないか」といった行動規範を指示します。OpenAIはこうした指示を守ることに集中して改善を行い、指示順守精度を測るMultiChallenge音声ベンチマークで30.5%というスコアを記録しました。これは2024年12年の従来モデルが記録した20.6%から大幅に向上しています。

関数呼び出しでも、ComplexFuncBench Audio Function Callingベンチマークで66.5%のスコアを記録し、従来モデルの49.7%を大きく上回りました。

このほか、MCPサポートの有効化や画像入力のサポートなどの改善が加わっています。

詳しくは以下のリンク先から👇

OpenAIが最も先進的な音声対話モデル「gpt-realtime」を公開、「Realtime API」も正式版に - GIGAZINE
https://gigazine.net/news/20250829-openai-gpt-realtime/


まとめと今後の期待

ポイント 内容
音声自然度 感情や抑揚を含む人間味豊かな音声表現
応答速度 単一モデルによるリアルタイム音声処理
応用幅 画像, 電話, 多言語、MCP統合など豊富なAPI対応
開発者視点 低価格/高性能の音声対話導入ハードル低下

GPT-Realtimeは、従来の音声AIでは難しかった自然会話と柔軟性を兼ね備えた、まさに本格的な“音声AI時代”の幕開けと言えます。

教育、顧客サポート、ウェブサイトなど幅広い分野での革新が期待

そこで

気になる費用ですが以下のように発表されています。

音声入力トークンが100万件あたり32ドル(約4700円)
キャッシュ済み入力トークンは0.4ドル(約59円)
音声出力トークンは100万件あたり64ドル(約9400円)となっています。

正式発表を待ちましょう

-今日のAI話
-,

Copyright© IT小僧の時事放談 , 2025 All Rights Reserved Powered by AFFINGER5.