※本ページはプロモーションが含まれています

今日のAI話

Claude Sonnet 5登場 上位モデル級の実力が半額以下に 何がどう変わったのか徹底解説

2026年6月30日(米国時間)、AI開発企業のAnthropic(アンソロピック)が新しいAIモデル「Claude Sonnet 5」を正式リリースしました。無料プランとProプランでは標準モデルとして即日利用可能になっています。

今回の目玉はひとことで言うと「上位モデル並みの実力を、半額以下で」です。それも単に賢くなっただけではなく、「仕事を最後までやり遂げる力」に振り切って強化されています。

本記事では、公式発表と米国のAI関連メディアの報道をもとに、「何がどう変わったのか」「どこに特化しているのか」を、AIにあまり詳しくない方にもわかるように整理します。

Claude Sonnet 5とは何か まず立ち位置を整理

Anthropicのモデルには、大きく分けて3つのクラスがあります。高性能で高価格な「Opus(オーパス)」、バランス型の「Sonnet(ソネット)」、軽量で安価な「Haiku(ハイク)」です。自動車で例えるなら、高級車・普通車・軽自動車のような関係です。

今回登場したのは、その中間クラスである普通車の最新型です。ところが実力を測ってみると、「高級車にかなり迫る走りを、普通車の価格で実現してしまった」というのが今回の発表の核心です。

実際、公式発表では上位モデルOpus 4.8に性能が「近い」と明言されており、米メディアも「Near-Opus(ほぼ上位モデル級)」という見出しで報じています。

最大の変化は「エージェント性能」への特化

今回の強化ポイントを一言でいえばエージェント(自律的に仕事をこなすAI)性能への特化です。

「エージェント」という言葉は聞き慣れないかもしれませんが、要するに「質問に答えるだけのAI」から「指示を受けたら、自分で計画を立て、ブラウザや開発ツールなどの道具を使いこなし、最後までやり遂げるAI」への進化のことです。優秀な新人アシスタントを想像してください。「これ調べておいて」と頼むと、途中で手が止まることなく、確認作業まで済ませて報告してくれる。そういう方向の進化です。

公式発表によれば、数か月前なら大型で高価な上位モデルが必要だった水準の自律作業を、この中間クラスでこなせるようになったとのこと。先行利用したパートナー企業からは、次のような声が紹介されています。

・従来のモデルなら途中で止まっていた複雑なタスクを、最後まで完了させる

・頼んでいないのに、自分の成果物を自分で点検する

・不具合調査を頼んだら、再現テストの作成、修正、修正を外して不具合が再発することの確認まで一気通貫でやってのけた

つまり「賢さの絶対値」よりも「仕事の完遂率」を上げてきた、というのが今回の本質です。

数字で見る実力 前モデルと他社モデルとの比較

米メディアが報じたベンチマーク(性能測定テスト)のうち、エージェント的コーディング(自律的なプログラミング作業)の結果が象徴的です。

モデル スコア 位置づけ
Sonnet 5(新) 63.2% 今回の新モデル
Opus 4.8 69.2% 同社の上位モデル
Sonnet 4.6 58.1% 前モデル(2026年2月)
GPT-5.4 59.1% 他社の競合モデル
Gemini 3.1 Pro 46.1% 他社の競合モデル

前モデルから5ポイント以上の伸びで、他社の同クラス競合を上回り、自社の上位モデルとの差は約6ポイントまで縮まりました。さらに注目すべきは、書類作成や調査といったナレッジワーク(知識労働)系のテストでは、上位モデルをわずかに上回る結果すら出ている点です。中間クラスが一部の領域で最上位を食ってしまったわけです。

価格戦略 8月末まで「お試し割引」という異例の一手

開発者向けAPI(外部プログラムからAIを呼び出す仕組み)の料金も戦略的です。今回、同社としては異例の「導入期間限定価格」が設定されました。

区分 入力(100万トークンあたり) 出力(100万トークンあたり)
導入価格(8月31日まで) 2ドル 10ドル
通常価格(9月以降) 3ドル 15ドル
上位モデルOpus 4.8(参考) 5ドル 25ドル

上位モデルに迫る性能を、導入期間中は6割引き、通常価格でも4割引きで使えるという計算になります。米メディアの取材に対し同社の広報担当者は「移行期間中に、できるだけ低いコストで実際の業務に対して試してほしい」と説明しており、まさに「まず使わせて、手放せなくさせる」王道の拡販戦略です。なお、テストの結果、GPT-5.5やGemini 3.1 Proより安価という報道もあります。

安全性も強化 うっかり間違い・お世辞体質が減った

性能だけでなく、安全面の改善も報告されています。具体的には次の3点です。

1つ目は、ハルシネーション(もっともらしい嘘の生成)の割合が前モデルより低下したこと。2つ目は、ユーザーに過度に同調してしまう「お世辞体質(シコファンシー)」が減ったこと。3つ目は、外部から埋め込まれた不正な指示に乗せられてしまう「プロンプトインジェクション」と呼ばれる乗っ取り手口への耐性が向上したことです。

エージェントとして自律的に動き回るAIは、それだけ「騙されたとき」の被害も大きくなります。自律性を上げるなら安全性もセットで、という設計思想は理にかなっています。なお、危険な用途を検知して遮断する保護機能は標準で有効化されていますが、政府との調整で一時停止騒動になった最上位クラスのFable 5ほど厳格ではない、と報じられています。

誰がどう使えるのか

一般ユーザーにとって重要なのは、無料プランでもこの新モデルが標準で使えるという点です。チャット画面を開けば、特別な設定なしで恩恵を受けられます。Proプランでも標準モデルとなり、MaxやTeam、Enterpriseの各プランでも選択可能です。

開発者は、コマンドラインから使えるコーディング支援ツールClaude Codeや、APIから利用できます。また、より高い処理量に対応するため、各サービスの利用上限も引き上げられたとのことです。

発表の裏側 規制解除とIPOという2つの文脈

今回の発表には、興味深い背景が2つあります。

1つは、米商務省が最上位クラスの2モデル(Fable 5とMythos 5)に課していた輸出規制を解除し、約2週間半ぶりにアクセスが復旧するタイミングと重なったこと。国家安全保障上の懸念から止められていたモデル群が戻ってくるのと同時に、普及帯の新モデルを投入した形です。

もう1つは、同社が株式上場(IPO)へ向かっているという報道です。米メディアは、約1兆ドル(およそ150兆円規模)という評価額での上場を見据え、コスト意識の高い企業顧客を取り込むための戦略的な値付けだと分析しています。

IT小僧のひとこと

今回いちばん刺さったのはベンチマークの数字ではなく、先行ユーザーの「頼んでいないのに自分の成果物を自分で点検する」という証言だ。

金融システムの現場では、作った本人によるセルフチェックと、再現手順の確認は「言われなくてもやる」のが当たり前だった。それをやらない人間は、どれだけコードが書けても現場では信用されない。AIも同じ段階に来た、ということだ。「賢いが詰めが甘い部下」から「最後まで確認して報告してくる部下」への進化は、実務では性能数値の5ポイント差より遥かに大きい。

一方で、期間限定の割引価格には注意したい。9月以降は5割の値上げが確定している。お試し価格で業務フローに組み込んでしまえば、値上げ後も抜けられない。金融の世界で言う「ロックイン」の教科書的な手口だ。乗るなら、値上げ後のコストで採算計算をしてから。これは鉄則である。

-今日のAI話
-, , , , , ,

Copyright© IT小僧の時事放談 , 2026 All Rights Reserved Powered by AFFINGER5.