※本ページはプロモーションが含まれています

今日のAI話

優秀なAIはどれだ? ChatGPT Gemini DeepSeek Claude に5つの試験


何をもって賢いか?

おそらく人もAIも比べる物差しによって大きく違っているはずです。

自分は、ChatGPTを使ってシステムの設計や構築をしていますが、半端なく賢く
新しいアイデアを持ってきてくれています。

しかし、競馬予想となると うううん!
「競馬新聞とあまり変わらない」

というわけでテクノロジー系メディアのTom's Guideが5つのAIについて試験をした結果がGigazineに掲載されていたのでご紹介いたします。

ChatGPTとGeminiとDeepSeekとClaudeで5つのテストをして最も優秀だったのはどのモデルなのか?

Gigazineより 2025年6月5日

GoogleのGeminiやChatGPTのOpenAI、OpenAIの元メンバーが設立したAnthropicのClaude、突如登場してAIの開発に対する業界の見方を大きく変えた中国のDeepSeekなど、さまざまなAIモデルが性能のアップデートを繰り返して覇権争いを続けています。Gemini、OpenAI、Claude、DeepSeekのどれが優れているのか、テクノロジー系メディアのTom's Guideが検証結果をまとめています。

I just tested the newest versions of Claude, Gemini, DeepSeek and ChatGPT — and the winner completely surprised me | Tom's Guide
https://www.tomsguide.com/ai/i-just-tested-the-newest-versions-of-claude-gemini-deepseek-and-chatgpt-and-the-winner-completely-surprised-me

Tom's Guideは、2025年6月初週時点の最新AIモデルであるClaude 4Gemini 2.5 ProDeepSeek R1GPT-4oのChatGPTを対象に、「推論と計画」「コーディングとデバッグ」「感情的知性」「実生活におけるサポート」「創造性」の5項目でテストして、各モデルの得意と不得意を調査しました。その上で、「最も総合的に優れているAI」を決定しています。

 

続きはこちらから👇

ChatGPTとGeminiとDeepSeekとClaudeで5つのテストをして最も優秀だったのはどのモデルなのか? - GIGAZINE
https://gigazine.net/news/20250605-ai-versions/

試験は、5項目

1:「推論と計画」
2:「コーディングとデバッグ」
3:「感情的知性」
4:「実生活におけるサポート」
5:「創造性」

詳しくは、記事を見ていただければ内容が記載されています。

それぞれ得意不得意分野や試験内容によって差が生じると思いますが、一応の判断材料にはなるかと思います。

AIとエンジニア

何十年とシステムの仕事に携わってきましたが、AIの導き出す 設計、ロジック、バグ修正など かなあり実用化されていると感じています。
作業工数は、「人が行うより 大きく短縮 しかも正確」です。

システムなどの仕事は、論理的思考が重要視されるのでAIにとっては、得意分野なのだろうと思います。
また、バグ修正などでは、間違ったコードを出しても指摘してあげれば 正しいコードを提案してくれています。

数千行のSQLをコンバートする作業があったのですが、人力では、読み解くのに何時間もかかりますが、AIならば 数十秒でかなり正解に近い答えを送ってくれています。
もはや、システム構築では、人よりAIで構築した方が数百倍もコストダウンになると思われます。

こうなると システムエンジニアの仕事など 数年先にはなくなってしまう可能性もあるでしょう。
40年以上前 「25x80緑色の文字のスクリーン」でCOBOLのオンラインシステムを十万行書いていた時代の自分を振り返ると
凄い時代になったと感慨深いものです。

あと数年で エンジニアだけではなく 多くの仕事がAIによって 取って代わられることは間違いないでしょう。
AIを使いこなせなないと 確実に仕事はなくなりますね

💭そのかわり 人はバカになる可能性も否定できない。

この先 どんな世界が待っているのだろうか?

「老い先短い自分ですが、どこまで進化するのか 見届けたい」
と思う今日この頃です。



-今日のAI話
-, , , ,