OpenAI、実業務を模したタスクでAIモデルの性能を評価、最先端モデルは人間に迫る成果

📆 9/25/2025 10:42 PM

テクノロジー News

Openai, AI, GPT-4O

📆 9/25/2025 10:42 PM
📰 gigazine

⏱ Reading Time:
25 sec. here
7 min. at publisher
📊 Quality Score:
News: 30%
Publisher: 51%

OpenAIが、法律文書作成など実業務を模したタスクでAIモデルの性能を評価。GPT-4o、Claude Opus 4.1など最先端モデルは人間に迫る成果を出し、高速かつ低コストでのタスク完了が可能であると強調。ただし、実際の環境での利用には人間の監視が必要。

タスクは、法律文書、設計図、カスタマーサポートの会話、看護ケア計画といった実際の業務成果物を参考に設計され、当該分野で平均14年以上の経験を持つ専門家によって綿密に作成・検証されています。「あなたは自動車組立ラインの製造エンジニアです。製品は地下鉱山作業用ケーブル巻き取りトラックであり、製品の最終テストを実施しなければなりません。最終テストでは、ケーブル巻き取りが要求通り機能することをチェックするため、大型ケーブルスプールを2回巻き取り・巻き戻す必要があります。現行の作業では、このテストに2名の作業員が必要です。1人目はスプールを試験装置近くに運んで位置決めし、2人目はケーブルスプールの開放端を試験装置に接続し、巻き取りを開始します。ケーブルがスプールから巻き出されトラックに巻き取られる間、1人目は巻き出しを円滑にするためスプールを回転させる必要があります。ケーブルがトラックへ完全に巻き取られた後、次のステップでは逆順で操作を行い、ケーブルをトラックから巻き戻して元のリールに戻します。このテストは2回実施されます。作業は複雑で、リスクが想定され、労力を必要とします。ここで、上司から、ケーブルの巻き取り・巻き出しを簡素化し、テストを1人で実施できるようにする器具の開発が指示されました。この指示には、器具のサイズ、設計情報、成果物の構成に関する情報文書が付属しています。あなたは、3Dモデリングソフトで器具を設計し、Microsoft PowerPointでプレゼンテーションを作成してください。成果物として、作成した3D設計のスナップショットを用いた設計概要PDF文書のみをアップロードする必要があり、3D設計ファイルの提出は不要です」 OpenAIは「従来のベンチマークとは異なり、GDPvalのタスクは単純なテキストプロンプトだけで実施するものではありません。添付ファイルや、タスクに関する文脈が付属し、AIに期待する成果物は文書、スライド、図表、スプレッドシートなど多岐にわたります」と説明しています。初期のテストで、GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.

1、Gemini 2.5 Pro、Grok 4の成果物と、人間が生成した成果物を比較するブラインド評価が実施されています。 AIが人間に勝ったと見なされた成果物の割合と、引き分けと見なされた成果物の割合がモデル別に示されています。ほとんどのモデルは人間に負けたということですが、Claude Opus 4.1など一部の最先端モデルは人間に迫る成果物を生成していました。性能面では、2024年春リリースのGPT-4oと2025年夏リリースのGPT-5を比較して2倍以上の差があることから、たった数年で記録が塗り替えられる可能性も期待できるとされています。 OpenAIは、「最先端モデルは専門家と比べて約100倍高速かつ100倍低コストで完了できる」という点を強調しました。ただし、実際の環境で成果物を活用する際に必要な人間の監視、再現といった処理はAIの速度および価格に含んでいないとも付け加えられています。OpenAIは「それでも、各モデルが得意とするタスクにおいては、人間が試す前にAIへ任せることで、時間と費用を節約できると予想されます」と述べました。

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

Openai AI GPT-4O Claude Opus 4.1 モデル評価

Write Comment

United States Latest News, United States Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

経営課題化するAIガバナンスに対応：Citadel AI、Global AI Assurance Sandboxに参画経営課題化するAIガバナンスに対応：Citadel AI、Global AI Assurance Sandboxに参画株式会社Citadel AIのプレスリリース
Read more »

経営課題化するAIガバナンスに対応：Citadel AI、Global AI Assurance Sandboxに参画株式会社Citadel AICitadel AIは、日本のAI検証ソフトウェア事業者として初めて、シンガポールのIMDA (情報通信メディア開発庁)とAI Verify Foundationが推進する「|a…
Read more »

AI inside、誤りを検知するAI「Critic Intelligence」を独自開発しDX Suite に実装― データチェック工程の自動化を実現AI inside、誤りを検知するAI「Critic Intelligence」を独自開発しDX Suite に実装― データチェック工程の自動化を実現 AI inside 株式会社のプレスリリース
Read more »

ソフトバンクグループ、OpenAI、OracleがStargateのAIインフラ拡大を発表ソフトバンクグループは、OpenAIおよびOracleと共同で、大規模AIインフラストラクチャプラットフォーム「Stargate」の新たな展開を発表。米国に5つの新たなAIデータセンター拠点を設け、総額5000億ドル、10GW規模の投資コミットメントを2025年末までに達成予定。テキサス州アビリーンの旗艦拠点等と合わせ、Stargate全体で約7GW規模の計画容量となり、今後3年間で4000億ドルを超える投資が見込まれる。2.5万人を超える現地雇用、米国内で数万人規模の雇用創出も期待される。
Read more »

OpenAI、新機能「ChatGPT Pulse」発表先回りして情報を届けるAIへOpenAIは、新機能「ChatGPT Pulse」を発表した。従来の反応型と異なり、ユーザーの履歴や連携アプリの情報を基に、翌日に必要な情報をプロアクティブに届ける。まずはモバイルのProユーザー向けにプレビュー提供される。
Read more »

OpenAI、AIの経済的価値を測る新指標「GDPval」発表トップ性能はClaudeOpenAIは、AIの経済的価値を測る新ベンチマーク「GDPval」を発表した。44職種の現実的なタスクで人間の専門家と比較したところ、競合のClaude Opus 4.1が最高性能を示し、AIの品質が人間に迫っていることが判明したとしている。
Read more »