OpenAIは、インターネット上のマルチステップ検索を実行し、従来のAIモデルに見られない複雑な推論能力を持つ新型AI「Deep research」を発表しました。GAIAとHumanity's Last Examなどのベンチマークで、既存の言語モデルを大きく凌駕する性能を達成しています。
この課題を解決するための機能が、「Deep research」です。Deep researchはインターネット上で複数のステップを踏んだ検索を実行することができ、「コンテンツの発見」「コンテンツの統合」「情報についての推論」という3つの主要な機能を備えているとのこと。さらに、新しい情報を発見するたびに検索計画を動的に適応・更新する能力も持ち合わせているそうです。 Deep researchはo3推論モデルをベースに、エンドツーエンドの強化学習を通じて開発されたとのこと。これにより、モデルは複数のステップを踏む検索プロセスを計画・実行し、リアルタイムの情報に応じて軌道修正することができます。さらに、ユーザーがアップロードしたファイルの閲覧、Pythonツールを使用した計算や画像・プロット作成、ウェブサイトからの画像の埋め込みなども可能です。 モデルの性能について、Deep researchはCenter for AI SafetyとScale AIが公開した「 Humanity's Last Exam 」というベンチマークで26.6%の正確性を達成。GPT-4o(3.
3%)、Grok-2(3.8%)、Claude 3.5 Sonnet(4.3%)、Gemini Thinking(6.2%)、OpenAI o1(9.1%)、DeepSeek-R1(9.4%)、OpenAI o3-mini medium(10.5%)、OpenAI o3-mini high(13.0%)といった結果を大きく上回りました。OpenAIは、Deep researchの問題解決プロセスは、オンラインリサーチを活用する人間の思考プロセスと非常に似ていることを強調しています。 また、実世界の問題に対するAIの評価を行う「GAIA」というパブリックベンチマークで、Deep Researchは、推論能力、マルチモーダル機能、ウェブブラウジング、ツール使用の熟練度などを要する課題において、新たな最高記録を達成しました。具体的な数値として、Level 1では74.29%(pass@1)および78.66%(cons@64)、Level 2では69.06%(pass@1)および73.21%(cons@64)、Level 3では47.6%(pass@1)および58.03%(cons@64)を記録し、平均でそれぞれ67.36%と72.57%を達成しました。これは従来の最高記録である63.64%を上回る結果となっています。 OpenAIはDeep researchの革新的な特徴として、従来のモデルにあった応答時間の制約を完全に取り除いたことを挙げています。通常のモデルが比較的速い応答を返すのに対し、Deep researchは5分から30分という長い処理時間をかけることもあります。OpenAIはこの長い処理時間を、自律的なタスク実行の実現と汎用(はんよう)人工知能、すなわちAGI開発のロードマップにおける重要な進展として肯定的に捉えています。 Deep researchの出力は、アナリストや分野の専門家が作成するような、包括的で完全に引用付きの研究論文に相当するものとなるとOpenAIは評価。その用途は多岐にわたり、知識労働関連のタスクから、広範なウェブ検索が必要な作業まで対応可能で、特定の条件に合った商品の検索やプレゼンテーション用のコンテンツ作成などにも活用できると、OpenAIは述べています。ChatGPTに、「iOSとAndroidの導入率、言語学習希望者の割合、過去数年間のスマートフォン普及率の変化について、先進国と発展途上国の比較データを出力する」ように命令し、さらに「表を含むレポート形式での出力と最も有望な新興市場に関する明確な推奨事項」を要求します。プロンプトを入力したら、「Deep research」のボタンをクリック。ユーザーがこれらの質問に答えると、ChatGPTは調査を開始しました。その推論の経緯が右カラムに表示されます。 OpenAIは「Deep Researchは、様々な知識労働の分野で活用できます。市場調査だけでなく、物理学、コンピューターサイエンス、生物学などの学術分野でも利用可能です。調査過程はサイドバーに表示され、モデルの推論プロセスを確認することができます。モデルは実際にウェブページを開き、画像、表、PDFなどの様々なコンテンツを分析し、その情報を基に次の調査ステップを決定していきます」と述べています。 リリーススケジュールについては、まず2025年2月3日の発表時点でPro版でサービスを開始し、その後にPlus版、チーム版、教育機関向け、そしてエンタープライズ版へと順次サービスが展開されるとのことです
AI Openai Deep Research ウェブ検索 マルチステップ検索 推論 GAIA Humanity's Last Exam
United States Latest News, United States Headlines
Similar News:You can also read news stories similar to this one that we have collected from other news sources.
極寒配達ゲーム『Deep Snow Delivery』がSteamで正式発表Drenindokが開発する極寒配達ゲーム『Deep Snow Delivery』がSteamで正式発表されました。第二次世界大戦時の戦車に乗って、氷河期の世界で荷物の配達を行います。
Read more »
(共同リリース)インバウンド旅客を全道へ訪日外国人向け旅行購入サイト「FLY Deep Hokkaido」を立ち上げ(共同リリース)インバウンド旅客を全道へ訪日外国人向け旅行購入サイト「FLY Deep Hokkaido」を立ち上げ 日本航空株式会社のプレスリリース
Read more »
ソニーグループ門外不出のトレンドレポートが公開! 拡張するエンタテインメントの“ゆくえ”を探るトークイベント開催来たる1月28日(火)、ソニーグループ クリエイティブセンターが昨年末にリリースしたムック『SIGNALS Creative Research No.1』の刊行イベントが、代官山蔦屋書店にて開催される。ゲストには、同誌にも登場するYOASOBIプロデューサー・屋代陽平氏も登壇。貴重な機会をお見逃しなく!
Read more »
イベント・レポート ライブ ニュース記事一覧 | アニメ!アニメ!イベント・レポート ライブ ニュース記事一覧。アニメやマンガの情報やニュースを提供しています。特にアニメビジネスやアニメ産業、海外のアニメ事情・マンガ事情、アニメとマンガの情報を提供。Anime news, research, reviews and information.
Read more »
アジア最大のIT専門誌「CIOReview APAC」より、最も有望な日本のテックカンパニーTOP20としてAwardを受賞いたしましたアジア最大のIT専門誌「CIOReview APAC」より、最も有望な日本のテックカンパニーTOP20としてAwardを受賞いたしました Casley Deep Innovations株式会社のプレスリリース
Read more »
CES 2025(Consumer Electronics Show)に出展し、テレ東BIZの取材を受け、その模様が公開されましたCES 2025(Consumer Electronics Show)に出展し、テレ東BIZの取材を受け、その模様が公開されました Casley Deep Innovations株式会社のプレスリリース
Read more »
