機械学習で「ポケモン」を攻略する「Pokémon RL Edition」、DeepSeek-V3の6万分の1のパラメーター規模でクリアを実現

United States News News

機械学習で「ポケモン」を攻略する「Pokémon RL Edition」、DeepSeek-V3の6万分の1のパラメーター規模でクリアを実現
United States Latest News,United States Headlines
  • 📰 gigazine
  • ⏱ Reading Time:
  • 55 sec. here
  • 2 min. at publisher
  • 📊 Quality Score:
  • News: 25%
  • Publisher: 51%

1996年に発売された「ポケットモンスター 赤」のクリアをAIで目指すプロジェクト「Pokémon RL Edition」が、DeepSeek-V3よりも約6万分の1となるパラメーター規模のAIエージェントで「ポケモン赤」のクリアに成功したと報告しています。

強化学習を採用している理由は、「教師あり学習だと適切にラベル付けされた豊富なデータセットと大規模なモデルと予算が必要だから」とのこと。さまざまなアプローチを検討する上で、強化学習が最も魅力的だったとプロジェクトチームは述べています。また、AIが学習する際に何に最適化するかを決定するための報酬関数が明確ではないことも、強化学習が選択された理由となっています。 強化学習であれば、学習したデータはほぼ常に最新であり、複雑なデータ収集システムを構築したり、大規模なデータセットを管理したり、データセットが古くなっているかどうかを心配したりする必要はありません。新しいデータを即座に作成できるシステムを構築できれば、トレーニングを開始できます。 「ポケモン」では、クリアに必要なポケモンをゲットできない、クリアに必要なポケモンを手持ちに入れられない、アイテムを集めすぎてキーアイテム用のスペースが足りなくなる、ダメージを与えない技を持つポケモンだけを手持ちにする、といった「クリア不可能になるような状況」が発生するリスクがあります。 そこで、このプロジェクトではある環境になった時点でエージェントに特定のアクションを実行するようなスクリプトを組み込んでいるとのこと。プロジェクトチームは「私たちはスクリプトを使わずにクリアしたいと考えていましたが、いくつかの場面ではゲームから直接学習できない人間の直感が必要となります」とコメントしています。 プロジェクトチームによれば、特に難しかったのがサファリゾーンの攻略だったそうです。サファリゾーンでは、攻略に必須のアイテムとなる「きんのいれば」と「ひでんマシン03 なみのり」をゲットしなければなりません。入場料を支払えば何度も挑戦はできますが、制限歩数以内に正しいルートを見つけるのは至難の業だったとのこと。そこで、スクリプトを追加した上でサファリゾーンでの残り歩数に比例した報酬をゲットする方法を採用したところ、数千回の試行でようやくクリアすることができたとプロジェクトチームは報告しています。 プロジェクトチームは最終的に一応「ポケモン」をクリアできるエージェントを完成させることができたそうですが、記事作成時点では、すべてのスクリプトを無効にした状態でシステムがゲームをクリアできることを証明できるほど安定してクリアできる状態には至っていないとのこと。各スクリプトを個別に削除した状態でクリアを確認しているものの、一部のバグがあるため、解決するべき課題は残っているそうです。この記事のタイトルとURLをコピーする.

強化学習を採用している理由は、「教師あり学習だと適切にラベル付けされた豊富なデータセットと大規模なモデルと予算が必要だから」とのこと。さまざまなアプローチを検討する上で、強化学習が最も魅力的だったとプロジェクトチームは述べています。また、AIが学習する際に何に最適化するかを決定するための報酬関数が明確ではないことも、強化学習が選択された理由となっています。 強化学習であれば、学習したデータはほぼ常に最新であり、複雑なデータ収集システムを構築したり、大規模なデータセットを管理したり、データセットが古くなっているかどうかを心配したりする必要はありません。新しいデータを即座に作成できるシステムを構築できれば、トレーニングを開始できます。 「ポケモン」では、クリアに必要なポケモンをゲットできない、クリアに必要なポケモンを手持ちに入れられない、アイテムを集めすぎてキーアイテム用のスペースが足りなくなる、ダメージを与えない技を持つポケモンだけを手持ちにする、といった「クリア不可能になるような状況」が発生するリスクがあります。 そこで、このプロジェクトではある環境になった時点でエージェントに特定のアクションを実行するようなスクリプトを組み込んでいるとのこと。プロジェクトチームは「私たちはスクリプトを使わずにクリアしたいと考えていましたが、いくつかの場面ではゲームから直接学習できない人間の直感が必要となります」とコメントしています。 プロジェクトチームによれば、特に難しかったのがサファリゾーンの攻略だったそうです。サファリゾーンでは、攻略に必須のアイテムとなる「きんのいれば」と「ひでんマシン03 なみのり」をゲットしなければなりません。入場料を支払えば何度も挑戦はできますが、制限歩数以内に正しいルートを見つけるのは至難の業だったとのこと。そこで、スクリプトを追加した上でサファリゾーンでの残り歩数に比例した報酬をゲットする方法を採用したところ、数千回の試行でようやくクリアすることができたとプロジェクトチームは報告しています。 プロジェクトチームは最終的に一応「ポケモン」をクリアできるエージェントを完成させることができたそうですが、記事作成時点では、すべてのスクリプトを無効にした状態でシステムがゲームをクリアできることを証明できるほど安定してクリアできる状態には至っていないとのこと。各スクリプトを個別に削除した状態でクリアを確認しているものの、一部のバグがあるため、解決するべき課題は残っているそうです。この記事のタイトルとURLをコピーする

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

gigazine /  🏆 80. in JP

 

United States Latest News, United States Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

DeepSeek の学習手法、著作権侵害の可能性 ?DeepSeek の学習手法、著作権侵害の可能性 ?DeepSeek が開発した高性能LLM「DeepSeek」の学習手法が、OpenAIのAPI規約に違反する可能性があるとして、大きな議論を呼んでいます。DeepSeek は、OpenAI のモデルの出力結果を学習データとして使った「蒸留」手法を採用しており、この手法が著作権侵害となる可能性が指摘されています。
Read more »

スマホゲームのコントローラーとNintendo Switch有機ELモデルスマホゲームのコントローラーとNintendo Switch有機ELモデルBACKBONE One、Razer Wolverine V3 Tournament Edition、Nintendo Switch有機ELモデルの製品紹介です。
Read more »

中国株、ディープシークの登場でラリー続出へ ゴールドマン・サックス楽観中国株、ディープシークの登場でラリー続出へ ゴールドマン・サックス楽観DeepSeek(ディープシーク)のAI技術が目覚ましい進歩を見せ、中国の技術的進歩に対する楽観的な見方が広がりを見せている。ゴールドマン・サックスのストラテジストは、AIの成長と経済的利益に対する投資家心理が再評価され、中国株のラリーが続くと予想した。
Read more »

DeepSeekがさらに強化されたAIモデル「DeepSeek-R2」を2025年5月までに前倒しで発表か、さらにAPI利用料を最大75%割引きと発表DeepSeekがさらに強化されたAIモデル「DeepSeek-R2」を2025年5月までに前倒しで発表か、さらにAPI利用料を最大75%割引きと発表2025年1月に推論モデル「DeepSeek-R1」を発表して大きな注目を集めた中国のスタートアップであるDeepSeekは、次世代モデルとなる「DeepSeek-R2」のリリースを当初の予定から前倒しする可能性があるとロイターが報じました。また、DeepSeekはオフピークの時間帯にAPIプラットフォーム利用料を最大75%割り引きすることも発表しています。
Read more »

【Amazonスマイルセール】「Pokemon GO Plus+」とカビゴンのポケットティッシュマスコットのセットが登場【2025.2】【Amazonスマイルセール】「Pokemon GO Plus+」とカビゴンのポケットティッシュマスコットのセットが登場【2025.2】Amazonにて開催されているセール「AmazonスマイルSALE 新生活」の対象商品に、「Pokémon GO Plus+(ポケモン ゴー プラスプラス)」と、カビゴンポケットティッシュマスコットのセット商品が追加された。開催期間は3月4日23時59分まで。
Read more »

DeepSeekのコスト利益率は理論上1日あたり545%であることが明らかにDeepSeekのコスト利益率は理論上1日あたり545%であることが明らかに中国のAI企業であるDeepSeekが、自社で開発するAIモデル「DeepSeek-V3」と「DeepSeek-R1」の収益について、コストに対する利益率が理論上1日あたり最大545%であると明らかにしました。ただし、あくまでも「理論上」とのことで、実際の利益はもっと低くなると予想されます。
Read more »



Render Time: 2026-04-02 01:28:43