『学マス』AIによってリリース前にレッスンを10億回、人力なら1900年分の検証を実現。バランスブレイカーを効率的に見つけ出すAI学習とデッキ探索【CEDEC2024】

📆 8/21/2024 5:05 AM

United States News News

United States Latest News,United States Headlines

📆 8/21/2024 5:05 AM
📰 famitsu

⏱ Reading Time:
191 sec. here
5 min. at publisher
📊 Quality Score:
News: 80%
Publisher: 63%

2024年8月21日から23日にかけて開催している“CEDEC2024”初日より、“『学園アイドルマスター』における適応的ゲームAIとグレーボックス最適化を用いたバランス調整支援システムの実現”のセッションの内容をお届けする。

管理コンソールではメタデータのみを管理し、モデルの実体はMLワークフローに特化した、W＆B（Weights＆Biases）プラットフォームに保持。学習の開始もこの画面から行い、たとえば転移学習を実行する際はベースにするモデルを選択し、学習を実行する。本作のレッスンのコアとなるカードゲームロジックは、Unityリポジトリで開発されている。このコアロジックは“.NETランタイム”でも動かせるように、Unityに依存しないC#言語のみで実装されており、独立した.

NETアプリケーション用のリポジトリに同期して処理を呼び出せる。まず、モデルが何を学習したのかわかりづらい。この機能では、学習実行時のマスターデータ情報から学習させたスキルカードやPアイテムの状態を正確に把握するのに手間がかかる。この課題に対して、学習済みのモデル一覧画面や学習実行前にベースにしたモデルと学習内容の差分を視覚的にわかりやすく表示する機能を実装した。本作のスキルカードやPアイテムのマスターデータは数十個のテーブルから構成されており、効果内容に関係のない情報も多く含まれるため、そのまま比較するのは現実的ではない。そこで注目したのは“効果説明文”だ。本作のすべての効果説明文は、関連するマスターデータの設定から自動生成される仕組みになっている。つまり、効果内容に関する調整を行うと確実に効果説明文にも差分が現れるようになっており、単一の文字列化することができるため、規格処理を容易に実装することができた。扱いにくいポイントのふたつめは、モデルの強さがわかりづらい点。バランス調整のフローでモデルがうまくレッスンをプレイできない状態になっていた場合、デッキ探索のシミュレーション結果を信用することができなくなってしまう。この課題に対しては、モデルの強さを評価して可視化する機能を実装して解決したという。この機能では転移学習モデルによるレッスンプレイと、モンテカルロ木探索（※）によるレッスンプレイのスコアを比較し、可視化する。モンテカルロ木探索はレッスンプレイに時間がかかる代わりに学習を必要とせず、比較的精度の高いスコアを出せる手法として採用したとのこと。 ※モンテカルロ木探索：ランダム性を用いることで途中不要な探索をやめ、ある程度の高確率でいい手を導くという探索アルゴリズム。囲碁やチェスのつぎの手の決定や、相手の手の内がすべててわかるわけではない対戦ゲームなどに用いられる。本作開発におけるデッキ探索実行機能では、学習済みのスクラッチ学習モデル、または転移学習モデルを選択し、デッキ探索を実行する。こちらは学習機能と同様に、.NETとpythonのアプリケーションを連携で処理していく。デッキ探索機能のインフラは、Google CloudのCloud RunとBatchを中心としたサーバーレスアーキテクチャで構成。管理コンソールはCloud Runで稼働しており、デッキ探索処理は、.NETとpythonパイソンのランタイムを搭載した単一のマルチプロセスコンテナをBatchに配置して動かしている。シミュレーション結果の確認には、Googleスプレッドシートを利用している。BigQueryに蓄積したログは、スプレッドシートのデータコネクターを使って同期しており、プランナーが扱い慣れているスプレッドシート上でデータを任意に加工し、分析することができる。上記のバランス調整支援システムを導入した効果についても、具体的に紹介された。このシステムはサービス開始前から運用されており、サービス開始の時点で1億パターン以上のデッキのシミュレーションを実施していたという。レッスンプレイ回数の合計は10億回以上になり、これは人間が1回1分でプレイした場合、1900年かかる計算になるという。シミュレーションをくり返す中で、たとえば上位にランクインするデッキが特定のスキルカードだらけになるパターンや、特定のスキルカードの組み合わせで擬似的に無限ループを発生させられてしまうパターンが検出されており、実際にシミュレーション結果を見たあとに効果調整が行なわれた。また、約200件のバグの検出にも役立ったという。まず大前提として、本作のレッスンとはプロデュース中に現れるターン制のひとりプレイカードゲームであり、スキルカードを使用してアイドルのパラメーターを上昇させ、決められたターン数以内にレッスン目標を達成することでクリアーとなる。プレイヤーには手札や山札のカードの効果を考えながら、どのカードを選択するか適切なプレイが求められる。本作のレッスンAIは、デッキ探索においてデッキを評価し、期待スコアを計算するのに使用。したがって、探索の過程であらゆるレッスン設定、デッキ設定でうまくプレイできるかを検証する。また、探索システムではくり返し膨大な数のレッスンをプレイする必要があり、一回あたりのプレイ時間をできるだけ短く抑える目標があった。これらを踏まえて、レッスンAIには以下の三点の要件を設定したという。まずレッスンAIは、マルコフ決定過程（MDP）としてモデル化が可能であるといえる。MDPはつぎの状態を、現在の状態と行動から確率的に決めるモデルだ。本作のレッスンはゲーム盤面を現在の状態として、カード選択を行動として考えることで、カード選択によりつぎのターンの状態が決定するというMDPになっている。MDP上の展開型ゲームで有効な探索方法が、モンテカルロ木探索だ。この探索方法は、より厳密な最適行動を近似可能な手法であるが、レッスンやデッキ探索ひとつひとつに探索が必要であり、膨大な時間を要するという問題が出てくる。プレイ時間の短縮のために、本作のAIでは深層強化学習により、レッスン・デッキ設定に汎化して最適なプレイを近似するシステムを構築した。さまざまな状況を試行錯誤によって学習させることで、あらゆる状況のプレイに適用可能になったわけだ。ただ、副次的な問題として経験が必要な問題設定が多く、学習に時間がかかるというところは課題となっている。新規カード追加から結果確認までのリードタイムが36時間以下学習に必要な時間が長いという課題はまだ残っており、学習に300時間もかかるという点は、プランナー側からの要求には応えられない時間だった。そこで学習時間の軽減のため、“転移学習”（※）によるマスター追従の仕組みを構築した。マスターデータ更新時に、追加のカードやPアイテムを転移学習していく。ただし、転移学習の採用にも課題があった。転移学習で定義される状態や行動が増えていくであろう状況で、そのために用意された空間にはone-hot表現などではどうしても限界があった。100の空間を用意したら100のカードが追加された時点で限界が来てしまうなど、有限性があったのだ。そこで状態表現に、大規模言語モデル（LLM）での文章埋め込みを活用する手法を採用。スキルカードの効果テキストをLLMでエンベディング（オブジェクトを学習しやすいように数値ベクトルに変換すること）し、状態表現に用いた。こうしたレッスンAIの試行結果は、実際のプレイヤーのプレイとかけ離れたものになってはいないだろうか。実際に社内で比較してみたところ、ほぼ同じプレイ内容になっており、一手異なってスコアに微差が付く程度の違いしか見られなかったという。レッスンAIの詳細に続いて、デッキ探索AIの詳細も解説された。本作のプロデュース中のカードデッキ構築は、発生するさまざまなイベントでスキルカードの追加、強化、削除と、Pアイテムの追加が行われることで進行していく。各デッキのスコア評価については、レッスンAIのプレイから近似値を求めることで高速化。また、デッキ探索においてはプロデュースで作成できうるデッキの中から、ある程度の制約条件を課して行う。そこまで条件を設けても、本作におけるデッキの組み合わせ数は膨大。リリース時でも10の20乗以上のパターンが想定でき、総当たりで検証することは不可能だ。そこで効率的に探索するために、“グレーボックス最適化”手法が採用された。グレーボックス最適化においても、強化学習で使用したカード表現が活用できた。効果テキストをエンベディングしたベクトルデータを、探索アルゴリズムに反映している。アルゴリズムには生物の進化を模した“遺伝的アルゴリズム（GA）”を採用。親デッキのカードの和集合から、埋め込み空間上でベクトル数値を参照し、ガウスカーネルでのサンプリングを実施。サンプリングした結果をガウス分布上で最近傍のカードに当てはめることで、親と子の近似性を判断し、探索の基準にすることができる。デッキ枚数20～30枚、初期デッキが6～8枚、レッスンが12ターンという設定での探索実験の結果、デッキ探索システムの性能はシンプルな交差サンプリング法や、ほぼランダムとなる手法と比較して、約15％の向上が見られた。最後に講演のまとめとして、レッスンAIとデッキ探索AIの構築により、プランナーにも扱いやすいシステムが実現できたことが提示。その副次的な効果として人力では不可能だった検出も数多くあり、バグ発見という別側面でも大きな成果があった。本作のカードは比較的シンプルなものが多いのもあって、AIによるプレイで思いつかないレベルのものが見つかった例はまだないかと思います。どちらかというとデッキでの組み合わせのほうで見つかるというところが多く、開発中ではありますが、あるカードとあるカードが非常に相性がよく、最高スコアを獲得したデッキの上位100件にその相性のいいカードが複数枚ずつ入る結果となり、効果を調整したという事例がありました。

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

Write Comment

United States Latest News, United States Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

「鉄拳」原田勝弘氏が登壇する「CEDEC2024」基調講演が8月21日開催決定コンピュータエンターテインメント協会（CESA）は、8月21日から8月23日まで開催予定のゲーム開発者向けカンファレンス「CEDEC2024」について、基調講演の講演者および講演テーマを発表した。
Read more »

『学マス』初のライブが開催。“初声公演”（名古屋）リポート。まさかの花海咲季の新楽曲『EGO』が初披露。ゲーム内の体験を思い起こされるような『初』の演出も2024年8月10日（土）、愛知県・名古屋クラブクアトロにて『学園アイドルマスター』（学マス）のライブツアー“DEBUT LIVE 初 TOUR -初声公演-”が行われた。『学マス』にとってはまさに“初”のライブである本公演の様子をお届け。
Read more »

『学マス』デビューライブツアー“初声公演”（大阪）リポート。手毬のチワワな一面がのぞくキュートな楽曲や、ことねによる等身大のラブソングをサプライズ披露！2024年8月18日、大阪府・梅田クラブクアトロにて開催された『学園アイドルマスター』（『学マス』）のデビューライブツアー“DEBUT LIVE 初 TOUR -初声（うぶごえ）公演-”大阪公演のリポートをお届けする。
Read more »

格ゲー暗黒時代を乗り切り新時代へ。「鉄拳」原田氏が語る格闘ゲームの変遷と未来【CEDEC2024】30周年を迎え、これまで数々のゲームアワード受賞するなど多くの実績があるバンダイナムコエンターテインメントの3D対戦型格闘ゲーム「鉄拳」シリーズ。プロジェクトリーダーとして開発に30年間携わってきたエグゼクティブゲームディレクター/チーフプロデューサーの原田勝弘氏による講演「『鉄拳』シリーズを通してみた格闘ゲームの変遷とその未来」がイベント「CEDEC 2024」にて実施された。
Read more »