ChatGPTやGeminiなど、ユーザーが気軽に使えるチャットボットはすべて「LLM(大規模言語モデル)」という技術に基づいて構築されています。とても滑らかで自然な文章を生成することができるLLMが実際にはどのように動いているのかについて、アニメーションを用いて難解なトピックをわかりやすく解説するYouTubeチャンネル「3Blue1Brown」が動画にしています。
この脚本と、「どんな文章でも次に来る単語を正確に予測できる魔法のような機械」を組み合わせたとします。すると、脚本を機械に入力することで「AIの回答部分」を予測できます。予測は最初の1単語から始まり、何度も何度も繰り返すことで回答全体を予測できます。ChatGPTなどと対話するときはまさにこのことが起こっています。 チャットボットでは、まずユーザーと架空のAIアシスタントのやり取りを示す文章が用意され、ユーザーが入力した内容が付け加えられています。架空のAIアシスタントが応答として言いそうな次の単語をモデルに繰り返し予測させ、そうして生成された文章がユーザーにまとめて表示されるという形です。 大規模言語モデルは次に来る1単語を正確に予測するのではなく、次に来る可能性のあるすべての単語を列挙し、それぞれに確率を割り当てています。生成の過程で確率の高い単語だけを選んでいれば間違いは少なくなりますが、確率の低い単語もランダムに選ばせるようにすると出力が自然に見える傾向があります。同じプロンプトでも実行するたびに異なる答えが得られるのはこのためです。 大規模言語モデルは基本的にインターネットから収集された膨大な量の文章を処理することによってこうした予測を行う方法を学習します。OpenAIのLLM「GPT-3」の学習に使われた文章量を標準的な人間が読むとしたら、24時間読み続けても2600年以上かかるはずです。さらに、GPT-3より新しいLLMはずっと多くのデータで学習されています。 学習は大きな機械のダイヤルを調整するようなものだと考えることができます。大規模言語モデルには「重み」というパラメーターがあり、このパラメーターを変更すると特定の入力に対する出力の確率が変わります。大規模言語モデルの「大規模」というのはこれらのパラメーターが数千億個もあるということです。人間が意図的にこれらのパラメーターを設定することはなく、モデルが入出力を繰り返すことで洗練されていきます。 学習は、文章中の最後の単語を除いたものをモデルに入力し、モデルが行った予測を実際の答えと比較することで行われます。誤差を小さくする調整を行い、モデルが予測した単語の中から正解を選択する可能性を少し高め、他の単語を選択する可能性を少し低くするようにします。これを何兆もの文章に対して行うと、モデルは学習データに対して正確な予測をするようになるだけでなく、見たことのない文章に対しても妥当な予測を行うようになります。という学習モデルを発表したことで、並列処理の基礎ができあがりました。Transformerは文章を最初から最後まで読むのではなく、一度に並行してすべてを取り込むのが特徴です。文章中で次に続く単語を正確に予測するために必要なあらゆる情報を符合化することで計算を高速化し、学習の時間を圧倒的に縮小できます。 しかし、これだけではチャットボットとして使うことはできません。インターネット上のランダムな文章の続きを予測することができたとしても、優秀なAIアシスタントになったわけではないからです。大規模言語モデルに基づいたチャットボットを構築するには、ここまでのプロセスである「事前学習」に加え、人間からのフィードバックによる「強化学習」が必要になります。3Blue1Brownは「モデルの出力は学習の際のパラメーターの調整によって決まるので、モデルがなぜ特定の予測を行うのかを判断するのは非常に難しいです。確かにわかることは、大規模言語モデルが生成する言葉は不気味なほど滑らかで魅力的で、さらには役に立つということです」とまとめました。.
この脚本と、「どんな文章でも次に来る単語を正確に予測できる魔法のような機械」を組み合わせたとします。すると、脚本を機械に入力することで「AIの回答部分」を予測できます。予測は最初の1単語から始まり、何度も何度も繰り返すことで回答全体を予測できます。ChatGPTなどと対話するときはまさにこのことが起こっています。 チャットボットでは、まずユーザーと架空のAIアシスタントのやり取りを示す文章が用意され、ユーザーが入力した内容が付け加えられています。架空のAIアシスタントが応答として言いそうな次の単語をモデルに繰り返し予測させ、そうして生成された文章がユーザーにまとめて表示されるという形です。 大規模言語モデルは次に来る1単語を正確に予測するのではなく、次に来る可能性のあるすべての単語を列挙し、それぞれに確率を割り当てています。生成の過程で確率の高い単語だけを選んでいれば間違いは少なくなりますが、確率の低い単語もランダムに選ばせるようにすると出力が自然に見える傾向があります。同じプロンプトでも実行するたびに異なる答えが得られるのはこのためです。 大規模言語モデルは基本的にインターネットから収集された膨大な量の文章を処理することによってこうした予測を行う方法を学習します。OpenAIのLLM「GPT-3」の学習に使われた文章量を標準的な人間が読むとしたら、24時間読み続けても2600年以上かかるはずです。さらに、GPT-3より新しいLLMはずっと多くのデータで学習されています。 学習は大きな機械のダイヤルを調整するようなものだと考えることができます。大規模言語モデルには「重み」というパラメーターがあり、このパラメーターを変更すると特定の入力に対する出力の確率が変わります。大規模言語モデルの「大規模」というのはこれらのパラメーターが数千億個もあるということです。人間が意図的にこれらのパラメーターを設定することはなく、モデルが入出力を繰り返すことで洗練されていきます。 学習は、文章中の最後の単語を除いたものをモデルに入力し、モデルが行った予測を実際の答えと比較することで行われます。誤差を小さくする調整を行い、モデルが予測した単語の中から正解を選択する可能性を少し高め、他の単語を選択する可能性を少し低くするようにします。これを何兆もの文章に対して行うと、モデルは学習データに対して正確な予測をするようになるだけでなく、見たことのない文章に対しても妥当な予測を行うようになります。という学習モデルを発表したことで、並列処理の基礎ができあがりました。Transformerは文章を最初から最後まで読むのではなく、一度に並行してすべてを取り込むのが特徴です。文章中で次に続く単語を正確に予測するために必要なあらゆる情報を符合化することで計算を高速化し、学習の時間を圧倒的に縮小できます。 しかし、これだけではチャットボットとして使うことはできません。インターネット上のランダムな文章の続きを予測することができたとしても、優秀なAIアシスタントになったわけではないからです。大規模言語モデルに基づいたチャットボットを構築するには、ここまでのプロセスである「事前学習」に加え、人間からのフィードバックによる「強化学習」が必要になります。3Blue1Brownは「モデルの出力は学習の際のパラメーターの調整によって決まるので、モデルがなぜ特定の予測を行うのかを判断するのは非常に難しいです。確かにわかることは、大規模言語モデルが生成する言葉は不気味なほど滑らかで魅力的で、さらには役に立つということです」とまとめました。
United States Latest News, United States Headlines
Similar News:You can also read news stories similar to this one that we have collected from other news sources.
AIチャットボットも“自分”を好ましく見せようとする:研究結果大規模言語モデル(LLM)は性格検査を受けていることを認識すると、より外向的で協調的に見える回答を意図的に選び、人に好まれようとする傾向がある──。AIもこのような人間によく似た振る舞いをすることが、スタンフォード大学の研究チームによって明らかにされた。
Read more »
“科学の公式”を発見するAI「LLM-Feynman」 中国の研究者らが開発 データから物理公式の90%以上の再発見に成功:Innovative Tech(AI+)中国の東南大学などに所属する研究者らは、大規模言語モデル(LLM)を活用して科学公式を発見するシステムを提案した研究報告を発表した。
Read more »
GPT-4oやDeepSeek-V3超えの性能をGPU2個で実現する生成AIモデル「Command A」が登場、Transformerの発明者が設立したAI企業「Cohere」が開発大規模言語モデル(LLM)のきっかけとなったTransformer論文の著者の1人であるエイダン・ゴメス氏らのAI企業・Cohereが、2025年3月13日に新しいモデルの「Command A」を発表しました。Command Aは、GPT-4oやDeepSeek-V3と同等以上のパフォーマンスを発揮するにもかかわらず、わずか2つのGPUしか必要としない効率性の高さが特徴とされています。
Read more »
コード生成AIによる幻覚を悪用した新しいサイバー攻撃「スロップスクワッティング」が登場する可能性AIによるコード生成の普及は、開発効率を大きく向上させる一方で、全く新しいリスクも生み出しています。大規模言語モデル(LLM)には幻覚として「存在しないパッケージ名」を生成するリスクがあり、攻撃者が同名で悪意あるパッケージを公開することで、AI支援でコードを書く開発者を騙す新手のソフトウェアサプライチェーン攻撃「スロップスクワッティング」の可能性が指摘されています。
Read more »
日本での展開に注力するOpenAI――「AIエージェントの1年が始まる」とライトキャップCOOが語る理由(2025年5月5日)|BIGLOBEニュース大規模言語モデル(LLM)を中心とした生成AIが、企業の事業への実装が進んでいる。そんな中、LLMの開発元として知られるOpenAIは、本格的な「エージェントAI」の開発にを…|BIGLOBEニュース
Read more »
AIチャットボットに「偽の記憶」を植え付けることで仮想通貨を盗む攻撃が報告される大規模言語モデル(LLM)の技術の進歩と共に複雑なタスクをこなすAIエージェントが登場しており、金融の世界ではすでに「人間の代わりに投資の判断を高度なレベルで行うAIエージェント」も登場しています。しかし、こうしたAIエージェントに「偽の記憶」を注入することで仮想通貨を盗み取る新たな攻撃手法が明らかとなりました。
Read more »
