AWSは2025年のAmazon Prime Dayに対応するため、生成AI搭載ショッピングアシスタント「Rufus」の大規模スケーリングを実施した。Amazon Prime Dayを支えるAWS基盤の全貌とは。
「Amazon」が提供するAIショッピングアシスタント「Amazon Rufus」(Rufus)が、年に一度の「Amazon Prime Day」(Prime Day)を前に大幅な機能強化をした。この進化の裏には、Amazon Web Services(AWS)が開発した8万個を超えるAWS AIチップの活用がある。これにより、Rufusはユーザーからの質問に対し、より迅速かつスムーズな対話形式での回答が可能となり、Prime Dayのような高負荷時でも安定したサービス提供を実現する。Amazon Web Services(以下、AWS)は2025年6月10日、Rufusの強化を発表した。RufusはPrime Dayに向けて、8万個を超えるAWS AIチップを使うことで、大幅な性能向上と規模拡大を実現したとしている。これにより、より多くのユーザーがスムーズにRufusを利用できるようになった。 Rufusは、Amazonの商品カタログやWebの情報を基にユーザーの質問に対して対話形式で回答するショッピングアシスタントだ。このサービスを提供するに当たり、数十億のパラメーターを持つ大規模言語モデル(LLM)を低コストかつ低レイテンシで処理できる安定性の高い推論基盤が必要だった。 AWSはRufusをPrime Dayのような高トラフィック環境でも安定して稼働させるため、AWS独自開発のAI推論チップ「Inferentia2」および学習用チップ「Trainium」を中核に据えた推論システムを構築した。両チップは「Amazon EC2」の「Inf2インスタンス」(Inf2)および「Trn1インスタンス」(Trn1)として利用されており、どちらも「Neuron SDK」で動作する。Trn1を使用した構成においてInf2構成と比較してレイテンシが20%削減され、スループットも向上した。システム構成としては、Inferentia2およびTrainiumを搭載したインスタンスを複数のリージョンに展開し、「Amazon Elastic Container Service」(Amazon ECS)、「Application Load Balancer」(ALB)、「Triton Inference Server」(推論を効率化するために NVIDIA が開発したオープンソースの推論サーバ)などを組み合わせて構築した。これにより、Rufusは最大で3つのリージョンにわたりスケールされ、Prime Day期間中も1秒未満の初回応答レイテンシを維持し、毎分300万トークンの処理能力を実現した。 Neuron SDKによる最適化に加え、INT8量子化やvLLMを使用した連続バッチング(continuous batching)、Neuronコンパイラとランタイムでのリソース、計算、メモリ帯域幅の最適化などを導入することで、推論性能とエネルギー効率の双方を向上させた。他の検討済みのソリューションと比べてワット当たりの性能は従来ソリューションと比べて54%高く、省エネルギー要件にも対応する。 Rufusの推論基盤はストリーミングアーキテクチャーを採用しており、生成テキストを逐次返すことで、ユーザーが迅速に応答内容を確認できる。これによって快適な利用体験を損なうことなく、大規模なトラフィックに耐え得る運用が可能になった。.
「Amazon」が提供するAIショッピングアシスタント「Amazon Rufus」(Rufus)が、年に一度の「Amazon Prime Day」(Prime Day)を前に大幅な機能強化をした。この進化の裏には、Amazon Web Services(AWS)が開発した8万個を超えるAWS AIチップの活用がある。これにより、Rufusはユーザーからの質問に対し、より迅速かつスムーズな対話形式での回答が可能となり、Prime Dayのような高負荷時でも安定したサービス提供を実現する。Amazon Web Services(以下、AWS)は2025年6月10日、Rufusの強化を発表した。RufusはPrime Dayに向けて、8万個を超えるAWS AIチップを使うことで、大幅な性能向上と規模拡大を実現したとしている。これにより、より多くのユーザーがスムーズにRufusを利用できるようになった。 Rufusは、Amazonの商品カタログやWebの情報を基にユーザーの質問に対して対話形式で回答するショッピングアシスタントだ。このサービスを提供するに当たり、数十億のパラメーターを持つ大規模言語モデル(LLM)を低コストかつ低レイテンシで処理できる安定性の高い推論基盤が必要だった。 AWSはRufusをPrime Dayのような高トラフィック環境でも安定して稼働させるため、AWS独自開発のAI推論チップ「Inferentia2」および学習用チップ「Trainium」を中核に据えた推論システムを構築した。両チップは「Amazon EC2」の「Inf2インスタンス」(Inf2)および「Trn1インスタンス」(Trn1)として利用されており、どちらも「Neuron SDK」で動作する。Trn1を使用した構成においてInf2構成と比較してレイテンシが20%削減され、スループットも向上した。システム構成としては、Inferentia2およびTrainiumを搭載したインスタンスを複数のリージョンに展開し、「Amazon Elastic Container Service」(Amazon ECS)、「Application Load Balancer」(ALB)、「Triton Inference Server」(推論を効率化するために NVIDIA が開発したオープンソースの推論サーバ)などを組み合わせて構築した。これにより、Rufusは最大で3つのリージョンにわたりスケールされ、Prime Day期間中も1秒未満の初回応答レイテンシを維持し、毎分300万トークンの処理能力を実現した。 Neuron SDKによる最適化に加え、INT8量子化やvLLMを使用した連続バッチング(continuous batching)、Neuronコンパイラとランタイムでのリソース、計算、メモリ帯域幅の最適化などを導入することで、推論性能とエネルギー効率の双方を向上させた。他の検討済みのソリューションと比べてワット当たりの性能は従来ソリューションと比べて54%高く、省エネルギー要件にも対応する。 Rufusの推論基盤はストリーミングアーキテクチャーを採用しており、生成テキストを逐次返すことで、ユーザーが迅速に応答内容を確認できる。これによって快適な利用体験を損なうことなく、大規模なトラフィックに耐え得る運用が可能になった。
United States Latest News, United States Headlines
Similar News:You can also read news stories similar to this one that we have collected from other news sources.
アマプラ、ドジャース日本開幕戦を独占配信「歴史に残る対戦」スポーツコンテンツ拡充狙い東京ドームで18、19日に行われる米大リーグ、ドジャースとカブスとの開幕シリーズを巡り、Amazon(アマゾン)が展開する定額制の動画配信サービス「Prime…
Read more »
小芝風花&佐藤健、『私の夫と結婚して』日本ドラマ化でW主演 白石聖&横山裕は復讐相手に俳優の小芝風花と佐藤健が、Prime Videoで6月27日から配信される、Amazon Original日本ドラマ『私の夫と結婚して』(全10話、毎週金曜日に2話ずつ更新)にW主演することが決定し…
Read more »
アニメ「タコピーの原罪」6月28日0時より配信決定! メインビジュアル&PV公開アニメ「タコピーの原罪」が6月28日0時から放送開始されることが明らかになった。Netflix、Amazon Prime Video、ABEMAほか各プラットフォームにて毎週土曜日に配信される。
Read more »
小芝風花&佐藤健主演『私の夫と結婚して』キービジュアル解禁 七五三掛龍也、津田寛治ら出演俳優の小芝風花と佐藤健がW主演し、Prime Videoで6月27日から配信される、Amazon Original日本ドラマ『私の夫と結婚して』(全10話、毎週金曜日に2話ずつ更新)のビジュアル第二…
Read more »
武居由樹、堤聖也の世界王者がSPゲスト…中谷潤人―西田凌佑の統一戦、那須川天心の世界前哨戦Prime Videoは4日、プロボクシングの世界戦などを配信するプログラム『Prime Video Boxing 13』のスペシャルゲストとして、WBO世界バンタム級王者・武居由樹(28)=大橋=
Read more »
Amazonプライムビデオの広告倍増--1時間あたり6分に 米報道米報道によれば、Amazon Prime Videoが、1時間あたりの広告表示をこっそりと約6分まで拡大。当初の2〜3.5分から倍増した。
Read more »
