rinna、Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開 rinna株式会社のプレスリリース
これまでにrinnaでは、日本語のタスクに適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する基盤モデルを公開してきました。2021年4月からHugging Faceに公開してきたrinnaのモデルは、累計920万ダウンロード、1200 Likesを記録し、多くの研究・開発者に利用されています。 より使いやすく高性能な日本語大規模言語モデル(LLM)を目指し、アリババ社が公開しているLLMであるQwen2.
5 32Bに対し、日本語継続事前学習を行なった「Qwen2.5 Bakeneko 32B」、対話形式で指示を遂行するように学習を行なった「Qwen2.5 Bakeneko 32B Instruct」、DeepSeek R1の出力を用いて蒸留学習を行なった「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」を開発し、公開しました。これらのモデル公開が、日本のAI研究・開発の一助となれば幸いです。 Qwen2.5シリーズは、0.5Bから72Bまでの複数のモデルサイズ、コーディング・数学特化、マルチモーダル対応など多様なモデルが公開されています。特にQwen2.5の32Bモデルサイズは、性能とモデルサイズのバランスがよく、有用な派生モデルがいくつも存在します。そこで、より使いやすく高性能な日本語LLMを目指し、Qwen2.5 32Bに対し日本語と英語の学習データを使用して継続事前学習した「Qwen2.5 Bakeneko 32B」を開発しました。「Bakeneko」というモデル名の由来は、妖怪の「化け猫」からきています。Qwen2.5 Bakeneko 32Bをベースにし、他の有用な派生モデルとモデルマージ等で組み合わせることにより、高い日本語性能を持った応用モデルの作成が期待されます。「Qwen2.5 Bakeneko 32B Instruct」は、Qwen2.5 Bakeneko 32Bをベースに、モデルマージと指示学習を行なったモデルであり、対話形式での利用に適しています(図1)。 直近では、DeepSeek社が公開したDeepSeek R1が高い思考能力を持つことで注目を集めています。DeepSeek R1は高性能ですがモデルサイズが大きく扱いにくいため、より小さいモデルへの知識蒸留がよく用いられ、Qwen2.5 32Bの派生モデルとして、DeepSeek R1から蒸留学習を行なったDeepSeek R1 Distill Qwen 32Bが公開されています。しかし、このモデルは英語と中国語がメインであり、日本語の性能は劣っています。そこで、Qwen2.5 Bakeneko 32Bをベースにモデルマージと、DeepSeek R1から生成した思考過程を含むテキストデータ1,200件を利用し蒸留学習を行なった「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」を開発しました(図2)。蒸留学習のために生成したデータはわずか1,200件ですが、効率的に高い日本語思考能力を備えたモデルの学習に成功しています。日本語の対話性能を評価するJapanese MT-Benchの結果(図3)では、DeepSeek R1 Distill Qwen2.5 Bakeneko 32B はDeepSeek R1 Distill Qwen 32Bから大きくスコアを改善しています。詳細なベンチマーク結果は、「人とAIの共創世界」 をビジョンに掲げたAI企業です。テキスト・音声・画像・動画などの生成系AIモデルの研究開発や人工知能によるデータ分析が強みです。研究成果である各種AI技術を活用し、パートナー企業とともにさまざまなビジネス課題を解決するソリューションの開発と提供に取り組んでいます。また、フラグシップAI「りんな」の技術をもとに生み出した、親しみの持てる多様性あふれる「AIキャラクター」を通して人とAIが共に生きる豊かな世界を目指しています。
プレスリリース ニュースリリース 配信 サイト サービス 方法 代行 PR TIMES
United States Latest News, United States Headlines
Similar News:You can also read news stories similar to this one that we have collected from other news sources.
県内企業のSDGs取り組み浸透…認知度95.2%、実施企業は30.5%に奥ぎん経済研究所の調査によると、県内企業のSDGsの認知度は95.2%に達し、すでに取り組みを行っている企業も30.5%に上りました。2年前の調査と比較して、実施企業は13.5ポイント上昇しました。
Read more »
日銀が0.5%に追加利上げ決定 17年ぶり高水準日本銀行は24日の金融政策決定会合で、昨年7月以来となる政策金利の追加利上げを決めた。銀行間で短期資金をやり取りする金利(無担保コール翌日物)の誘導目標を、0.25%程度から0.5%程度に引き上げる。政策金利が0.5%の水準になるのは、2008年10月以来約17年ぶり。
Read more »
ドイツ銀行・DWS、中国郵政貯蓄銀行との合弁事業交渉決裂ドイツ銀行と資産運用子会社のDWS、中国郵政貯蓄銀行(PSBC)の間で進められていた中国での合弁事業に関する交渉が、中国側の出資比率要求とドイツ銀側の拒否により決裂しました。消息筋によると、DWSの計画では合弁事業への出資比率はドイツ銀が47.5%、PSBCが47.5%、米投資会社アレス・マネジメントが5%となっていました。
Read more »
中国アリババ、DeepSeekの「V3」越えうたうAIモデル「Qwen2.5-Max」公開中国Alibabaは、大規模言語モデル「Qwen」シリーズの最新モデル「2.5-Max」を公開した。
Read more »
金利上昇リスクを重視、国債投資は慎重に – 明治安田生命保険運用企画部長明治安田生命保険の北村乾一郎運用企画部長は、日本銀行が今後2年間利上げを継続して政策金利を1.5%まで引き上げる見込みを示し、金利上昇リスクの高さを理由に国債投資には慎重を期す方針を明らかにしました。北村氏は、2025年、2026年度にそれぞれ2回ずつ利上げを実施すると予想し、10年国債金利は1.5%、30年国債金利は2.5%に上昇すると予測しています。
Read more »
日比谷音楽祭2025 年、無料開催継続へ日比谷音楽祭は、昨年2日間で延べ17.5万人の来場者、配信は約25.5万人の視聴者を集め大成功を収めた。今年も、全国どこからでも視聴できる配信が予定されており、出演アーティストインタビューや対談コンテンツなど、オンラインならではのスペシャルなプログラムも用意されている。日比谷音楽祭は、無料開催を継続していくために、協賛やクラウドファンディングの準備を進めている。
Read more »
