Meta、1600言語対応の音声認識「Omnilingual ASR」発表 GitHubで公開

速報 News

Meta、1600言語対応の音声認識「Omnilingual ASR」発表 GitHubで公開
AI生成AIニュース企業・業界動向
  • 📰 topitmedia
  • ⏱ Reading Time:
  • 41 sec. here
  • 5 min. at publisher
  • 📊 Quality Score:
  • News: 30%
  • Publisher: 51%

Metaは、1600言語以上に対応する自動音声認識「Omnilingual ASR」を発表し、GitHubで公開した。大規模SSLとLLM-ASRアプローチを採用し、リソースの少ない言語もサポート。ゼロショット学習で新言語にも拡張可能としている。

従来のASRシステムは、インターネット上で十分なデータが揃っている一部の言語に焦点を当てており、高い性能を発揮するためには大量のラベル付きデータに依存していた。Omnilingual ASRは、これまでどのASR技術にも対応されていなかった500以上のリソースの少ない言語を含む1600以上の言語をサポートするという。 ここまでの多言語対応が可能になったのは、AIアーキテクチャのスケーリングによるという。従来のシステムでは、普遍的にスケールするにはデータ要求が大き過ぎるという課題に対し、Omnilingual ASRは、まず自己教師あり学習(SSL)を用いた音声エンコーダを70億パラメータまでスケールアップさせ、多言語にわたるロバストな音声表現を学習した。この機能は、公開データセットと地域コミュニティから報酬付きで収集された音声記録を統合した、ASR用としてこれまでに収集された中で最大かつ最も言語的に多様なトレーニングコーパスに基づいているという。 システムのおおまかな仕組みはエンコーダデコーダアーキテクチャを採用している。音声エンコーダが音声から表現を抽出し、テキストデコーダがこれを文字トークンにマッピングするというものだ。特に、ASR性能の飛躍的な向上をもたらすLLM-ASRと呼ばれるアプローチを導入している。これにより、スケーラブルなゼロショット学習が可能となり、サポートされていない言語の話者であっても、わずかな音声とテキストのペアのサンプルを提供することで、新しい言語に文字起こし能力を拡張できる。従来のシステムでは、リリース時に含まれていない言語を追加するには専門家によるファインチューニングが必要だったが、Omnilingual ASRは、専門知識や大規模な計算リソースを必要とせずに、コミュニティが自身のデータで言語認識を拡張できる柔軟なフレームワークを提供するという。.

従来のASRシステムは、インターネット上で十分なデータが揃っている一部の言語に焦点を当てており、高い性能を発揮するためには大量のラベル付きデータに依存していた。Omnilingual ASRは、これまでどのASR技術にも対応されていなかった500以上のリソースの少ない言語を含む1600以上の言語をサポートするという。 ここまでの多言語対応が可能になったのは、AIアーキテクチャのスケーリングによるという。従来のシステムでは、普遍的にスケールするにはデータ要求が大き過ぎるという課題に対し、Omnilingual ASRは、まず自己教師あり学習(SSL)を用いた音声エンコーダを70億パラメータまでスケールアップさせ、多言語にわたるロバストな音声表現を学習した。この機能は、公開データセットと地域コミュニティから報酬付きで収集された音声記録を統合した、ASR用としてこれまでに収集された中で最大かつ最も言語的に多様なトレーニングコーパスに基づいているという。 システムのおおまかな仕組みはエンコーダデコーダアーキテクチャを採用している。音声エンコーダが音声から表現を抽出し、テキストデコーダがこれを文字トークンにマッピングするというものだ。特に、ASR性能の飛躍的な向上をもたらすLLM-ASRと呼ばれるアプローチを導入している。これにより、スケーラブルなゼロショット学習が可能となり、サポートされていない言語の話者であっても、わずかな音声とテキストのペアのサンプルを提供することで、新しい言語に文字起こし能力を拡張できる。従来のシステムでは、リリース時に含まれていない言語を追加するには専門家によるファインチューニングが必要だったが、Omnilingual ASRは、専門知識や大規模な計算リソースを必要とせずに、コミュニティが自身のデータで言語認識を拡張できる柔軟なフレームワークを提供するという。

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

topitmedia /  🏆 93. in JP

AI 生成AIニュース 企業・業界動向

 

United States Latest News, United States Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

使いやすさと表現力の両立 昇華転写用インクジェットプリンタ「TS200-1600」を発表使いやすさと表現力の両立 昇華転写用インクジェットプリンタ「TS200-1600」を発表使いやすさと表現力の両立 昇華転写用インクジェットプリンタ「TS200-1600」を発表 株式会社ミマキエンジニアリングのプレスリリース
Read more »

マイクロソフト、GitHubのAIツールをあらゆる開発環境へ展開マイクロソフト、GitHubのAIツールをあらゆる開発環境へ展開マイクロソフトは、コマンドライン、ウェブブラウザ、Visual Studio Codeなど、開発者が作業するあらゆる場所でGitHubのAIツールを利用できるようにすることを目指している。基本機能の改善にも投資し、GitHub Actionsやアナリティクス・インサイトツールなどの強化を図る。大規模言語モデル(LLM)の利用・構築にも注力。
Read more »

「観客1600人達成プロジェクト -Kobe to Philippines 1600-」10月25日・26日神戸開催試合イベント追加情報!【メットライフ生命女子Fリーグ2025-26】「観客1600人達成プロジェクト -Kobe to Philippines 1600-」10月25日・26日神戸開催試合イベント追加情報!【メットライフ生命女子Fリーグ2025-26】「観客1600人達成プロジェクト -Kobe to Philippines 1600-」10月25日・26日神戸開催試合イベント追加情報!【メットライフ生命女子Fリーグ2025-26】 一般社団法人日本フットサルトップリーグのプレスリリース
Read more »

(株)エーアイの音声認識システム「vGate ASR®」、仕上検査専用アプリ『Pro(プロ)仕上検査』に採用のお知らせ(株)エーアイの音声認識システム「vGate ASR®」、仕上検査専用アプリ『Pro(プロ)仕上検査』に採用のお知らせ(株)エーアイの音声認識システム「vGate ASR®」、仕上検査専用アプリ『Pro(プロ)仕上検査』に採用のお知らせ 株式会社エーアイのプレスリリース
Read more »

「大げさではなく、Copilotは人命を救っている」 GitHub年次イベントで多数の事例紹介 (1/2)「大げさではなく、Copilotは人命を救っている」 GitHub年次イベントで多数の事例紹介 (1/2)2021年に発表されたAIコードアシスタント「GitHub Copilot」。GitHubの年次イベント「GitHub Universe 2025」では、その活用事例が披露された。
Read more »

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けているOpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている非営利団体Common Crawlは、10年以上にわたりインターネットの広範なアーカイブを構築してきました。このペタバイト規模のデータベースは研究用に無料で公開されていますが、近年、OpenAI、Google、Meta、AmazonといったAI企業が大規模言語モデル(LLM)の訓練に利用していることが物議を醸していると、アメリカの月刊雑誌・The Atlanticが指摘しています。
Read more »



Render Time: 2026-04-02 00:37:55