文字起こしの精度と速度の向上について
この記事は Announcing Improvements in Transcription Accuracy and Speed
Premiereの音声文字変換モデルは、18の言語に対応しています。この度、Premiere Beta(バージョン26.2向け)において、音声文字変換モデルの新バージョンがリリースされたことをお知らせいたします。Premiereで文字起こしを実行すると、言語や方言、重なり合う会話の認識精度が向上していることがお分かりいただけるはずです。
正確性
言語認識精度のさらなる向上:Premiereのすべての言語において、認識精度が向上しています。一部の言語では、誤認識率が最大36%減少しています
重なり合う会話の処理改善:正しい話者に割り当てられる単語が増え、話者間の切り替えポイントも改善されていることが確認できるはずです。
英語ダイアログの改善:Premiereは、英語話者の方言認識能力が向上しています。アフリカ系アメリカ人およびシンガポール人の英語データセットでテストした結果、Premiereの単語誤り率(WER)は28%相対的に改善されました(CORAALおよびNational Singapore Corpusでテスト)。
パフォーマンス
推奨されるハードウェア仕様を満たしている限り、文字起こしの処理時間は短縮されるはずです。以下のグラフは、英語での会話が中心で20人の話者が登場する1時間の映像を文字起こしするのにかかる秒数を示しています。注:Premiereが話者を個別に分離する場合(例:話者1、話者2)、文字起こしの処理時間は長くなります。一般的なマシンでテストを行いましたが、実際のパフォーマンスについてご意見をお聞かせいただければ幸いです。

ご意見をお聞かせください
編集機能で対応している言語で、ぜひテストしてみてください。
アクセントの違いや、お子様、音声品質など、さまざまな状況での動作状況をお知らせください。
テスト用の音声サンプルをお持ちの場合は、直接ご連絡させていただくことがあります。

