【v25】シーケンスの文字起こしで2つのオーディオがマージされない（対談編集）

Question

【v25】シーケンスの文字起こしで2つのオーディオがマージされない（対談編集）Premiere Pro v25を使用しています。 ポッドキャストの編集（対談・2名）で、テキストベース編集を使ってフィラーやポーズの除去を一括でやりたいのですが、シーケンスの文字起こしがうまくいきません。【状況】	タイムラインにオーディオを2トラック配置（A1に話者1、A2に話者2）。			同期は完全に取れています。	【やったこと・設定】	テキストパネルから「シーケンスを再文字起こし」を実行。			オーディオ分析の設定は 「ミックス」 を選択しています。			テキストパネル右上の「アクティブなモニターをフォロー」は外しています。	【症状】	生成されたテキストが、両方のトークをマージしてくれません。（片方の話者しか出ない、会話として繋がらない等）			（アクティブなモニターをフォローしていれば）タイムライン上のクリップを個別にダブルクリックすれば、それぞれのソース（クリップ単体）の文字起こしは正常に出ます。	【やりたいこと】 2つのオーディオ（対談）をひとつのテキストとして認識させ、まとめてフィラー、間の除去をしたいです。なにか手順が間違っているのでしょうか？ ご教示いただけると助かります。

Ckun · Accepted Answer

状況のご返信、ありがとうございました。>「ミックス」設定で再文字起こしをかけても、結果として生成されるシーケンステキストには、A1（またはA2）のどちらか一方の声しか並ばない、という状態です。こちら、私の手元の環境（Windows 11, Premiere v26.0）で確認する限り、ミックスで文字起こしするとA1とA2をミックスした音声で文字起こしがされております。参考までに画像を載せてみますので、設定が異なる部分など、なにか原因になりそうな部分はございませんでしょうか。ただ、文字起こしベースの編集をする上ではシーケンス文字起こしは使わないので、ひとまずこの検証は省略していただいても大丈夫かと思います。>そのため、オーディオトラックをマージせず、マルチトラックの状態を維持したままテキストベース編集を行いたい事情がございます。こちら、説明不足で失礼いたしました。ミックスした音声トラックはあくまでも語間の除去など「文字起こしベースの編集」をするために作成・貼り付けをしていただくということでして、元のトラックはミュートをかけて温存していただくといった流れを想定しておりました。こちらは、文字や静止画での説明が少し大変なので、動画で貼ってみますね。※ループ再生されるgif動画です。一瞬画面が黒くなるところが、開始点です。A1にインタビュアー、A2にゲスト、A3にA1+A2の内容をWAV書き出ししたものを貼っていて、A3に貼ったミックス音声の文字起こしを利用して語間をカットしている様子です。動画の最初は、A1のインタビュアーの文字起こしが表示されてる状態です。A1をミュートすると、A2のゲストの文字起こしが表示されます。A2もミュートすると、A3のインタビュアー+ゲストの文字起こしが表示されます。この状態で、文字起こしベースの編集機能を用いて「語間」を一気に削除しています。その後A3の素材は不要なので、削除するという流れです。よく見ると、２人の声がかぶっている部分は、ミックスの文字起こしの精度が落ちている（言葉が重なっている部分が正しく文字起こしされていない）のですが、テロップ用ではなく語感をカットするのが主目的でしたら、あまり問題にはならないのではないかなと思います。

Ckun · Answer

もう少し詳しく状況をお教えいただければと思うのですが、>生成されたテキストが、両方のトークをマージしてくれません。（片方の話者しか出ない、会話として繋がらない等）こちらの「片方の話者しか出ない」という症状は、全体を通して「話者1だけ」もしくは「話者2だけ」といった具合に、一人分しか出てこない状況でしょうか。それとも、話者1、話者2共に文字起こしされるものの、欠落や誤認識の箇所が多い状況でしょうか。>オーディオ分析の設定は「ミックス」を選択しています。とお書きいただいていることから、おそらく後者（話者1、話者2共に文字起こしされるものの、欠落箇所が多い状況）だと思うのですが、念のための確認でした。>（アクティブなモニターをフォローしていれば）タイムライン上のクリップを個別にダブルクリックすれば、それぞれのソース（クリップ単体）の文字起こしは正常に出ます。こちらについては、「ソースメディアの文字起こし」の結果が表示されているものかと思います。素材の状況（２人の話者の声がかぶっているか否かなど）によるので一概には言えないところでありますが、ミックスした結果を用いた「シーケンスの文字起こし」は、２人の声がミックスされていることで声がかぶっていると解析が難しいといった面があることに対し、「ソースメディアの文字起こし」は一人ずつの声なので解析がしやすく、２人が同時に話している部分も文字起こしできるので、精度が高いということは言えるかと思います。いずれにしましても、>2つのオーディオ（対談）をひとつのテキストとして認識させ、まとめてフィラー、間の除去をしたいです。となりますと「文字起こしベースの編集」がひつようになりますため、文字起こしの精度の改善にはなりませんものの、ミックスしたファイルを書き出して「ソースメディアの文字起こし」をし、それをもとにポーズやフィラーの削除をするという方法も検討の余地があるかと思います。

Sign up

To post, reply, or follow discussions, please sign in with your Adobe ID.

Sign in to Adobe Community

To post, reply, or follow discussions, please sign in with your Adobe ID.

Scanning file for viruses.

This file cannot be downloaded