Skip to main content
yda.kyoumu05
Participant
February 7, 2026
Question

【v25】シーケンスの文字起こしで2つのオーディオがマージされない(対談編集)

  • February 7, 2026
  • 2 replies
  • 49 views

【v25】シーケンスの文字起こしで2つのオーディオがマージされない(対談編集)


Premiere Pro v25を使用しています。 ポッドキャストの編集(対談・2名)で、テキストベース編集を使ってフィラーやポーズの除去を一括でやりたいのですが、シーケンスの文字起こしがうまくいきません。


【状況】

  • タイムラインにオーディオを2トラック配置(A1に話者1、A2に話者2)。

  • 同期は完全に取れています。

【やったこと・設定】

  • テキストパネルから「シーケンスを再文字起こし」を実行。

  • オーディオ分析の設定は 「ミックス」 を選択しています。

  • テキストパネル右上の「アクティブなモニターをフォロー」は外しています。

【症状】

  • 生成されたテキストが、両方のトークをマージしてくれません。(片方の話者しか出ない、会話として繋がらない等)

  • (アクティブなモニターをフォローしていれば)タイムライン上のクリップを個別にダブルクリックすれば、それぞれのソース(クリップ単体)の文字起こしは正常に出ます。

【やりたいこと】 2つのオーディオ(対談)をひとつのテキストとして認識させ、まとめてフィラー、間の除去をしたいです。

なにか手順が間違っているのでしょうか? ご教示いただけると助かります。

    2 replies

    Ckun
    Community Expert
    Community Expert
    February 7, 2026

    もう少し詳しく状況をお教えいただければと思うのですが、

     

    >生成されたテキストが、両方のトークをマージしてくれません。(片方の話者しか出ない、会話として繋がらない等)

     

    こちらの「片方の話者しか出ない」という症状は、全体を通して「話者1だけ」もしくは「話者2だけ」といった具合に、一人分しか出てこない状況でしょうか。それとも、話者1、話者2共に文字起こしされるものの、欠落や誤認識の箇所が多い状況でしょうか。

     

    >オーディオ分析の設定は 「ミックス」 を選択しています。

     

    とお書きいただいていることから、おそらく後者(話者1、話者2共に文字起こしされるものの、欠落箇所が多い状況)だと思うのですが、念のための確認でした。

     

    >(アクティブなモニターをフォローしていれば)タイムライン上のクリップを個別にダブルクリックすれば、それぞれのソース(クリップ単体)の文字起こしは正常に出ます。

     

    こちらについては、「ソースメディアの文字起こし」の結果が表示されているものかと思います。

     

    素材の状況(2人の話者の声がかぶっているか否かなど)によるので一概には言えないところでありますが、ミックスした結果を用いた「シーケンスの文字起こし」は、2人の声がミックスされていることで声がかぶっていると解析が難しいといった面があることに対し、「ソースメディアの文字起こし」は一人ずつの声なので解析がしやすく、2人が同時に話している部分も文字起こしできるので、精度が高いということは言えるかと思います。

     

    いずれにしましても、

    >2つのオーディオ(対談)をひとつのテキストとして認識させ、まとめてフィラー、間の除去をしたいです。

    となりますと「文字起こしベースの編集」がひつようになりますため、文字起こしの精度の改善にはなりませんものの、ミックスしたファイルを書き出して「ソースメディアの文字起こし」をし、それをもとにポーズやフィラーの削除をするという方法も検討の余地があるかと思います。

    yda.kyoumu05
    Participant
    February 7, 2026

    ご返信ありがとうございます。 状況を補足させていただきます。

    1. 症状について
    ご質問いただいた点については、前者の「全体を通して片方の話者(トラック)しか反映されない」という状況です。
    「ミックス」設定で再文字起こしをかけても、結果として生成されるシーケンステキストには、A1(またはA2)のどちらか一方の声しか並ばない、という状態です。
     

    2. 音声の認識精度について
    おっしゃる通りミックスによる精度の低下も懸念しましたが、今回の素材は対談形式で話者が明確に分かれており、被りもほぼありません。
    また、クリップ単体(ソース)での文字起こしは非常に高精度で行われているため、オーディオ品質や認識精度の問題ではないと考えております。


    3. ワークフローの制約について
    ご提案いただいた「ミックスダウンしたファイルを文字起こしソースにする」方法は確実かと思いますが、今回は「Premiereでフィラー除去等の粗編集を行った後、Pro Toolsに持ち込み、整音・MAを行う」というワークフローを考えています。 そのため、オーディオトラックをマージせず、マルチトラックの状態を維持したままテキストベース編集を行いたい事情がございます。

    設定自体は「ミックス」になっているにも関わらず、シーケンス全体の文字起こしに両トラックが統合されない原因について、もし他に思い当たる節があればご教示いただけますと幸いです。

    Ckun
    Community Expert
    Community Expert
    February 7, 2026

    状況のご返信、ありがとうございました。

     

    >「ミックス」設定で再文字起こしをかけても、結果として生成されるシーケンステキストには、A1(またはA2)のどちらか一方の声しか並ばない、という状態です。

     

    こちら、私の手元の環境(Windows 11, Premiere v26.0)で確認する限り、ミックスで文字起こしするとA1とA2をミックスした音声で文字起こしがされております。参考までに画像を載せてみますので、設定が異なる部分など、なにか原因になりそうな部分はございませんでしょうか。

     

     

    ただ、文字起こしベースの編集をする上ではシーケンス文字起こしは使わないので、ひとまずこの検証は省略していただいても大丈夫かと思います。

     

    >そのため、オーディオトラックをマージせず、マルチトラックの状態を維持したままテキストベース編集を行いたい事情がございます。

     

    こちら、説明不足で失礼いたしました。ミックスした音声トラックはあくまでも語間の除去など「文字起こしベースの編集」をするために作成・貼り付けをしていただくということでして、元のトラックはミュートをかけて温存していただくといった流れを想定しておりました。

     

    こちらは、文字や静止画での説明が少し大変なので、動画で貼ってみますね。

    ※ループ再生されるgif動画です。一瞬画面が黒くなるところが、開始点です。

     

    A1にインタビュアー、A2にゲスト、A3にA1+A2の内容をWAV書き出ししたものを貼っていて、A3に貼ったミックス音声の文字起こしを利用して語間をカットしている様子です。

    動画の最初は、A1のインタビュアーの文字起こしが表示されてる状態です。A1をミュートすると、A2のゲストの文字起こしが表示されます。A2もミュートすると、A3のインタビュアー+ゲストの文字起こしが表示されます。この状態で、文字起こしベースの編集機能を用いて「語間」を一気に削除しています。その後A3の素材は不要なので、削除するという流れです。

     

    よく見ると、2人の声がかぶっている部分は、ミックスの文字起こしの精度が落ちている(言葉が重なっている部分が正しく文字起こしされていない)のですが、テロップ用ではなく語感をカットするのが主目的でしたら、あまり問題にはならないのではないかなと思います。

    150kw
    Community Expert
    Community Expert
    February 7, 2026

    こんにちは、​@yda.kyoumu05 さん

     

    オーディオ2トラックの同時文字起こしはできないようですので、次の2つの方法はいかがでしょうか。

    1.オーディオトラックを上書きする方法

    ①例えば、A2で話者2が話している部分を編集点を追加し、切り取ります。

    ②A2の切り取った部分をA1へ移動し上書きします。

     

    ③通常通り、文字起こしを行います。フィラーワードや語間の削除を行ってからキャプション作成を行います。

     

    2.オーディオ素材を直列に配置する方法

    ①A1に2個のオーディオ素材(話者1と2)を直列に配置し、文字起こしからフィラーワードや語間の削除、キャプション作成まで行います。

     

    ②後半の部分をA2とC2へ移動します。

     

    ③キャプションクリップの余分なところを詰めて、C1に移動してまとめます。

     

    *話者1と話者2の同時に話している部分は文字起こしできないと思います。

    *キャプションの作成まで終了したら、キャプションをグラフィックにアップグレードすることをお勧めします。

    yda.kyoumu05
    Participant
    February 7, 2026

    具体的な手順のご提案、ありがとうございます。

    いただいた方法はキャプション作成においては有効かと思いますが、今回の私の用途(ワークフロー)では採用が難しい事情がございます。
     

    1. 目的は「キャプション作成」ではなく「編集(カット)」
    今回はテロップを入れることではなく、Premiereの「文字起こしベースの編集」機能を使って、タイムライン上のクリップのフィラー除去を行うことが目的です。


    2. Pro Tools連携のためのトラック維持
    最終的にPro Toolsで整音・MAを行うフローを組みたいため、A1(話者1)とA2(話者2)を1つのトラックにまとめたり、直列に並べ替えたりして構造を崩すことは避けたいのです。

    本来の仕様であれば、「シーケンスから文字起こし(ミックス設定)」を行えば、トラックを移動せずともマスター出力を解析して、A1とA2が混ざったテキストが生成されるはず(と思っている)なのですが、そこが正常に機能せず片方しか認識されない点に困っております。

    もし「トラック構造を維持したまま(ミックス設定などで)」正常に認識させる方法をご存知でしたら、ご教示いただけますと幸いです。

    150kw
    Community Expert
    Community Expert
    February 7, 2026

    こんばんは、リアクション有難うございます。 

     

    タイムライン上のクリップのフィラー除去を行うことが目的です。

    >トラック構造を維持したまま・・・

    私には大変難しい内容ですが、下記内容間違っていれば無視していただけますか。

    ・「フィラー除去」とはPremiere Proで言う「フィラーワード除去」のことでしょうか。さらに「語間の除去」なども含まれるのでしょうか。

    ・「フィラー除去」の削除は「抽出」ではなく「リフト」を選択して行ったらいかがでしょうか。「リフト」ならタイムラインが詰まることはありません。