LocalNarratorTTS
ローカルAIで自分の声のナレーションを生成する
v1.3.0 — テキスト自動分割・連続配置対応
完全ローカル動作
音声データは外部に送信されない。初回モデルDL後はインターネット不要。
ボイスクローン
参照音声(自分の声)の声質を再現。汎用合成音声ではない、自分の声で生成。
無料・無制限
クラウドTTSの文字数課金なし。一度セットアップすれば何度でも生成可能。
高速生成
サーバーモードなら10〜15秒で生成完了。クラウドのキューイング待ちなし。
課題
ナレーションが必要になるたびに収録スケジュールを調整する。自宅収録でも、静かな環境の確保、マイクのセッティング、何テイクも録り直し。一般的なクラウドTTSには「自分の声ではない」「音声データが外部に送信される」という2つの問題がある。
自分の声をクローンして、完全にローカルで動作するTTSを作る。
Pipeline
参照音声を選択(自分の声の録音サンプル)
テキスト入力
300文字以上なら自動分割を提案
ローカルAIモデルで音声合成
WAV生成 → Premiere Pro に自動インポート
タイムラインに連続配置(隙間なし)
2つの動作モード
| モード | 初回 | 2回目以降 | 用途 |
|---|---|---|---|
| 通常モード | 約25秒 | 約25秒 | 1〜2回の生成 |
| サーバーモード | 約25秒 | 10〜15秒 | 大量生成向け |
長文テキストの自動分割
300文字以上のテキストは句点「。」で自動分割。確認ダイアログでセグメント数を表示し、ユーザー確認後に順次生成。各セグメントはタイムラインに隙間なく連続配置される。
5秒ごとに進捗表示:「セグメント 3/10 (45秒経過、残り約105秒)」
| テキスト長 | セグメント数 | 所要時間 |
|---|---|---|
| 1,000文字 | 3〜4 | 約90秒 |
| 3,000文字 | 10前後 | 約5分 |
| 7,000文字 | 20〜25 | 約12分 |
多言語対応
参照音声の声質を保ったまま、異なる言語でナレーション生成が可能。
クロスプラットフォーム
macOS
Apple Silicon / Intel 対応。install.command でワンクリックセットアップ。配布ZIP 約62KB。
Windows
Windows 10/11 対応。install_windows.bat でセットアップ。配布ZIP 約60KB。
必要なAIモデルはインストール時に自動ダウンロード。