Lyrical Generator
AIで「作字」を自動生成する
v0.0.2 — プロンプト実験中
カテゴリ
AI Pipeline Design / Extension Development
使用ツール
コスト
〜$0.30/1生成
課題
MVやリリックビデオで使われる「作字(sakuji)」——文字そのものをアート作品として装飾するタイポグラフィ——は、デザインスキルが必須の領域。Illustratorで1文字ずつ装飾を加え、書き出し、After Effectsに配置する工程だけで数時間を消費することも珍しくない。
「AIで作字を生成して、そのまま映像素材として使えないか?」
Pipeline
テキスト入力・プロンプト生成
AI画像生成(Flux or Nano Banana Pro)
背景除去(BiRefNet v2)
透過PNG / PSD 保存
After Effectsにインポート
採用したAIモデル
Nano Banana Pro
画像生成(テキスト描画が正確)
$0.15〜0.30/回
Flux 2 Pro / 1 Dev
画像生成(高品質装飾)
〜$0.05/回
BiRefNet v2
背景除去(解像度保持)
〜$0.001/回
試行錯誤:試して捨てたもの
Qwen-Image-Layered
レイヤー分離時に画質が大幅劣化
ESRGAN
RGBAのアルファチャンネルを破壊
SAM3
抽象的タイポグラフィを認識できない
発見
BiRefNetが最適解だった
レイヤー分離(Qwen)、超解像(ESRGAN)、セグメンテーション(SAM3)と3つのアプローチを試した結果、たどり着いたのは「背景除去に特化したモデルで十分」という結論。BiRefNet v2は元画像の解像度をそのまま保持し、処理コストもほぼゼロ。パイプラインが劇的にシンプルになった。
Nano Banana Proのテキスト描画精度
Google Gemini 3 Pro Imageベースの Nano Banana Pro は、Flux系と比較してテキスト描画の正確さが突出。日本語の作字生成には最も適していることが分かった。Flux系では背景を緑に指定すると全体の色パレットがグリーン系に引っ張られる問題も発見(→ 黒背景が安全)。