昔作ったVoiceVoxアプリを週末に改良した話

週末使ってガチャガチャやってました。

記事なにもやれてなかったので、生成AIに対話形式で内容引き出してもらって記事化した。

Q: 何をいじったの？

何年も前に作ったVoiceVoxのテキスト読み上げアプリがあって、今回は長文対応を追加しました。テキスト入力したら音声ファイルにして再生するやつです。ローカルで動くので外部API使いません。

別に凝ったことしてない普通の構成：

React → Next.js API → VoiceVox の単純な流れです。

長文対応が今回のメイン。VoiceVoxって文字数制限があるので：

同期だとタイムアウトするから。リクエスト来たらジョブID返して、別プロセスで処理して、フロントでポーリングしてます。DBのステータスカラムで進捗管理してるだけの単純な仕組み。

履歴機能もあるので、前に作った音声を再利用できます。

WAVファイル結合が一番面倒でした：

// WAVヘッダーの40バイト目からデータサイズ取得
const dataSize1 = view1.getUint32(40, true);
const dataSize2 = view2.getUint32(40, true);

// 新しいサイズでバッファ作成して音声データをコピー

あとは句読点での分割。最初は文字数だけで切ってたけど、生成AIが句読点考慮するよう改良してくれました。

private splitTextIntoChunks(text: string): string[] {
  const sentences = text.split(/([。！？\n])/);
  // 文の途中で切れないよう調整
}

いくつかありますが、個人用途なので当面放置：

VoiceVoxの特殊記法使えば無音問題は解決できそうですが、まあいつか。

リポジトリ1（メイン処理）: - VoiceGenerator.createLongVoice(): 長文処理のメインロジック - splitTextIntoChunks(): 句読点考慮の分割 - concatenateAudioBuffers(): WAVバイナリ結合

リポジトリ2（インフラ）: - docker-compose.yml: VoiceVoxコンテナ設定 - Prisma スキーマ: キュー管理のテーブル定義 - キューポーリング処理

特にWAVのバイナリ操作と非同期キューあたりは、似たようなことやる人には参考になるかも。

既存コードの活用が一番大事ですね。Next.js APIの流用、過去のDB設計の再利用で開発時間短縮できました。

あと生成AIとの協業。コア部分の設計は自分でやって、細かい改良（句読点分割とか）は生成AIに任せる分担が効率的でした。

週末の数時間で長文対応できたので、まあ満足です。