Step 1: プレゼンター画像生成
8種類の話者タイプ(受付、ニュースキャスター、PR担当、営業、YouTuber、講師、CEO、i2i)の画像を生成

使用技術: Imagen4 Ultra(t2i) + FLUX Kontext(i2i)
Step 2: 音声生成
自然な日本語音声を生成(会社紹介プレゼンテーション、30秒)
使用技術: MiniMax Speech-02-Turbo
Step 3: ベース動画生成
静止画から自然な動きのある動画を生成
使用技術: Hailuo-02 Pro
Step 4: リップシンク生成
音声に合わせた自然な口の動きを生成
使用技術: Pixverse Lipsync
Step 5: 字幕解析
音声からタイミング付き字幕を自動生成
subtitle.srt
1
00:00:00,000 --> 00:00:03,621
こんにちは!株式会社テックソリューションズです。
2
00:00:03,621 --> 00:00:08,027
弊社は平成七年に設立された、AI・IoT・クラウド技術を専門とする
3
00:00:08,027 --> 00:00:10,175
テクノロジー企業です。
4
00:00:10,175 --> 00:00:15,297
現在、三百名の技術者が最先端のデジタルソリューションを
5
00:00:15,297 --> 00:00:17,445
開発しています。
6
00:00:21,784 --> 00:00:25,000
お客様第一主義をモットーに、革新的なソリューションで、
7
00:00:25,000 --> 00:00:28,578
より良い未来づくりに貢献しています。どうぞよろしくお願いいたします。
使用技術: Claude (Anthropic)
Step 6: 字幕オーバーレイ
リップシンク動画に字幕を合成
使用技術: FFmpeg
使用技術スタック
AI Platform
Claude Code
Image Generation
Imagen4 Ultra
Video Generation
Hailuo-02 Pro
Pixverse Lipsync
Audio & Video
MiniMax Speech-02
FFmpeg
ワークフロー概要
6つのステップで完全自動化されたプレゼンター動画生成
Steps 1-2
コンテンツ準備
プレゼンター画像生成と音声作成
Steps 3-4
動画生成
ベース動画とリップシンク生成
Steps 5-6
最終仕上げ
字幕解析と動画合成