kamuicode Workflows

Presenter Video Generation Demo

AI技術を活用したプレゼンター動画自動生成ワークフローのデモンストレーション

GitHub Repository

Step 1: プレゼンター画像生成

8種類の話者タイプ(受付、ニュースキャスター、PR担当、営業、YouTuber、講師、CEO、i2i)の画像を生成

プレゼンター画像グリッド

使用技術: Imagen4 Ultra(t2i) + FLUX Kontext(i2i)

Step 2: 音声生成

自然な日本語音声を生成(会社紹介プレゼンテーション、30秒)

使用技術: MiniMax Speech-02-Turbo

Step 3: ベース動画生成

静止画から自然な動きのある動画を生成

使用技術: Hailuo-02 Pro

Step 4: リップシンク生成

音声に合わせた自然な口の動きを生成

使用技術: Pixverse Lipsync

Step 5: 字幕解析

音声からタイミング付き字幕を自動生成

subtitle.srt
1
00:00:00,000 --> 00:00:03,621
こんにちは!株式会社テックソリューションズです。

2
00:00:03,621 --> 00:00:08,027
弊社は平成七年に設立された、AI・IoT・クラウド技術を専門とする

3
00:00:08,027 --> 00:00:10,175
テクノロジー企業です。

4
00:00:10,175 --> 00:00:15,297
現在、三百名の技術者が最先端のデジタルソリューションを

5
00:00:15,297 --> 00:00:17,445
開発しています。

6
00:00:21,784 --> 00:00:25,000
お客様第一主義をモットーに、革新的なソリューションで、

7
00:00:25,000 --> 00:00:28,578
より良い未来づくりに貢献しています。どうぞよろしくお願いいたします。

使用技術: Claude (Anthropic)

Step 6: 字幕オーバーレイ

リップシンク動画に字幕を合成

使用技術: FFmpeg

使用技術スタック

AI Platform

Claude Code

Image Generation

Imagen4 Ultra

Video Generation

Hailuo-02 Pro
Pixverse Lipsync

Audio & Video

MiniMax Speech-02
FFmpeg

ワークフロー概要

6つのステップで完全自動化されたプレゼンター動画生成

Steps 1-2
コンテンツ準備

プレゼンター画像生成と音声作成

Steps 3-4
動画生成

ベース動画とリップシンク生成

Steps 5-6
最終仕上げ

字幕解析と動画合成