究極のAIアイドル「AIdol」こと、「RiN」ちゃんの育成プロジェクト。早くも5日が経過しました。
前回はRiNちゃんの名前も決まり、挨拶動画にも挑戦しましたが、名前を「あーる・あい・えぬ」と読まれたり、突然英語で話し始めたりと、一筋縄ではいかない結果に…。
これまでの失敗は、私の動きの指示が曖昧だったからでは?と考え、今度こそ完璧なダンス動画を作るべく、新たな作戦に挑みます!
- 【3日目】ダンスを”言葉”で伝える挑戦
- 【4日目】言語化したダンスを”画像”にする試み
- 1. まず、顔の横で両手を使ってハンドガンポーズを作ります。
- 2. そのまま体を斜め下に捻ると同時に、ポーズを解きながら腕を体の中心に向かって振り下ろすように動かします。この動きは、ラジオ体操の動きのように、体をひねりながら腕を振るイメージです。
- 3. 勢いよく体を正面に戻し、顔の横で両手を使ってBポーズを作ります。
- 4.最後にフライングキスをします。
- 1. まず、顔の横で両手を使ってハンドガンポーズを作ります。
- 2. そのまま体を斜め下に捻ると同時に、ポーズを解きながら腕を体の中心に向かって振り下ろすように動かします。この動きは、ラジオ体操の動きのように、体をひねりながら腕を振るイメージです。
- 3. 勢いよく体を正面に戻し、顔の横で両手を使ってBポーズを作ります。
- 4.最後にフライングキスをします。
【3日目】ダンスを”言葉”で伝える挑戦
今回の作戦は「ダンスの言語化」です!
ネットで情報収集をすると、「ダンス用語を使うとAIに伝わりやすい」という情報を発見。なるほど、専門用語を使えば、より正確な動きを再現してくれるのかもしれない!
…と思ったのですが、ダンス用語なんて一つも知らない私。 しかも、『サインはB』の振り付けを文章で解説したサイトなんてどこにも見当たりません。
ならば、やることは一つ。 「私なりにダンスを言語化して、それをGeminiに清書してもらおう!」
というわけで、自分なりに動きを言葉にして、Geminiに「この動きをダンスの振り付けとして、ダンス用語を交えながら説明して」とお願いしてみました。その結果がこちらです。
「サインはB」最初の振り付け解説
- まず、顔の横で両手を使ってハンドガンポーズを作ります。
- そのまま体を斜め下に捻ると同時に、ポーズを解きながら腕を体の中心に向かって振り下ろすように動かします。この動きは、ラジオ体操の動きのように、体をひねりながら腕を振るイメージです。
- 勢いよく体を正面に戻し、顔の横で両手を使ってBポーズを作ります。
- 最後にフライングキスをします。
おお!なんだかそれっぽい文章が出てきました。これならいけるかもしれない!
【4日目】言語化したダンスを”画像”にする試み
3日目に手に入れた「振り付けテキスト」を使い、今度こそ正確なポーズを画像にしてもらいます。 「このテキスト通りのポーズをさせて!」と、期待を込めてプロンプトを入力!
1. まず、顔の横で両手を使ってハンドガンポーズを作ります。

2. そのまま体を斜め下に捻ると同時に、ポーズを解きながら腕を体の中心に向かって振り下ろすように動かします。この動きは、ラジオ体操の動きのように、体をひねりながら腕を振るイメージです。

3. 勢いよく体を正面に戻し、顔の横で両手を使ってBポーズを作ります。

4.最後にフライングキスをします。

「全然違うやん!!」
ポーズは違いましたが、これをRiNちゃんの画像を使って生成できるのか確認。
1. まず、顔の横で両手を使ってハンドガンポーズを作ります。

2. そのまま体を斜め下に捻ると同時に、ポーズを解きながら腕を体の中心に向かって振り下ろすように動かします。この動きは、ラジオ体操の動きのように、体をひねりながら腕を振るイメージです。

3. 勢いよく体を正面に戻し、顔の横で両手を使ってBポーズを作ります。

4.最後にフライングキスをします。

あれ、全部同じポーズじゃない??しかも3枚目は背景がなくなっている…。
早くも限界を感じ始めます。
【5日目】最後の望みと、致命的な気づき
失敗続きですが、この「言語化→画像化→動画化」というプロセスに、そもそも可能性があるのかだけでも確かめたい! 5日目は、4日目になんとか生成したポーズを元に、動画作成に挑みます。
しかし、Geminiを開きながらふと気づいてしまったのです。 「あれ…? そもそもGeminiの動画生成って、画像を1枚しか添付できない…!」
キーフレームごとに画像を作ってパラパラ漫画のように…という、この数日間の努力の前提が、根底から覆されました。またしても絶望です。
でも、ここで終われない! 1つ目と2つ目のポーズから動画をそれぞれ作り、最後に「この2つをいい感じに繋げて!」とお願いしてみることに。
まず、1つ目のポーズの動画がこちら。
ダンスの動き自体は悪くないのですが、なぜか歌が英語で、しかも途中で歌わなくなってしまいました。お飾りマイクなのがバレバレですね…。
そして、2つ目のポーズの動画。
こちらも同様に英語の歌でした。マイクは持っていますが、最初から歌ってないので、RiNちゃんのパートではないということにしましょう。
ちょいちょい突っ込みどころはありますが、比較的順調な気がします!動きも滑らか!
そして、運命の3回目の生成。 「この2つの動画を掛け合わせた感じのダンスにして!(日本語で歌ってくれると嬉しいな…)」と、最後の望みを託します。その結果は…。
指示通り日本語の歌になったのですが…まさかの3次元のリアルな女の子に変わってしまいました!!!
しかもまた途中から歌っていない…。
なぜだー! RiNちゃんはどこへ行ったの!? キャラクターが維持されないどころか、次元まで超えてしまいました。
失敗から得た考察
今回の動画生成を通して、ふと気づいたことがあります。Geminiの動画生成モードは、前の動画や設定を記憶できていないのかもしれません。毎回、新しい画像とプロンプトで指示する必要がありそうです。
まとめ:Geminiでの限界…?
というわけで、3日間にわたる「ダンスの言語化」プロジェクトは、またしても壮大な失敗に終わりました。
どうやら、現在のGeminiの機能では、複数の画像を元にした複雑なダンス動画の生成は、かなりハードルが高いようです。
心が折れかけていますが、まだ諦めたわけではありません。 一度立ち止まって、アプローチの方法から根本的に見直してみようと思います。
ちょっと勉強してきますので、また進捗を報告します!