テキストから動画生成
テキストプロンプトから、同期された音声付きの映画的な動画クリップを生成。
画像から動画モード
ソース画像(最大5MB)を最初のフレーム参照としてアップロードし、画像から動画を生成。
音声・動画統合合成
15Bパラメータの統合Transformerがテキスト、画像、動画、音声のトークンをネイティブに処理し、同期された出力を実現。
高速1080p出力
DMD-2蒸留とMagiCompilerアクセラレーションにより、テキストプロンプトから約38秒でプロダクションレベルの1080p動画を生成。
7言語リップシンク
英語、中国語(北京語)、広東語、日本語、韓国語、ドイツ語、フランス語をネイティブサポートし、超低ワードエラーレートのリップシンクを実現。
解像度オプション
720p(デフォルト)、1080p、または4K出力から選択可能。
アスペクト比選択
9:16または16:9のアスペクト比で動画を生成。
プロンプトガイダンス
被写体、動き、フレーミング、ペース、音声の意図を明確に記述したプロンプトにより、生成品質が向上。
Happy Horseは、テキストから動画、画像から動画を生成するオープンソースのAI動画モデルです。音声・動画の同時生成、多言語リップシンク、高速1080p出力に対応しています。
分類:テキストを動画に変換
アクセスリンク:https://happyhourse.com/
タグ:オープンソース、テキストから動画、画像から動画、リップシンク、1080p