Advances in Multimodal Video Generation and Analysis

The field of multimodal video generation and analysis is rapidly evolving, with a focus on improving the quality and efficiency of video-to-audio synthesis, text-to-video generation, and audio-visual video parsing. Recent developments have seen the introduction of novel approaches, such as the use of latent diffusion models, flow matching models, and collaborative multi-modal conditioning, to enhance the accuracy and speed of these tasks. Additionally, there is a growing emphasis on leveraging external text data sources to improve motion captioning and audio-visual video parsing. Noteworthy papers in this area include: Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement, which proposes a training-free framework for enhancing identity preservation and video quality in text-to-video generation. Hierarchical Motion Captioning Utilizing External Text Data Source, which introduces a hierarchical approach to motion captioning that leverages external text data sources to improve accuracy. TEn-CATS: Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph, which proposes a method for audio-visual video parsing that combines the strengths of attention mechanisms and pseudo-label generation. Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper, which introduces a mapper network that connects pre-trained visual encoders with text-to-audio generation models for efficient video-to-audio generation. MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation, which proposes a MeanFlow-accelerated model for one-step video-to-audio synthesis. LatentVoiceGrad: Nonparallel Voice Conversion with Latent Diffusion/Flow-Matching Models, which introduces latent diffusion models and flow matching models for nonparallel voice conversion. HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning, which presents a unified framework for collaborative multimodal control in human-centric video generation.

Advances in Multimodal Video Generation and Analysis

Sources