Multi-sentence Video Grounding for Long Video Generation
本文提出了一种创新的长视频生成方法,名为“多句子视频定位用于长视频生成”(Multi-sentence Video Grounding for Long Video Generation)。该方法首次将大规模视频片段检索与视频生成任务相结合,为长视频生成提供了一种新范式。这一方法旨在解决长视频生成中的两个主要难题:保持生成视频的时间一致性和降低生成过程中的高内存成本。
该方法分为三个步骤:首先,设计顺序场景文本提示作为视频定位的查询,利用视频数据库中检索到的视频片段来满足文本要求;其次,基于检索到的视频片段,采用视频编辑方法创建新的视频内容,同时保持检索视频的时间一致性,并通过分段甚至逐帧编辑降低内存成本;最后,尝试视频变形和个性化生成方法,以提高长视频生成的主题一致性,并通过消融实验结果为长视频生成的子任务提供参考。
实验结果表明,所提出的方法能够生成具有更好一致性的长视频。通过在不同的视频编辑和个性化方法上进行实验,证明了通过视频定位方法增强检索可以改善生成长视频的连续性和多样性。此外,通过不同视频编辑方法和视频变形及个性化应用的消融分析,为提高长视频生成性能提供了重要的参考。
Exposure Completing for Temporally Consistent Neural High Dynamic Range Video Rendering
Exposure Completing for Temporally Consistent Neural High Dynamic Range Video Rendering
本文提出了一种新颖的神经网络高动态范围(HDR)视频渲染方法,名为NECHDR,旨在解决从低动态范围(LDR)视频中渲染HDR视频时遇到的曝光变化和信息缺失问题。该方法通过时间维度上邻近LDR帧的插值,重构缺失曝光信息的LDR帧,从而在每个时间戳上提供完整一致的曝光信息,有效减少了噪声和重影伪影,提高了视频的时间一致性。
NECHDR框架采用特征编码器提取输入LDR帧的金字塔特征,然后送入曝光完成解码器和HDR渲染解码器。曝光完成解码器在每个特征金字塔级别上对邻近LDR帧的特征进行插值,与输入LDR图像的特征结合后作为HDR渲染解码器的输入。HDR渲染解码器估计粗糙的HDR结果和光流,光流有助于特征插值。最终,一个简单的混合网络用于整合插值LDR帧、输入帧和粗糙HDR帧,实现高质量和时间一致的HDR重建结果。
在多个公共基准测试上的广泛实验评估表明,NECHDR方法达到了最先进的性能。特别是,在Cinematic Video数据集上,与次优方法相比,NECHDR在2曝光和3曝光设置中分别提高了1.29dB和0.59dB的PSNR性能。此外,NECHDR在处理具有饱和度、噪声和运动的复杂场景时,能够提供准确的曝光完成结果,从而实现高质量和时间一致的HDR视频渲染。
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion
本文介绍了一种名为Streetscapes的系统,它能够生成大规模一致的城市街景视图。该系统通过结合街道地图、高度图以及文本提示,能够沿着预设的长路径生成高质量的街景图像序列。Streetscapes利用自回归视频扩散模型,突破了传统视频生成方法在长序列图像生成方面的限制。
Streetscapes系统基于最新的视频扩散技术,通过自回归框架实现长序列图像的生成,同时引入了新的时序插补方法以防止生成过程中的图像分布偏离现实城市图像。系统训练使用了Google Street View的图像数据和地图数据,这使得用户可以根据任何预设的城市布局生成城市景观,并且能够控制相机姿态和场景条件。
实验结果表明,Streetscapes在生成长距离一致街景方面具有显著优势。与现有的视频生成或3D视图合成模型相比,Streetscapes能够生成跨越多个城市街区的高质量街景,同时保持视觉质量和一致性。系统还支持通过文本描述控制输出Streetscapes的风格,例如天气和一天中的时间,以及混合不同地理风格的地图,展示了Streetscapes在创意场景生成应用中的潜力。