你的位置：开云(中国)kaiyun网页版登录入口 > 新闻动态 > 欧洲杯体育尤其是在顶点视角（如 180 ° 旋转）下-开云(中国)kaiyun网页版登录入口

欧洲杯体育尤其是在顶点视角（如 180 ° 旋转）下-开云(中国)kaiyun网页版登录入口

发布日期：2025-08-18 06:07 点击次数：57

新闻动态

从单张图像生成机动视角 3D 场景的工夫来了，在考古保护、自主导航等径直获取 3D 数据本钱昂贵或不成行的领域具有蹙迫应用价值。这一任务现实上是高度不适定的：单一的 2D 图像无法提供弥散的信息来摈斥完整 3D 结构的歧义，尤其是在顶点视角（如 180 ° 旋转）下，先前被躲避或缺失的内容可能会引入显耀的不确信性。生成模子，独特是扩散模子，为科罚这一问题提供了一种潜在的工夫旅途。尽管现存门径往往依赖预锻练的生成模子行为新视角合成的先验，但它们仍濒临显耀挑战。举例，基于图像的扩散门径容易积

详情

从单张图像生成机动视角 3D 场景的工夫来了，在考古保护、自主导航等径直获取 3D 数据本钱昂贵或不成行的领域具有蹙迫应用价值。

这一任务现实上是高度不适定的：单一的 2D 图像无法提供弥散的信息来摈斥完整 3D 结构的歧义，尤其是在顶点视角（如 180 ° 旋转）下，先前被躲避或缺失的内容可能会引入显耀的不确信性。

生成模子，独特是扩散模子，为科罚这一问题提供了一种潜在的工夫旅途。尽管现存门径往往依赖预锻练的生成模子行为新视角合成的先验，但它们仍濒临显耀挑战。

举例，基于图像的扩散门径容易积累内容罪责，基于视频的扩散方轨则难以处理可能生成的动态内容构建静态 3D 场景的影响。最近的询查尝试通过在视频扩散模子中引入点云先验来擢升一致性，天然取得了一定进展，但在可彭胀性方面仍存在局限，尤其是在大视角变化下的推崇存待擢升。

针对上述问题，东谈主大高瓴李崇轩、文继荣团队、北师大王一凯团队与字节跨越的询查员建议了一种新门径 FlexWorld，用于从单张图像生成机动视角的 3D 场景。

与现存门径不同，FlexWorld 通过合成和整合新的 3D 内容，慢慢构建并彭胀一个握久的 3D 默示。

该门径包含两个中枢组件：

( 1 ) 一个苍劲的视频到视频（video-to-video, V2V）扩散模子，用于从约略场景渲染的不完整图像生成完整的视角图像； ( 2 ) 一个几何感知的 3D 场景彭胀经由，用于索要新的 3D 内容并将其整合到全局结构中。询查团队在精准深度运筹帷幄的锻练数据上对先进的视频基础模子进行了微调，使其大约在大幅度相机变化下生成高质料内容。

基于 V2V 模子，场景彭胀经由通过相机轨迹筹算、场景整合和细化法子，慢慢从单张图像构建出因循机动视角不雅察（包括 360 ° 旋转和缩放等）的 3D 场景生成。

通过多量实验，询查团队考证了 FlexWorld 在高质料视频和机动视角 3D 场景合成方面的性能。FlexWorld 在生成大幅度相机变化适度下的视频中展现了出色的视觉质料，同期在生成机动视角 3D 场景时保握了较高的空间一致性。为促进学术酌量和工夫实践，团队已开源关系代码仓库与锻练权重，供询查社区进一步探索和应用。

性能展示

因循大幅转角的视频到视频生成‍

在多种不同起首的输入图像和相机轨迹下，FlexWorld 中微调的视频模子不错生成较高质料且 3D 一致的视频内容。受益于较好的一致性，这些视频不错径直用于 3D 重建，为后续生成机动视角的场景提供了较好的视觉内容。

机动视角的场景生成

左证单张图片输入，FlexWorld 不错生成机动视角下的 3D 场景，这些生成的场景不错在 360 度旋转，前进和后退等视角进行探索。这些场景通过多段视频逐步构筑生成，旨在彭胀出更大的可探索区域，而非仅热诚前线区域。

中枢门径

下图展示了 FlexWorld 的合座框架。

慢慢构建场景

FlexWorld 接纳多段视频慢慢构建出一个具有更大可探索区域的场景。在场景内容不及的区域，FlexWorld 渲染出该区域的破败场景视频，并通过一个经过微调的视频到视频模子，得回补完的场景视频。在场景交融阶段，视频中的重要帧将会被填充置入场景的不及区域，其他帧则会行为场景默示（即 3D Gaussian splatting）的参考图像优化合座场景表征。

因循大转角的视频到视频模子

FlexWorld 中包含一个经过微调的视频模子，该模子以视频行为要求，不错从破败的输入视频中捕捉到相机运行轨迹，输出相宜输入轨迹的无缺视频，保握精采的 3D 一致性。该视频模子采纳 CogVideoX-5B-I2V 行为基座模子，并构造了一系列深度精采的破败视频 - 精采视频锻练对。不同于依赖深度运筹帷幄模子得回的锻练对，FlexWorld 构建的锻练对来自于归并场景密集重建提供的深度，这种锻练对使模子遥远明确应该开垦的区域，从而大约在推理时因循更大转角的相机畅通。

基于视频内容的场景交融

FlexWorld 一方面通过高斯优化将多段视频内容交融进握久化的 3D 表征中，另一方面通过密集立体模子和深度交融战略，将多段视频的重要帧径直行为启动三维高斯加入表征行为启动化，以充分运用深度运筹帷幄模子提供的先验和视频里面的一致性。

纪念

本文先容了 FlexWorld，这是一个从单张图像生成机动视角 3D 场景的框架。它汇聚了一个微调的视频到视频扩散模子，用于高质料的新视角合成，以及一个渐进的机动视角 3D 场景生成经由。通过运用先进的预锻练视频基础模子和精准的锻练数据，FlexWorld 大约处理大幅度的相机姿态变化，从而达成一致的、因循 360 ° 旋转和前进后退不雅察的 3D 场景生成。多量实验标明，与现存门径比较，FlexWorld 在视角机动性和视觉质料性能方面推崇优异。咱们信赖 FlexWorld 具有宽广的出路，并在杜撰现实内容创作和 3D 旅游领域具有蹙迫后劲。

本文由中国东谈主民大学高瓴东谈主工智能学院李崇轩、文继荣耕作团队、北京师范大学东谈主工智能学院王一凯副耕作和字节跨越共同完成。共归并作陈路晰和周子晗划分是中国东谈主民大学高瓴东谈主工智能学院的博士生与硕士生，导师为李崇轩副耕作。王一凯副耕作、李崇轩副耕行为共同通信作家。

论文联络：https://arxiv.org/abs/2503.13265

表情地址：https://ml-gsai.github.io/FlexWorld/

代码仓库：https://github.com/ML-GSAI/FlexWorld

一键三连「点赞」「转发」「注重心」

宽宥在批驳区留住你的思法！

— 完 —

学术投稿请于使命日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿内容‍

附上论文 / 表情主页联络，以及酌量形势哦