斯坦福大学和谷歌推出MELON 可确定以对象为中心的摄像头姿态-汽车资讯-盖世汽车社区

首页 > 资讯 > 新技术 > 斯坦福大学和谷歌推出MELON 可确定以对象为

斯坦福大学和谷歌推出MELON 可确定以对象为中心的摄像头姿态

盖世汽车刘丽婷 2024-03-25 10:34:28

盖世汽车讯虽然人类可以轻松地从2D图像推断出物体的形状，但计算机在不知道摄像头姿态（camera poses）的情况下很难重建准确的3D模型。这个问题被称为姿态推断，对于各种应用至关重要，例如为电子商务创建3D模型和辅助自动驾驶车辆导航。现有技术依赖于预先收集摄像头姿态或使用生成对抗网络（GAN），无法准确有效地解决问题。据外媒报道，来自谷歌（Google）和斯坦福大学（Stanford University）的研究人员推出MELON，来应对由于未知的姿态选择而从2D图像重建3D对象的挑战。

斯坦福大学谷歌.png

图片来源：谷歌

传统上，神经辐射场（Neural Radiance Fields，NeRF）或3D高斯分布等方法已在摄像头姿态已知的情况下成功重建3D对象。然而，当这些姿态未知时就会出现挑战，导致不适定问题。以前的技术，如BARF或SAMURAI，依赖于初始姿态估计或涉及GAN的复杂训练方案。相比之下，MELON提供了一种更简单但有效的方法。通过利用轻量级CNN编码器进行姿态回归，并引入考虑对象伪对称性的模损失，MELON可以从未姿态图像中以最先进的精度重建3D对象。该方法消除了对近似姿态初始化、复杂训练方案或对标记数据进行预训练的需要，使其成为3D重建任务中姿态推断的有前景的解决方案。

MELON的方法涉及两项关键技术。首先，它利用动态训练的CNN编码器从训练图像中回归摄像头姿态。该CNN从噪声中初始化，无需预训练，通过强制相似外观的图像呈现相似的姿态，有效地规范了优化过程。其次，MELON引入了模损失，同时考虑对象的伪对称性。

通过从每个训练图像的一组固定视点渲染对象，并仅通过最适合训练图像的视图反向传播损失，MELON有效地解决了问题的不适定性质。此外，通过将这些技术集成到标准NeRF培训中，MELON简化了流程，同时取得了有竞争力的结果。对NeRF合成数据集的评估表明，MELON能够快速收敛到准确的姿态，并生成高保真度的新颖视图，即使是从极其嘈杂的未姿态图像中也可以保证产出。

总之，MELON被证明是解决从姿态未知的图像重建3D对象这一挑战性问题的有前途的解决方案。其轻量级CNN编码器和考虑伪对称性的模损失的引入使MELON能够实现最先进的精度，而无需近似姿态初始化或复杂的训练方案。

斯坦福大学和谷歌推出MELON 可确定以对象为中心的摄像头姿态

新闻分类