资讯详情

英特尔实验室通过两种新的AI模型推进计算机视觉开发

2023-03-27 10:43:304636

VI-Depth 1.0 和 MiDaS 3.1 开源 AI 模型改进了计算机视觉的深度估计。

深度估计是一项具有挑战性的计算机视觉任务，需要在机器人技术、增强现实 (AR) 和虚拟现实 (VR) 中创建广泛的应用程序。现有的解决方案往往难以正确估计距离，而这是在视觉导航方面帮助规划运动和避开障碍物的关键方面。英特尔实验室的研究人员正在通过发布两种用于单眼深度估计的 AI 模型来解决这个问题：一种用于视觉惯性深度估计，一种用于稳健的相对深度估计 (RDE)。

最新的 RDE 模型 MiDaS 3.1 版仅使用单个图像作为输入来预测稳健的相对深度。由于其在大型和多样化的数据集上进行训练，它可以在更广泛的任务和环境中有效地执行。最新版本的 MiDaS 通过其更大的训练集和更新的编码器骨干将 RDE 的模型精度提高了约 30%。

MiDaS 已被纳入许多项目，最著名的是 Stable Diffusion 2.0，它启用了深度到图像的功能，可以推断输入图像的深度，然后使用文本和深度信息生成新图像。例如，数字创作者Scottie Fox使用 Stable Diffusion 和 MiDaS 的组合来创建 360 度 VR 环境。这项技术可能会带来新的虚拟应用，包括法庭案件的犯罪现场重建、医疗保健的治疗环境和身临其境的游戏体验。

虽然 RDE 具有良好的通用性和实用性，但缺乏规模会降低其对需要度量深度的下游任务的实用性，例如地图绘制、规划、导航、对象识别、3D 重建和图像编辑。英特尔实验室的研究人员正在通过发布 VI-Depth 来解决这个问题，VI-Depth 是另一种提供准确深度估计的人工智能模型。

VI-Depth 是一种视觉惯性深度估计管道，它集成了单目深度估计和视觉惯性里程计 (VIO)，以生成具有公制尺度的密集深度估计。这种方法提供了准确的深度估计，有助于场景重建、映射和对象操作。

结合惯性数据可以帮助解决尺度歧义。大多数移动设备已经包含惯性测量单元 (IMU)。全局对齐确定适当的全局比例，而密集比例对齐 (SML) 在本地运行并将区域推向或拉向正确的度量深度。SML 网络利用 MiDaS 作为编码器主干。在模块化管道中，VI-Depth 将数据驱动的深度估计与 MiDaS 相对深度预测模型以及 IMU 传感器测量单元相结合。数据源的组合允许 VI-Depth 为图像中的每个像素生成更可靠的密集度量深度。

MiDaS 3.1和VI-Depth 1.0可在 GitHub 上获得开源 MIT 许可。

有关更多信息，请参阅“用于密集预测的视觉变换器”和“迈向稳健的单眼深度估计：混合数据集以进行零样本跨数据集传输”。

资讯详情

英特尔实验室通过两种新的AI模型推进计算机视觉开发

人工智能价格下跌：如何利用、挑战和主要考虑因素

数字化转型如何为银行业带来变革

相关资讯