OPPO 在 CVPR2022 取得佳绩：7 篇论文入选、8 项挑战赛获奖

观点

2022

06/23

12:37

亚设网

年度计算机视觉顶级会议 CVPR（Conference on Computer Vision and Pattern Recognition 国际计算机视觉与模式识别会议）在新奥尔良落下帷幕。今年，OPPO 有七篇论文成功入选，跻身一流科技厂商之列。同时在广受关注的挑战赛上，OPPO 也取得了三项第一、一项第二、四项第三的良好成绩。

随着深度学习逐步成熟化规模化，人工智能技术从“感知智能”向“认知智能”迈进。AI 除了“看到”或“听到”，开始初步逐步具备像人类一样的思考能力。多模态融合、3D 视觉智能技术、自动机器学习等正在成为人工智能领域的关键研-究热点。OPPO 在上述领域都均实现论文收录，在 AI 关键学术领域取得创新突破。

OPPO 智能感知首席科学家郭彦东表示：“在 2012 年，为了图像识别任务而设计的深度神经网络重新给人工智能的研究与应用注入了能量。从此，人工智能（AI）技术迎来了飞速发展的 10 年。在 OPPO，我们持续推动人工智能完成像人一样复杂的感知与认知行为。比如，从无标签的海量数据中持续学习并迁移到下游具体任务，从几个有限视角中完整的重建 3D 信息；更高级别的认知能力，比如对美的理解与创作；以及具有自主行为能力的“实体 AI”(embodied AI)，比如自动驾驶场景中的行为预测等。很高兴 OPPO 继 2020 年首次亮相后，在短短的 3 年内就实现了 7 篇主会论文入选的好成绩。未来，我们希望继续向更基础、更前沿的 AI 领域探索，推动 AI 的商用落地，让创新科技更好地服务于人。”

7 篇论文获得收录，OPPO 正在助力 AI 认知水平升级

本次 CVPR2022 上，OPPO 共有 7 篇 CVPR 入选论文，涵盖多模态信息交互、三维人体重建、个性化图像美学评价、知识蒸馏等多个研究领域。

不同模态数据的特性各不相同，像文字、语言这样的信息概括性极强，而图像往往包含大量细节。在多模态数据下，能够在模态间建立起有效交互对于 AI 来说是一件十分有挑战性的事情。OPPO 研究人员基于 CLIP 模型提出了全新 CRIS 框架，使得 AI 能够更加细粒度地理解图像与文本两种模态的数据。即使输入包含多重信息的文本描述，该框架也能够准确聚焦到对应的图像区域，显示出强大的细粒度跨模态匹配能力。

当前，人类的智能和人工智能最重要的区别之一在于对于多模态信息的识别和理解。对于人类来说，我们往往可以同时理解文字和图像，并将其有效关联。但 AI 更多停留在识别阶段，很难将不同模态的信息精准对应。本次 OPPO 提出的创新方法可以帮助人工智能在多模态理解上更进一步。未来，随着相关技术的不断发展，人工智能可以真的可以像科幻小说中描述的那样，通过语言、听觉、视觉等多重信息去认知真实世界，真正地成为人们最好的“帮手”。

同样，在近期热门的三维人体重建领域，OPPO 研究院通过改进 NeRF 创新的动态角色建模方法，在业界首次实现了自动为宽松着装人体创建数字分身的工作。该建模方法仅通过分析摄像头所拍摄的 RGB 视频，就可以 1:1 精准还原人物动态细节，甚至包括衣服细小 logo 或纹理细节。衣服的建模还原一直是业界挑战较大的领域之一，因为人体姿态发生变化的同时衣服物料的形变非常复杂，从而导致 AI 难以解算像“裙摆”这样的部位形变。此举可有效降低三维人体重建的门槛，为在线虚拟试装购物、AI 健身乃至 VR / AR 虚拟世界的真正落地提供良好的技术基础。

随着 AI 图像识别能力的逐渐成熟，如何让 AI 具备图像审美能力成为新的难题。AI 的审美能力往往强关联训练所使用的数据和标注者的偏好，而人的审美往往是千人千面的，采用基于大数据的美学评价来为不同用户服务，这可能会引发人们对于“审美歧视”的讨论，造成不好的用户体验。因此，通过更精细化的数据和模型，准确捕捉不同用户的审美差异的个性化美学评价应运而生。

对此，OPPO 研究院联合西安电子科技大学李雷达教授，开创性地提出了带条件的 PIAA 算法（Conditional Personalized Image Aesthetics Assessment），首次从“用户主观偏好与图像美学相互作用，如何产生个性化品味”角度出发对 AI 模型进行优化。该算法可以基于不同用户画像信息实现个性化的审美评价，可以为用户在相册、相机、互联网内容推荐等场景中打造个性化体验，具有广阔的应用前景。

随该算法一并提出的带有丰富属性标注的个性化美学评价数据集也已宣布开源，为业界在个性化美学评价领域的研究提供了有价值的研究数据，目前该数据集已收到多家研究机构及高校的关注和问询。

此外，OPPO 提出的多视图三维语义平面重建技术能够准确解析场景的三维平面结构，并预测地面、桌面、墙面等平面的语义标注，其效果明显优于当前主流单视图重建架构。而联合清华大学提出的 INS-Conv (INcremental Sparse Convolution)，能达到更快及更准确的在线 3D 点云语义及实例分割推断，该技术可以有效降低环境识别对于终端算力的要求，为全自动驾驶、虚拟现实这样前沿技术的落地增加了可能。

斩获 NAS 挑战赛亚军 OPPO 创新模型助力 AI“轻量化”

在同期举办的挑战赛中，OPPO 也表现出色，在八大赛项中斩获佳绩。包括目前行业关注的神经网络架构搜索技术（NAS）赛道、足球行为检测（SoccerNet Action Spotting）赛道、足球回放定位（SoccerNet Replay Grounding）赛道、时序动作定位（ActivityNet temporal localization）赛道、大尺度视频目标分割挑战赛（The 4th Large-scale Video Object Segmentation Challenge）、ACDC 挑战赛（the ACDC Challenge 2022 on semantic segmentation in adverse visual conditions）和运动预测挑战赛（WAD Argoverse2 Motion Forecasting）。

从手机摄影到无人驾驶，深度学习模型走进越来越多行业。但深度学习非常依赖大数据和大算力，学习成本高，这也给前沿 AI 技术的商用落地带来了挑战。神经网络架构搜索技术（NAS）可自动发掘神经网络的最优架构，降低对人工经验和背景知识的依赖，让 AI 也可以实现“自主学习”。在比赛中，OPPO 研究人员通过优化训练超网过程中的模型参数遗忘及不公平的梯度下降问题，针对“继承”超网参数的 45000 个子网络，有效地提高了子网络在性能及性能排序上的一致性，最终取得了第二名的好成绩。

NAS 技术的发展使得研究人员只需训练一个大的超网络，然后通过继承超网参数方式低成本构建预测器，实现网络架构自我学习，从而高效地获得优于专家设计的深度学习模型。该技术可适用于当前大部分人工智能算法，可以帮助 AI 技术在移动端设备上的应用，让用户体验到 AI 技术快速落地带来的好处。

值得一提的是，继去年 OPPO 在足球行为分析（SoccerNet）赛道中取得动作定位（Action Spotting）和回放定位（Replay Grounding）双项第二名后，今年 OPPO 再次取得回放定位（Replay Grounding）第一名和动作定位（Action Spotting）赛项第三。

在 CVPR 2022 上，OPPO 还参加了三场高水准 Workshop 并发表演讲。其中，在 SLAM 研讨会上，OPPO 研究员邓凡就如何在智能手机、AR / VR 设备上运行实时 vSLAM 进行分享和讨论。研究员李毅康则在移动人工智能研讨会中发表了演讲，提出无监督的视频-文本跨模态哈希方法 ——CLIP4Hashing，为移动设备上的跨模态搜索提供重要思路。李薇参加 AICITY Workshop 并提出了基于多视角的动作定位系统，用来识别驾驶员行车时的异常行为。

以创新推动商用，OPPO 希望尽早让人们享受 AI 带来的便利

今年是 OPPO 参加 CVPR 的第三年，OPPO 在收录论文数量及挑战赛成绩保持上升的同时，研究领域也从人脸识别等应用领域向更基础的技术方向转移。

快速突破的成果来源于 OPPO 在 AI 领域的不懈投入。自 2015 年起，OPPO 在人工智能领域展开投入，成立相关研发团队，聚焦语言语义、计算机视觉等领域。2020 年初，OPPO 研究院正式成立智能感知与交互研究院，进一步深化 OPPO 对人工智能前沿科技的探索。目前，OPPO 在 AI 领域的全球专利申请超过 2650 件，广泛覆盖计算机视觉、语音技术、自然语言处理、机器学习等领域。

在“微笑前行”品牌使命的指引下，OPPO 也在和业界伙伴一道，不断推动人工智能（AI）技术从实验室真正走向生活。2021 年 12 月，OPPO 发布了首款自研影像专用 NPU—— 马里亚纳 X，具备强大算力、能效比和计算速度，能够让 AI 算法的运行速度达到空前水平，为用户解决手机长期难以解决的夜景视频画质问题。此外，基于强大的底层 AI 能力，OPPO 也发布了包括 CybeReal 全时空间计算 AR 应用、OPPO Air Glass、Omoji 等创新产品及功能，希望尽早创造更真实的数字新世界，为用户带来现实物理世界与虚拟数字世界的融合体验。

THE END

CVPR2022 OPPO 佳绩取得论文

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表亚设网的观点和立场。