幼女秀场我校多篇论文被揣摸机视觉领域顶级会议CVPR 2023托付

发布日期：2024-10-05 20:58 点击次数：183

近日我校多篇论文被东说念主工智能与揣摸机视觉领域的CCF A类顶级会议CVPR 2023托付幼女秀场，彰显了我校在科研和学生学术翻新智商培养方面的收效。

颜成钢老师团队以杭电为第一单元的论文“Gaussian Label Distribution Learning for Spherical Object Detection”被揣摸机视觉领域的CCF A类顶级会议CVPR 2023主会（main conference）经受，该论文的合营单元有中国科学院揣摸工夫商议所。论文第一作家是我校“智能信息处理实验室”(HDU IIPLab)的博士商议生徐杭。

全景视觉数据是通过全景数据汇集斥地汇集得到的全景图像或全景视频，它包含了空间中全地方360度的视觉信息，具有“视线全、可交互、千里浸感强”的特色。这使得其在许多领域齐得到了很好的应用，如凭空践诺、机器东说念主、视频监控等。本商议使命专注于全景视觉缱绻检测领域，提议了一种简便灵验的追忆亏空函数来提高全景视觉缱绻检测算法的性能。具体来说，在查验阶段，率先将展望的球面矩形框和真正的球面矩形框的切面调治成高斯漫衍。然后，使用K-L散度来度量两个漫衍之间的距离。在测试阶段，径直从已查验模子中获取球形包围框的输出，因此汇集的推理时辰保捏不变。通盘这个词门径的框架如下所示：

图1 查验模子框架

男同小说

论文“Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering”商议了何如诈欺“外部学问”进行跨媒体推理的挑战性问题。GPT-3、ChatGPT等大畛域说话模子里面蕴含了丰富的学问，何如将其算作隐式学问库来进行推理是跨媒体商议的挑战性问题。本文提议的Prophet门径提议一种 “谜底启发”的通用跨媒体推理框架，通过在大模子上游引入一个可学习的任务辩论视觉问答小模子，来更好地激勉大模子的后劲。该论文第一作家为媒体智能实验室硕士商议生邵镇炜同学，通信作家为揣摸机学院余宙老师。邵镇炜同学患有“进行性脊肌萎缩症”，肢体一级残疾，莫得生计自聪敏商，生计和学习需要母亲全程护士。他长年坚捏与病魔拒抗，同轮椅为伴，文爱聊天克服因体魄残障带来的各样未便，并勤奋追求超卓。2017年以644分的收货被杭州电子科技大学揣摸机科学与工夫专科登第，大学时期获取2018年中国大学生自立之星、2020年度国度奖学金和浙江省优秀毕业生等荣誉。2021年通过商议生推免的时势加入媒体智能实验室攻读硕士商议生。

图2 通用跨媒体推理框架

论文 "Masked and Adaptive Transformer for Exemplar Based Image Translation"提议了一种新颖的基于示例的图像翻译框架，主要贵重跨域间建造准确的语义对应关系，以学得示例作风图像生成。该使命提议了 “masked and adaptive transformer” 结构来学习对应关系以实施险峻文感知的特征增强。在对比学习敛迹和全局作风注入的调换下，可生成高质料作风图像。该论文第一作家为揣摸机学院智能可视建模与仿真正验室（iGame-Lab）2021级硕士商议生蒋畅，通信作家为高飞副老师，论文的合营者包括硕士生马彪、林裕浩，西安电子科技大学王楠楠老师和杭电iGame实验室厚爱东说念主徐岗老师。

论文"ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed Videos"构建了现在最大的面向复杂长视频的问答数据集，通过东说念主工标注“细粒度”视频场景图，在1万个长视频上自动生成了14亿问答样本，过滤均衡后最终酿成1300万样本，比现存最大的视频问答数据集（斯坦福大学的AGQA）大一个数目级，在问答细粒度方面上风昭彰。论文第一作家为余宙老师，通信作家为俞俊老师，硕士商议生郑力祥同学参与了本文的主要使命。

图3 ANetQA框架

图4 Masked and Adaptive Transformer图像翻译效果图

论文“Trajectory-Aware Body Interaction Transformer for Multi-Person Pose Forecasting”以多东说念主动作展望为商议地方。该论文为东说念主文艺术与数字媒体学院智能媒体揣摸商议所最新商议恶果，论文第一作家为硕士生彭小刚，第二作家为硕士生毛想远，通信作家为吴子朝副老师。多东说念主三维东说念主体姿态（通顺）展望在揣摸机视觉和东说念主工智能领域齐有着弘远的应用价值，举例东说念主机交互，无东说念主驾驶，智能监控和凭空践诺等，其科罚的任务是字据不雅察到的一段通设施列去尽可能准确地展望异日的姿态变化和通顺轨迹。现存的大部分商议门径基本齐基于单东说念主姿态展望，莫得酌量东说念主与东说念主之间的复杂交互影响，如下图5所示。此外基于单东说念主展望的门径主要贵重何如建模东说念主体的局部姿态通顺而忽略了在三维环境中的全局位置变化。比年来，天然逐步出现了一些多东说念主姿态展望的使命来科罚上述问题，但这些门径只简便将东说念主体姿态序列表征成时序序列来建模东说念主体之间的通顺辩论性，莫得愈加细粒度地去建模东说念主体之间的体魄部位交互。

图5. (a) 复杂场景下的多东说念主通顺交互，其交互进度有高有低。(b) 对于体魄部位交互的建模想路。

因此，商议团队提议一个基于轨迹感知的体魄互动Transformer模子去灵验建模多东说念主之间的体魄部位互动。为了给Transfomer模子输入更灵验的数据，咱们先引入一个时序部位差别模块，将每个东说念主的姿态通设施列按照体魄部位进行差别并把通盘东说念主差别好的序列拼接成一个合座，称作多东说念主体魄部位序列(MPBP) 。该序列包括了多东说念主的时序和体魄部位信息。咱们的门径在辩论数据集的短期 (0.2 —1.0s) 和恒久 (1.0—3.0s) 展望任务上齐默契出最好的性能。

CVPR（Computer Vision and Pattern Recognition）是东说念主工智能与揣摸机视觉领域最高档别的外洋顶级学术会议，亦然中国揣摸机学会（CCF）保举的A类外洋学术会议，每年六月召开一次。会议于6月18日-22日在加拿大温哥华召开，本年CVPR共收到了创记录的9155篇投稿论文，托付2360篇论文，托付率约为25.78%。

上一篇：激色猫小叮当建立于意淫也仅止于意淫？
下一篇：裸舞原AV女星MIHIRO自曝爱志村健两东谈主收支32岁

幼女秀场 我校多篇论文被揣摸机视觉领域顶级会议CVPR 2023托付

幼女秀场我校多篇论文被揣摸机视觉领域顶级会议CVPR 2023托付