題目:高效視頻理解
主講人:常曉軍 教授
時間:9月20日9:00
地點:文理樓804
報告摘要:
探討視頻理解領域的前沿進展,重點介紹三項關鍵工作。
一是介紹時空金字塔變壓器(Spatio-Temporal Pyramid Transformer,STPT)在動作檢測中的應用,該方法創新性地結合了局部窗口和全局注意力機制,捕捉時空依賴關系,在顯著降低計算成本的同時實現了優異的性能。
二是介紹用于視頻語義分割的遮罩傳播框架(Mask Propagation for Video Semantic Segmentation,MPVSS),該框架通過從稀疏關鍵幀傳播準確的遮罩,提高了效率,在VSPW和Cityscapes等基準測試上達到了最先進的精度和效率。
三是討論用于長視頻理解的長視頻語言模型(LongVLM),該模型借助大語言模型(LLM)將長視頻分解為短片段,并將局部特征與全局語義相結合,生成全面而精確的響應。這些工作展示了高效且強大的模型在視頻理解領域的潛力,為精度、效率和全面分析帶來了顯著提升。
個人簡介:
常曉軍,教授,中國科學技術大學的講席教授、國家級高層次人才,曾獲得澳大利亞研究委員會的早期職業研究獎。主要研究方向包括多模態學習、計算機視覺、綠色人工智能及其在社會公益中的應用。先后主持了包括澳大利亞研究委員會在內的十多個國家級項目。其研究成果已在國際頂級期刊(如T-PAMI、TIP)和CCF A類會議上發表超過150篇論文,谷歌學術引用次數超過18,000次,其中21篇論文被選為ESI高被引/熱點論文,2019至2023年連續被評為科睿唯安高被引學者。現擔任IEEE TCSVT、IEEE TNNLS、ACM TOMM等國際頂級期刊的副主編,以及CCF A類會議的領域主席。