信息學院多篇論文被人工智能領域頂級會議ICCV2019(國際計算機視覺會議)錄用

ON2019-09-10CATEGORY科研進展

近日,國際計算機視覺會議ICCV2019錄用結果公布,信息學院何旭明教授課題組、高盛華教授課題組、虞晶怡教授課題組共有4篇論文被接收。國際計算機視覺大會(International Conference on Computer Vision,ICCV)是計算機視覺領域中最高級別的國際學術會議之一,由IEEE(電氣電子工程師學會)舉辦,每兩年在世界范圍內召開一次,在業內具有極高的評價。今年,計算機視覺國際頂會ICCV 2019共收到4350篇提交論文,錄用1050篇,接收率為24%,其中850篇為poster報告論文,200篇為oral報告論文。

信息學院的何旭明教授課題組共有2篇論文被接收。

“Pose-aware Multi-level Feature Network for Human Object Interaction Detection”一文提出了一種新穎的人-物體交互檢測模型,在多個數據集上該方法展現出大大優于現有最佳方法的性能。在人-物體交互檢測任務中,人與物體交互方式的多樣性以及交互場景的復雜性,相比于傳統的視覺任務存在更多挑戰。研究人員提出了一種多層級(multi-level)的交互關系識別策略,包括交互區域、物體、人體語義三個層級;具體來說,本文提出了一種多分枝網絡結構的模型,該模型利用人體姿態信息,通過基于注意力的機制動態放大(Zoom-in)交互關系相關的人體語義區域以增強該區域的特征,并在此基礎之上對全局特征進行融合,從而進一步提高模型對于人-物體交互的細粒度檢測能力與健壯性。

該工作被接收為oral(接收率僅4%),何旭明教授課題組的研二學生萬博、博士生周德森為該論文的共同第一作者,何旭明教授為通訊作者。

圖一: 模型結構總覽,模型的主要輸入為輸入圖片的特征圖和人和物體交互關系的幾何信息以及人體的關鍵點。這兩大信息將由Holistic model和Zoom-in module 在多層級上對特征進行處理和融合,最后對特征進行融合并給出預測。

圖二:Holistic model和Zoom-in module的具體結構圖,該結構圖展示了兩個模塊的細節模型設計和算法流程

“Dynamic Context Correspondence Network for Semantic Alignment”,該論文針對語義對齊任務進行研究,目的是尋找屬于同一類別的不同物體之間的密集對應關系。該研究的目標是以一種靈活的方式合并全局語義上下文,以克服先前工作依賴于局部語義表示的局限性,在該任務場景下,該方法實現了卓越或具有競爭力的性能。為此,研究人員首先提出了一種上下文感知的語義表示,它結合了空間布局,以便針對局部歧義進行有力的區分,然后提出了一種基于注意機制的動態融合策略,通過融合來自多個尺度的語義線索來結合局部和上下文特征的優勢。該論文通過設計一個端到端可學習的深層網絡來演示它所提出的策略,稱為動態上下文對應網絡(DCCNet)。為了訓練網絡,該項工作采用了多輔助任務損失來提高弱監督學習過程的效率。何旭明教授課題組的研二學生黃帥一為該論文的第一作者,何旭明教授為通訊作者。

圖3:算法模型的輸入輸出和流程的基本框圖,算法模型主要包括三個模塊,空間上下文信息編碼器、對應關系感知網絡、動態聚合網絡。

圖4:空間上下文信息感知和語義表示模塊的架構。

以上兩個科研成果的相關研究得到了國家自然科學基金(No. 61703195),以及上海市自然科學基金(No. 18ZR1425100)的支持。

信息學院的高盛華教授課題組共有1篇論文被接收。

“Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis” 一文中提出了一套適用于人體動作遷移、人體換衣和人體新視角生成的統一框架。該框架由人體三維網格估計模塊和對抗生成網絡模塊組成。以人體動作遷移為例,三維人體網格估計模塊首先對輸入的圖片(人物A和B)中的人體進行三維網格建模(只包含身體部分),然后并對其可見部分進行紋理提取。因為A和B的三維網格擁有相同的拓撲結構,所以同時取出B三維網格的形態參數和紋理參數,而取出A的姿態參數,最后根據這些參數渲染出一個合成人。由于渲染出的合成人只有身體部分的網格信息(沒有頭發和衣服),并且只包含可見部分的紋理信息,因此該渲染出的合成人的結果是不真實和不自然的。為此,研究人員通過一個對抗生成網絡對上一步的合成人進行修復,使得最后的結果更加自然和真實。三維人體網格估計模塊是一個預訓練好的網絡模型,而對抗生成網絡是需要從頭開始訓練的模型。在訓練階段,對一個視頻中的同一個人隨機采樣兩張圖片構成一個樣本對(A和B)。而在測試階段,輸入一張目標圖片A(或者一個視頻),輸入一張原始圖片B,該方案就能產生比較自然真實的任務B在模仿任務A的圖片或者視頻。該論文由信息學院高盛華教授與騰訊AI LAB實驗室的馬林和羅文寒研究員合作完成。高盛華教授的博士生劉聞(期間在騰訊AI LAB實習)和研二學生樸智新為該文的共同第一作者。

圖5:整個框架的訓練示意圖。該框架一共包含三個子模塊,分別是(a) 人體三維網格估計模塊,(b) 變化流計算模塊,以及(c)生成對抗網絡模塊。

信息學院的虞晶怡教授課題組共有1篇論文被接收。

如何通過單張圖片恢復高質量的三維人臉是計算機視覺和圖形學的重要研究領域?!癙hoto-RealisticFacial Details Synthesis from Single Image”一文針對proxyestimation(基礎參數化模型估計)和details synthesis提出了使用單張圖片恢復帶有皺紋細節的人臉幾何。對于proxy estimation,該文章提出使用表情特征作為先驗來降低3DMM參數估計時的ambiguity問題;對于details synthesis,該文章同時結合了有監督學習和無監督學習進行人臉細節網絡訓練。

該工作被接收為oral paper,虞晶怡教授課題組的陳安沛和陳章為共同第一作者,虞晶怡教授為通訊作者。關于文章更詳細的介紹可參見:https://mp.weixin.qq.com/s/GNYrR0NOaN42SgLXsm2KIg

圖6:算法流程圖。(a)基礎幾何估計訓練(b)細節預測訓練(c)基礎幾何估計與細節預測