2019年国家自然科学奖提名公示项目名称 高维图像类脑化语义信息提取理论与方法提 名 者 工业和信息化部提名意见该项目围绕高维图像类脑化语义信息提取展开研究,是国际学术前沿和国家战略需求中的重大科学问题,取得了具有重要创新性和理论价值的基础研究成果。
受大脑基于部件的认知过程启发,提出了一套语义可解释鉴别化紧致特征提取理论和方法,达到了认知可解释和特征可鉴别的统一。
受大脑协同思维的启发,提出了基于时空协同和内部协同的图像协同处理架构,显著提升了图像识别的准确率。
受大脑演化认知特性启发,提出了基于演化表达的图像信息描述理论和方法,突破了手工设计描述子的局限。
该项目的研究成果得到了中国、美国、英国、加拿大等国院士和IEEE/ACM/OSA/SPIE/IAPR/AAAS Fellow等国际同行的高度认可。
有力推动了本学科及相关学科的发展。
符合国家科学技术奖的推荐条件。
提名该项目为国家自然科学奖二等奖。
项目简介针对语义丰富的高维图像信号,借鉴和发展脑科学、认知科学的成果,对高维图像进行类脑化处理是减少和消除语义鸿沟重大问题的关键,代表了当前信息领域的发展方向之一。
本项目以类脑化处理为手段,建立了语义可解释、协同认知、演化表达三个方面的高维图像语义信息提取理论和方法。
取得了如下科学发现:1.受大脑基于部件的认知过程启发,提出了同时提取隐藏语义和保持内在流形结构的非负矩阵分解理论框架,并进一步将其发展为流形正则化稀疏非负矩阵分解方法并应用到高光谱图像处理和恢复中,解决了非负矩阵分解可解释性强但鉴别能力弱的难题。
还提出了确定性列矩阵分解子空间学习方法。
形成了一套可解释鉴别化语义特征提取理论和方法,一定程度上达到了认知可解释和特征可鉴别的统一。
2.受大脑协同思维的启发,提出了图像及视频的协同处理框架:针对视频内容识别,提出了时空拉普拉斯金字塔协同编码机制,能够同时捕获结构信息和运动信息,克服了传统方法误配准问题。
针对图像识别,提出了Gabor区域协方差矩阵描述子,刻画了蕴含图像细节和鉴别信息的多区域协同二阶关系,突破常规协方差矩阵只能进行简单局部匹配但不能进行高准确度精细图像识别的局限,使图像识别率得到提升。
3.受大脑演化认知特性启发,提出了基于演化表达的图像信息描述理论和方法,突破了手工设计描述子的局限。
针对可见光图像,提出用多目标演化学习算法自动产生域适应(domain-adaptive)全局特征描述子;针对高光谱图像,提出了基于免疫克隆和多任务稀疏追逐的光谱选择方法,解决了已有方法无法保持原始光谱通道物理特性的缺点。
本项目8篇代表性论文发表在图像/视频处理和分析领域国际期刊IEEE T-PAMI、T-NNLS、T-CSVT、T-CYB、T-GRS等上,被SCI他引691次。
相关工作获得中国电子学会自然科学一等奖、中国计算机学会自然科学一等奖、陕西省科学技术奖(基础研究)一等奖。
客观评价该项目在高维图像类脑化语义信息提取领域进行了一系列创新性研究。
本项目8 篇代表性论文被SCI他引691次。
研究成果得到了国内外学者的高度评价和应用推广。
具体评价如下:1. 对重要科学发现点1 的评价英国帝国理工学院人工智能领域教授(Professor for Artificial Intelligence)、Association for the Advancement of Affective Computing (AAAC)协会主席、IEEE 会士Bjorn W. Schuller与其合作者在顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》上的论文“A Deep Matrix Factorization Method for Learning Attribute Representations”中引用了代表性论文[7]并指出本项目所提出“Graph-regularized NMF (GNMF)是聚类特征学习的先进技术(the state-of-the-art NMF techniques for learning features for the purpose of clustering) ”。
认为“GNMF考虑了数据空间的内在几何结构和鉴别结构,这一考虑对实际应用至关重要(takes into account the intrinsic geometric and discriminating structure of the data space, which is essential to the real-world applications) ”。
评价“GNMF学习到的特征比标准NMF算法具有更强的鉴别能力(By preserving the graph structure, it allows the learned features to have more discriminating power than the standard NMF algorithm)”。
加拿大工程研究院院士、IEEE Fellow、IEEE 电路与系统协会主席M.N.S.Swamy 教授在其学术专著《Neural Networks and Statistical Learning》中引用了代表性论文[1],指出所提“可解释性列矩阵分解方法以确定性方式执行,能够很好地逼近奇异值分解(Selects columns in a deterministic manner, which well-approximates SVD …)”。
2. 对重要科学发现点2 的评价美国明尼苏达大学讲席教授、IEEE 机器人视觉委员会主席、IEEE 会士Nikolaos Papanikolopoulos与其合作者在图像处理与人工智能领域顶级期刊《IEEE Trans. Pattern Analysis and Machine Intelligence》上的论文“Tensor Sparse Coding for Positive Definite Matrices”和计算机视觉领域重要会议ECCV上的论文“Tensor Sparse Coding for Region Covariances”中均引用了代表性论文[2]并通过大量实验室验证了本项目所提Gabor区域协方差描述子(GRCM)的有效性,性能有显著提高(见其论文图3)。
澳大利亚昆士兰大学教授、澳大利亚工程院院士、世界创新基金会院士、IAPR Fellow委员会主席、IEEE 会士Brian C. Lovell等在计算机视觉领域重要会议ECCV 上的论文“Sparse Coding and Dictionary Learning for Symmetric Definie Matrices: a Kernel Approach”中采用所本项目提GRCM描述子(即代表性论文[2]所提方法)研究基于黎曼流形的识别方法时得到了最高的识别率(Obtains the highest accuracy),显著优于其他方法(Significantly outperforms state-of-the-art Euclidean solutions)。
加拿大皇家学会会士、IEEE 会士、加拿大阿尔伯塔大学讲座教授Witold Pedrycz等在《Neurocomputing》上的论文“Weighted Feature Trajectories and Concatenated Bag-of-Features for Action Recognition”中指出本项目所提基于时空拉普拉斯金字塔协同编码机制的动作识别(代表性论文[4])已经是计算机视觉领域最热门的课题之一,在视频监控、视频检索和人机交互中有广泛的应用(has been one of the most active topics in computer vision with a broad range of applications to video surveillance, automatic video indexing and retrieval, human computer interaction)。
3. 对重要科学发现点3 的评价美国卡耐基梅隆大学教授Gustavo K. Rohd等在《IEEE Transactions on Image Processing》上的论文“The Radon Cumulative Distribution Transform and Its Application to Image Classification”中引用了代表性论文[5],指出本项目所提基于多目标遗传算法特征学习方法(MOGP)已经被证明在图像分类中取得了很大的成功,在很多图像数据库中提高了先进分类的性能(have proven to be very successful in image classification and they have improved the state of the art classification for a wide range of image datasets)。
澳大利亚中央昆士兰大学教授、国际神经网络协会澳大利亚分会主席、澳大利亚研究委员会委员Brijesh Verma及其合作者《IEEE Congress on Evolutionary Computation》会议上的论文“Image Descriptor: A Genetic Programming Approach to Multiclass Texture Classification”中引用了代表性论文[5],指出本项目所提MOGP方法的演化算法由像素输入、滤波、最大池化和级联等四层组成,然后通过主成分分析将演化算法的输出的特征向量的尺寸进行缩减。
(In their method, the evolved program consists of four tiers, i.e., the raw pixel values as inputs, filtering, max-pooling, and concatenation. Then the output of the evolved program is fed into Principal Component Analysis (PCA) to shrink the size of the generated feature vector )。