With the rapid development of Internet, large-scale unlabeled or weak-labeled data are generated in information networks, which pose a new challenge to supervised machine learning from labeled data. In the meantime, large-scale rich-labeled data are maintained in semantic networks such as Wikipedia, while how to transfer and reuse these labeled data is the key approach to weak-supervised machine learning. Transfer learning is an important weak-supervised machine learning technology, whose goal is to learn invariant feature structures and unbiased recognition models and hence boost the cross-domain generalization performance of machine learning. In recent years, a fruitful stream of transfer learning theories and methods are emerging rapidly, however, subject to the bottlenecks of model security and algorithm scalability, existing transfer learning techniques have not satisfied the requirements of large-scale cross-domain data analytics. In this research, we plan to study secure transfer learning methods for big data, making breakthroughs to the bottlenecks of model security and algorithm scalability. The main research contents include: multiple-kernel distribution discrepancy measurement, low bias-variance distribution shift correction, deep neural network transfer learning, transfer learning to hash, scalable optimization algorithms and distributed system implementations. This research will contribute to promote the maturity and completeness of transfer learning technology, and lay solid foundations for big data analytics under non-stationary environment.
随着互联网的快速发展,信息网络中产生了大量无标记或弱标记数据,这给基于标记数据的有监督机器学习方法带来了新的挑战。与此同时,维基百科等语义网络中维护了丰富的标记数据,如何迁移和复用这些标记数据是实现弱监督机器学习的关键。迁移学习是一种重要的弱监督机器学习技术,其目标是在异构领域间挖掘不变特征结构和无偏识别模型,提高机器学习的跨领域泛化性能。近年来各种迁移学习理论和方法发展非常迅速,但在模型安全性和算法可扩展性方面仍存在瓶颈,因而尚不能很好满足大规模跨领域数据的分析需求。本项目拟研究面向大数据的安全迁移学习方法,重点突破模型安全性和算法可扩展性瓶颈,主要研究内容有:多核分布差异度量方法、低偏差方差分布校正方法、深度网络迁移学习方法、迁移哈希学习方法,以及这些方法的可扩展优化算法和分布式系统实现。本项目的研究将有助于推动迁移学习技术的成熟和完善,为非平稳环境下大数据分析挖掘提供坚实的技术支撑。
如何挖掘和检索非平稳分布的大规模弱标记数据是现代机器学习的前沿方向之一。迁移学习的目标是在非平稳分布的数据领域间挖掘不变特征和无偏模型,实现标记数据等价值信息的迁移和复用,是解决大数据标记稀缺的基础性方法。迁移学习的关键挑战是负迁移,即辅助标记数据对目标学习任务产生负面效果,制约其泛化能力。本课题深入剖析负迁移根源,研究安全迁移学习模型和可扩展性优化算法。主要研究内容有:结构性分布差异度量、低偏差方差分布匹配、深度网络迁移学习、迁移哈希检索模型,以及这些方法的并行式算法库实现。在项目执行期间,主要研究成果包括:基于多核学习和联合分布核嵌入的分布差异度量方法,基于特征迁移性、类别选择性、模型非对称性的系列深度迁移网络模型,以及大规模跨领域、跨模态、跨时空数据深度迁移与相似检索模型等。项目执行期间,以第一作者/通讯作者发表/录用SCI/EI论文30篇,包括TPAMI、TKDE等CCF-A类期刊论文2篇,ICML、NIPS、CVPR、ICCV、KDD、SIGIR、AAAI、IJCAI等CCF-A类会议论文25篇,相关论文Google Scholar引用2200余次,单篇论文最高引用600余次,是深度迁移学习领域的开创性工作。授权国家发明专利5项,相关成果在工业图像识别、智能天气预报与环境监测等领域实现规模化应用,集成了相关技术的新一代气象大数据平台已部署中央气象台、31个省级气象台和6个“一带一路”国家气象台,产生了显著的经济社会效益和巨大的国际影响力。项目负责人获2016年中国人工智能学会优秀博士学位论文奖、2018年教育部高等学校优秀成果奖技术发明一等奖(排名第4)。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
面向大数据的混合存储布局优化及安全迁移机制研究
面向多领域数据的联合流形学习方法及在迁移学习中的应用
面向异分布数据的主动学习方法
面向复杂数据的哈希学习方法研究