Most existing work on classification of data streams assumes that all arrived streaming data are labeled and the class labels are immediately available. However, in real-world applications, this assumption seems invalid. Thus, it is a challenge to learn from concept drifting data streams with unlabeled data. Meanwhile, when performing classification on data streams, traditional techniques for unlabeled data and labeled data have a relatively poor efficiency in both time and space due to the characteristics of data streams. Thus, it is significant to develop more efficient algorithms in the handling of data streams with unlabeled data. In our proposal, we focus on the study of online semi-supervised learning methods for data streams with unlabeled data, especially on study of online methods with co-training. More specifically, we first design new summarization techniques for data streams with unlabeled data, and then analyze the adaptation of co-training technique in data streams. Correspondingly, we focus on the research of labeling propagation methods in co-training, and aim to design the effectively and efficiently online semi-supervised learning methods and the corresponding evaluation measures. Secondly, we focus on the detection and prediction of the changing of data distributions using the above semi-supervised learning models. Meanwhile, we analyze the qualitative and quantitative relationship between the changing of data distributions and the unlabeled and noisy data, and then propose the corresponding evaluation measures. Lastly, we apply our methods into labeling products' opinions on the Web and design a prototype classification system for data streams with unlabeled data.
现实世界数据流中类标签大量缺失的现象,使得基于示例是有标签假设的数据流分类算法难以适用。而数据流的海量、快速等特点,又使得传统的不完全标记数据处理方法面临挑战。因此,研究数据流中不完全标记数据处理的有效算法成为关键任务。本课题拟开展不完全标记数据流在线半监督学习方法研究,重点研究基于协同训练策略的在线半监督学习方法。首先在设计大纲数据提取数据流机制的基础上,研究协同训练策略的适应性理论与基于协同训练策略的类传播机制,构建鲁棒性在线半监督学习模型,并设计模型的泛化能力等评估标准。其次,为使所建的模型适应数据分布特征不断变化的特点,研究不完全标记数据流环境下的数据分布变化的检测与预测方法,探索无标签示例和噪音对数据分布变化影响的定性与定量关系,构建相应的度量标准与评价体系。基于上述研究,以网络产品评价内容分类为例,设计并实现面向Web服务应用领域的不完全标记数据流分类的原型系统。
现实世界数据流中类标签大量缺失的现象,使得基于示例是有标签假设的数据流分类算法难以适用。而数据流的海量、快速等特点,又使得传统的不完全标记数据处理方法面临挑战。因此,研究数据流中不完全标记数据处理的有效算法成为关键任务。项目研究按计划执行,主要研究内容包括:数据流概念建模方法与稀疏性数据建模方法研究、大数据环境下的序列模式挖掘与模式匹配方法研究、高维数据流的特征选择方法研究、文本数据流中实体近似度求解方法研究、概念漂移数据流分类与迁移学习方法研究、不完全标记数据流的模型构建、分类与质量评估问题研究以及应用研究。研究工作取得的研究成果总结如下:.(1) 理论方法上强调创新:在国内外重要学术刊物和会议上发表高质量论文37篇,其中,已发表/录用SCI检索论文14篇、已发表/录用国际国内EI会议论文8篇(其中5篇发表在IJCAI、ICDM、AAAI、CIKM等顶级国际会议上)、已发表/录用国内重要核心期刊论文15篇 (其中2篇发表在软件学报);.(2) 基础研究可持续性:在此项目研究工作的基础上,课题主持人胡学钢教授成功获批1项国家自然科学基金面上项目资助(No. 61673152);承担1项重点研发计划项目课题六(No. 2016YFC0801406)子课题;.(3) 技术方法在实际应用领域的探索与应用,提高其社会效益:撰写数据流分类专著1部、获批软件著作权5项、申请专利4项(其中授权专利2项)。.(4) 人才培养:培养博士生7名、硕士生11名、博士后1名。课题组成员李培培讲师成功获批1项国家自然科学基金青年基金项目(No. 61503112)和1项中国博士后科学基金面上项目(No. 2014M551801);课题组成员张玉红副教授成功获批1项国家自然科学基金青年基金项目(No. 61305063);课题组成员林耀进成功获批1项国家自然科学基金青年基金项目(No. 61303131)。
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
多空间交互协同过滤推荐
多标记文本数据流分类方法研究
基于多视图协同训练的高光谱遥感影像分类
基于增量学习和并行策略的复杂数据流快速分类算法研究
高光谱遥感图像分类训练样本问题研究