The emergence of crowdsourcing has provided a fast and low-cost big data acquisition solution for management and decision-making knowledge learning, but due to its uncertainty, the knowledge learning process is full of challenges. This proposal focuses on the multi-source heterogeneous fusion and knowledge learning for big crowdsourced data, which will provide novel methods for crowdsourcing management and decision-making big data analysis and learning and promote the achievement of the NSFC Major Research Plan. By integrating the topic model with the statistical inference of the crowdsourced concept annotation and crowdsourced feature description, a topic quality model of the crowdsourced workers is established, which improves the performance of statistical inference and information aggregation and provides multiple-aspect high-quality data for the predictive model building. Through the fusion of statistical inference, multiple kernel learning, heterogeneous ensemble learning and co-training algorithms, multi-paradigm predictive learning models are built with the multi-aspect crowdsourced data to solve the robustness problem of noisy data learning. Through designing an active learning framework with feedback and its learning strategies that are based on the sample feedback with topic semantic similarity and the global time series model of crowdsourced worker quality, the quality of predictive models and crowdsourced workers are improved in both directions. Through establishing knowledge transfer models and designing transfer model-based learning strategies in the active learning process, the cold-start problem in the new topic expansion process in systems can be solved. Finally, based on some advanced computing platforms, a prototype system for multi-source heterogeneous fusion and knowledge learning with big crowdsourced data is built to verify the practical value of the research outcomes.
众包的出现虽然为管理与决策知识学习提供了快速低成本的大数据获取方案,但由于其不确定性,使得知识学习过程充满挑战。本项目通过研究众包大数据多源异构融合与知识学习问题,为众包管理与决策大数据分析与学习贡献新方法,推进重大研究计划目标达成。项目通过将主题模型与众包概念标注和众包特征描述的统计推断过程相融合,建立众包工作者主题量模型,提高统计推断和信息聚合的性能;通过融合统计推断、多核学习、异构集成学习和协同训练算法利用众包多侧面数据建立多范式预测模型解决含噪数据学习鲁棒性问题;通过设计基于主题语义相似度样本反馈和全局众包工作者质量时序模型的反馈式主动学习框架和学习策略,双向提升预测模型与众包工作者质量;通过在主动学习过程中建立知识迁移模型并设计基于迁移模型的学习策略,解决新主题扩充过程中系统冷启动问题;最后构建基于先进计算平台的众包大数据多源异构融合及知识学习原型系统,验证课题成果的实用价值。
众包的出现虽然为管理与决策知识学习提供了快速低成本的大数据获取方案,但由于其不确定性,使得知识学习过程充满挑战。项目聚焦众包大数据多源异构融合与知识学习中的关键问题。首先,研究了众包数据统计推断与信息聚合。提出基于混合多努利分布的多分类多标签真值推断算法以发掘并利用标签之间的相关性。提出迭代双层聚类标签集成算法,通过对概念层和物理层特征进行交叉聚类分析,发现并纠正概念层集成标签中的误标,提升聚合标签质量。提出端到端的深度神经网络众包学习模型,通过直接融合众包噪声标签和标注样本特征进行真值推断和预测模型学习。其次,研究了利用众包数据构建多范式预测模型。提出基于样本复制的集成学习算法以充分利用噪声标签分布信息提升模型鲁棒性。提出基于图神经网络的众包标签聚集算法,在建模众包标注任务中五种不同的相关性的同时通过少量真值注入提升模型性能。再次,研究了多标签众包主动学习框架与策略。提出基于标签相关性的多标签众包主动学习算法,在成本约束的条件下,优化调度标注任务和众包工作者。提出面向众包工作者认知增强的交互式学习方法,通过基于认知能力建模的机器教学过程的引入,提升工作者可靠度。最后,研究了众包学习过程中的知识迁移。提出利用元知识迁移辅助众包学习的方法,从源领域中迁移关于如何学习的元知识提升目标领域中众包工作者建模性能。项目在实施过程中以开源软件的形式将原型系统中的核心算法和数据向研究社区开放。项目的研究成果为众包管理与决策大数据分析与学习贡献了新方法,推进了重大研究计划目标达成。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
炎性微环境下TGF-β1/Treg相关细胞因子介导的免疫调控在骨髓间充质干细胞骨向分化中作用机制研究
基于深度学习的多源异构质检大数据融合与分析技术研究
基于众包的知识融合关键技术研究
基于众包标注的多标记学习研究
多源数据融合的表示与学习方法研究