面向海量数据语义标注众包的任务管理方法研究

基本信息
批准号:71401096
项目类别:青年科学基金项目
资助金额:20.00
负责人:郝晓玲
学科分类:
依托单位:上海财经大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:李艳红,刘春梅,韩松乔,熊珺洁,李思志,王明佳,于聪,陈晓梦,茅嘉惠
关键词:
任务管理海量数据语义标注众包
结项摘要

Semantic annotation is the basis of large-scale data analysis and utilization and its quality directly affects data application. Crowdsourcing provides a rapid and effective mechanism for semantic annotation and reduces the workload of expert annotation and increases annotation efficiency. The study includes: concept modeling of task management for large-scale data semantic annotation,which establishes quantitative model ; task assignment method to control cost of crowdsourcing, which could maximize the efficiency of task assignment under limited budget; dynamic selection and evaluation method to automatically select and evaluate workers. The study establishes proper task management method for large-scale data semantic annotation, improves annotation quality, provides key methods and technic support for large-scale data analysis and processing and has application and popularization value in the network public sentiment, financial data mining, and marketing management.

语义标注是分析和使用海量数据的基础,其标注质量直接影响数据的应用效果,众包为获取语义标注提供了快速且有效的机制,提高语义标注效率。任务管理监控众包任务发布、执行和评估过程,是提高标注质量的有效手段。本项目提出适合于海量数据语义标注的任务管理方法,为海量数据的分析提供关键技术支撑。重点研究内容包括:海量数据语义标注任务管理的概念模型研究,形成众包任务的定量管理基础;基于资源节约的众包任务分配方法研究,实现在有限预算条件下,最大化任务分配的效率;基于持续监控的工作者动态选择及评估方法研究,实现工作者的自动筛选和评估。研究成果将在网络舆情分析、金融数据挖掘、市场营销管理等领域具有广泛的应用前景。

项目摘要

本课题立足于大数据环境下的众包标注问题,探索如何提高众包数据以及众包任务管理的质量。主要研究包括:(1)基于资源节约的众包任务管理模型构建(RCBHM)模型,建立了标注任务管理的概念模型,基于资源节约的众包任务分配方法实现在有限预算条件下,最大化任务分配的效率;基于持续监控的工作者动态选择及评估方法实现工作者的自动筛选和评估。实证结果表明该模型在成本和准确率方面都具有良好表现。(2)研究了众包与机器相结合的相关优化算法,包括用户对项目属性偏好的协同过滤算法,条件型游走二部图协同过滤算法,基于BP-Asymboost的分类算法,基于服务质量的动态消息过滤算法,这些算法可应用在众包工作者推荐以及任务分类领域,对提高机器对众包标注数据的自学习能力,提高分类准确率,优化众包任务组合,提高众包工作者推荐效果等提供了关键技术支撑。(3)从行为视角研究了众包与众筹领域的工作者行为,筛选出了众包任务管理过程中的关键影响因素,为众包数据质量改善提供了管理上的策略。 (4)将研究成果尝试应用于网络舆情及医疗大数据标注领域,结合文本挖掘相关技术,对其他课题团队的数据标注提供了方法支持与质量评估,形成了具有应用价值的研究成果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

郝晓玲的其他基金

批准号:11401325
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

海量众包数据管理的关键技术

批准号:61472141
批准年份:2014
负责人:王晓玲
学科分类:F0202
资助金额:80.00
项目类别:面上项目
2

面向众包标注的真值推断与监督分类关键问题研究

批准号:61603186
批准年份:2016
负责人:张静
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目
3

面向复杂场景的移动众包任务分配与优化

批准号:61872238
批准年份:2018
负责人:高晓沨
学科分类:F0208
资助金额:64.00
项目类别:面上项目
4

面向轨迹大数据的语义标注与语义模式挖掘算法研究

批准号:61773331
批准年份:2017
负责人:于彦伟
学科分类:F0603
资助金额:65.00
项目类别:面上项目