CrowdSourcing is a new business model, and it is the practice of obtaining needed services, ideas, or content by soliciting contributions from a large group of people, and especially from an online community, rather than from traditional employees or suppliers. Amazon AMT platform is the examples of crowdsourcing applications. Crowd data is a typical big data, which is more subjective and noisy. So it is very difficult to conduct data management and process. However, crowd data is very helpful and useful for DBMS, how to combine the DBMS's closed-world and Crowd's open-world is the key in recent study. This project is based on the analysis of "DB-hard" problem, including missing data and subjective analysis. The goal is to explore relational-crowd data engine according to the data quality and data analysis. The topics include data model, query and analysis, personalized search, online detection, optimization for crowd data and task schedule strategy. Our goal is to provide new solutions and techniques for "DB-hard" problem by taking advantage of crowd data. A prototype for MOOC application will be implemented to verify our methods and support real applications.
众包(例如亚马逊的AMT)作为一种新兴的商业模式,通过在线社区的形式,寻求新数据或新观点。众包数据是对DBMS 数据的补充,如何将封闭世界(DBMS 建立的前提)与开发世界(众包数据的来源)结合起来,通过众包数据扩大DBMS中数据的广度和深度,是当前的研究热点。然而,众包应用所产生的大数据,具有不完整性、主观性、噪音干扰等特点,加剧了数据管理的复杂性和难度。本课题面向从实际应用中所萃取的关于众包数据管理的基础研究问题。我们拟从分析"DB-hard"问题(需要理解和主观分析的数据)入手,以关系-众包数据引擎为核心,探索海量众包数据管理中的理论与关键技术。研究内容包括:众包任务的建模与组织、众包数据的查询与分析、自适应的个性化搜索、在线检测等技术,为新型的众包应用提供数据管理的理论基础和技术。并开发实现面向MOOC应用的众包数据管理平台的原型系统,探索具有自主知识产权的工具栈,支撑现实应用。
课题组根据项目任务书,以华师大课题组为核心,联合东南大学和鲁东大学的研究团队,开展了海量众包数据管理的关键技术研究,特别在探索了五个方面的理论、方法和系统的相关技术:1、众包应用中的轨迹数据管理和移动计算技术;2、基于众包数据的推荐技术;3、众包用户行为建模分析及任务分发4、众包环境中的用户位置和用户查询的隐私保护技术;5、分析型查询的优化框架和相关优化技术。完成预期任务,所探索的关键技术和原型系统已经在实际应用中开展了示范应用,有望推广到更多现实应用中。 项目开展期间,发表了学术论文31篇,其中CCF A类论文3篇,CCF B类论文6篇,CCF C类论文7篇,SCI期刊论文6 篇。申请软件著作权5项,申请专利5项,获得2017全国数据库年会优秀会议论文1项。培养硕士研究生10名,博士研究生2名。组织了4次学术交流和技术交流会,与国内外专家进行了众包数据管理相关的关键技术研讨;项目负责人作为会议联合主席,组织了大数据管理和数据服务国际会议BDMS2016、BDMS2017、BDMS2018、BDMS2019四次国际学术会议,与国际专家交流了相关技术。完成了预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
超空间众包数据管理关键技术
面向海量数据语义标注众包的任务管理方法研究
海量位置数据管理的基础理论与关键技术
海量基因组变异数据管理关键技术研究