自动推断海量定制数据格式研究

基本信息
批准号:61100050
项目类别:青年科学基金项目
资助金额:22.00
负责人:朱其立
学科分类:
依托单位:上海交通大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:王志杰,王金华,许信辉,赵凯祺,王冬华,陆洋
关键词:
非监督式学习格式推断定制数据数据描述语言
结项摘要

定制数据(ad hoc data)是一切非标准、半结构化的数据如系统日志、监控数据、科学资料库等。由于它们一般没有介绍文本,格式经常变换且带有错漏,对定制数据有效的分析和处理是包括系统工程师、科研人员和金融分析师等广大定制数据用户的难题。本项目中我们将在已有工作的基础上设计并实现一套从海量定制数据自动学习推断出它的格式描述的算法和系统。准确的数据描述可以进一步自动生成一系列常用处理工具和程序设计库的系统。本项目的主要技术挑战是设计高效的上下文相关文法的解析器对带错的定制数据进行解析,同时递增式地推断出精练而准确的数据描述。为实现这一目标,我们将在对带错上下文相关解析法的建模和复杂度,数据描述最优化等相关问题作理论研究。本项目的成果将大大提高定制数据用户的工作效率,降低数据处理成本。

项目摘要

本项目在对文本半结构化数据做增量格式分析的研究基础上,探求了对非结构化文本的信息抽取以及知识发现方面的工作。主要工作包括以下几个方面:1)递增式定制数据格式抽取;2)自动抽取IsA关系并构建 Probase知识库;3)利用Probase知识库自动理解网页表格、top-k列表、文本中比喻、计算词语间相似度等自然语言处理问题;4)命名实体链接;5)基于概念的网页搜索及图像搜索算法;6)数据隐私保护算法。一共发表高水平国际会议与期刊论文14篇,申请中国国家专利7项,获得Google Faculty Research Award一项,著名数据库会议DASFAA 2014最佳论文奖一项。在该项目的支持下,培养本科生15名,硕士毕业生6名,博士在读生2名。多名学生继续出国深造或被跨国公司录用。总的来说,项目成果丰硕。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

DOI:
发表时间:2020
2

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020
3

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

DOI:
发表时间:2021
4

非牛顿流体剪切稀化特性的分子动力学模拟

非牛顿流体剪切稀化特性的分子动力学模拟

DOI:10.7498/aps.70.20202116
发表时间:2021
5

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020

朱其立的其他基金

相似国自然基金

1

“海量数据的统计学习和推断”上海暑期学校

批准号:11226005
批准年份:2012
负责人:高卫国
学科分类:A0403
资助金额:10.00
项目类别:数学天元基金项目
2

海量数据下回归模型的变量选择及统计推断研究

批准号:11701386
批准年份:2017
负责人:林炳清
学科分类:A0403
资助金额:23.00
项目类别:青年科学基金项目
3

基于贝叶斯图模型的海量短文本数据统计推断

批准号:11501095
批准年份:2015
负责人:冯国忠
学科分类:A0403
资助金额:18.00
项目类别:青年科学基金项目
4

海量深网数据源入口的自动发现与集成研究

批准号:61472296
批准年份:2014
负责人:李雁妮
学科分类:F0214
资助金额:81.00
项目类别:面上项目