大数据环境下基于生物医学本体的文献无监督分类方法研究

基本信息
批准号:61702324
项目类别:青年科学基金项目
资助金额:23.00
负责人:李美晶
学科分类:
依托单位:上海海事大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:朱昌明,张翼飞,姚敏,石玉虎,赵乐
关键词:
语义相似度多重融合相似度大数据环境生物医学文献聚类生物医学本体
结项摘要

Every year, the number of published biomedical documents is increased sharply. To extract meaningful information from large number of documents, the research on biomedical information based document unsupervised classification methods are much important. Now, the analysis of semantic similarity measurement among biomedical literatures puts particular emphases on medical information than biological information. And also because of the mass computation in the process of semantic analysis based on ontologies, it is difficult to unsupervised classify the large number of documents. According to the proposer’s related researches, biological ontology - Gene Ontology can be applied to compensate for the lack of biological information in the biomedical analysis, and the MapReduce is used to solve the problem that it is difficult to carry out unsupervised classification of massive data because of the mass computation of the ontology based semantic similarity calculation. In order to solve the above problems, the main research contents of this project are as follows: 1. Research on MapReduce based document semantic similarity measurement algorithm; 2. Research on MapReduce based document multi-fusion similarity measurement algorithm; 3. Research on document unsupervised classification methods in the big data environment. This topic research will provide more professional information for biomedical researchers and also improve the efficiency of scientific research.

生物医学文献发表数量每年都在急速增长,为有效地从众多文献中获取有意义的信息,基于生物医学信息的文献无监督分类方法研究至关重要。现阶段,生物医学文献间语义相似度测量方法偏向医学文献语义分析,缺乏生物学文献的语义分析,且在基于本体的语义分析过程中,因计算量大而难以对大量文献数据进行无监督分类。基于申请人多年相关研究,采用生物学本体Gene Ontology可弥补生物医学文献语义分析中缺乏生物学信息的问题,同时结合MapReduce框架解决基于本体的文献语义相似度计算量大而无法对海量数据进行无监督分类的问题。为解决上述科学问题,本项目将完成以下主要研究内容:1.基于MapReduce的文献语义相似度测量算法研究;2.基于MapReduce的文献多重融合相似度测量算法研究; 3.大数据环境下文献无监督分类方法研究。本课题研究将会为生物医学科研人员提供更具专业信息的文献分类,提高科研工作效率。

项目摘要

生物医学文献发表数量每年都在急速增长,为有效地从众多文献中获取有意义的信息,基于生物医学信息的文献无监督分类方法研究至关重要。现阶段,生物医学文献间语义相似度测量方法偏向医学文献语义分析,缺乏生物学文献的语义分析,且在基于本体的语义分析过程中,因计算量大而难以对大量文献数据进行无监督分类。针对以上问题,本项目提出并实现了分布式环境下的基于生物医学文本内容与本体的多重融合语义相似度计算方法及无监督分类方法,弥补了目前生物医学文献语义分析中缺乏生物学信息的问题,并解决了基于本体的文献语义相似度测量中计算量过大而无法对海量数据进行无监督分类的问题。项目执行期间,具体完成以下内容:首先,提出了MapReduce框架下基于本体的文本语义相似度计算方法,实现了对大量文本进行基于本体的语义相似度快速测量;其次,研究并提出了分布式环境下的文献多重融合语义相似度测量算法,提高了文献语义相似度测量效果; 最后,提出了MapReduce框架下基于Kmeans算法的文献无监督分类方法,有效提高文献无监督分类算法的运行速度。本课题研究成果不仅有利于对生物医学科研人员提供更具专业信息的文献分类结果,提高科研工作效率,也可应用于金融、物流、市场分析等基于专业知识图谱的其他领域文本数据分析。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

李美晶的其他基金

相似国自然基金

1

大数据环境下基于特征本体学习的无监督文本分类方法研究

批准号:71571064
批准年份:2015
负责人:李岳峰
学科分类:G0112
资助金额:48.00
项目类别:面上项目
2

基于生物医学文献和领域本体的蛋白质复合物预测方法研究

批准号:61300088
批准年份:2013
负责人:张益嘉
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目
3

大数据环境下基于GMDH的客户分类半监督集成模型研究

批准号:71471124
批准年份:2014
负责人:肖进
学科分类:G0112
资助金额:60.00
项目类别:面上项目
4

基于生物医学文献的隐含知识发现方法研究

批准号:61272373
批准年份:2012
负责人:杨志豪
学科分类:F0211
资助金额:80.00
项目类别:面上项目