基于微博社区的知识图谱构建与分析

基本信息
批准号:61472329
项目类别:面上项目
资助金额:82.00
负责人:杜亚军
学科分类:
依托单位:西华大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:刘克剑,谢春芝,范永全,海宇峰,刘文君,于春,黄小平,李芳,孙弛
关键词:
社会网络数据挖掘网络信息检索搜索引擎
结项摘要

Search engine only returns the Web page set for the user queries, it needs the user refine useful knowledge from it; Social Network Search (SNS) directly provides people and their interest to users by using characters' social relations and common hobbies. However, the SNS mainly exists two unresolved problems. On the one hand, the SNS can't semantically understand user queries submitted by users. On the other hand, the SNS only provides people search and interest search, and confines query domains for users. Microblog has become an important platform for social network. To address these problems of information retrieval about microblog and provide more knowledge for user queries, this project researches knowledge graph construction and analysis based on the microblog community. The project focuses on five contents: (1)It researches concept extractions for the microblog community, and concepts have five types including people, things, locations, events and topics; (2)It researches relationships extractions for the microblog community. The relationships among concepts include collection types formed by combining two arbitrary types above concepts; (3)It researches knowledge graph construction, and the knowledge graph is a semantic network graph which takes concepts and relationships respectively as vertices and edges; (4)It researches knowledge graph analysis. It includes construction effect analysis, evolution characteristics and rules analysis and application effect analysis. (5)It researches the application interface and system based the knowledge graph. By researching, we expect to acquire a series of new ideas, new methods, new technologies and new systems with constructing the graph knowledge based on the microblog community for its information retrieval. In IR fields, this research project has important significances in theories and broad prospects in applications.

传统搜索引擎需要用户从返回网页中提炼有用知识;社交网络搜索利用人物的社会关系、共同爱好,提供人物和兴趣间的关系等方面的搜索结果。当前,社交网络搜索主要存在两个问题:第一,不能从语义上理解用户查询词;第二,仅局限于人物、兴趣搜索,限制了查询范围。另一方面,微博已成为社交网络的重要平台,为解决微博搜索中这两个问题和主动返回更多知识,本项目研究微博社区的知识图谱构建与分析,重点研究:微博社区中概念提取,概念包括人物、事物、地点、事件和话题等5种类型;微博社区概念间的关系提取,关系包括上述五种概念间的组合关系;知识图谱是带有语义的网络图谱,其将概念作为顶点并将概念间关系作为边,研究图谱的构建方法;微博社区知识图谱分析,包括构建效果、演化特征、应用效果分析;研发基于微博知识图谱的应用系统。预期获得微博社区知识图谱构建及应用的新思想、新方法、新技术、新系统。项目研究具有重要的理论意义和广阔的应用前景。

项目摘要

社交网络搜索利用人物的社会关系、共同爱好,提供人物和兴趣间的关系等方面的搜索结果。当前,社交网络搜索主要存在两个问题:第一,不能从语义上理解用户查询词;第二,仅局限于人物、兴趣搜索,限制了查询范围。另一方面,微博已成为社交网络的重要平台,成为互联网大数据最主要来源, 为解决微博搜索中这两个问题和主动返回更多知识,本项目研究微博社区的知识图谱构建与分析。主要研究内容及结论:. (1)在微博社区中概念提取方法方面;提出采用了两阶段条件随机场的微博文本命名实体识别方法。通过研究、分析、实验对比,认为不同的特征选择对命名实体边界检测结果有所偏差,其中效果最好的是常用命名实体词典特征的加入,在基于字特征的基础上F值提高了11.43%;最终F值达到了81.53%。该方法在解决地理名词识别方面非常成功,其准确值P、覆盖率C和F值分别达到了82.51%、82.91%、82.20%。. (2)在微博社区概念间的关系提取方法方面;提出了基于规则的依赖三元核人物实体关系提取方法,7种关系描述词提取规则和关系描述词分类算法,将人物社会关系大致分为了朋友,工作,家庭,敌意这四种关系。实验结果表明,该方法准确度、召回率以及F值都高于原始DTK 10%。在家庭和朋友关系方面我们进一步研究,将图的排列算法用于三元卷积核关系挖掘,效果显著。. (3)在图谱的构建及分析方法方面;提出了基于寻径网络的紧凑型知识图谱构建及分析方法。方法对不同主题中的实体、实体关系进行知识的图构建,并研究出了不同主题下图谱合并过程中,相同概念、相同关系的融合方法;对概念之间的语义进行探讨,给出了关系之间的语义权。通过对图谱的适应性、覆盖度和精准度等分析,该方法对微博知识的组织、存储、利用行之有效。. (4)在研发基于微博知识图谱的应用系统方面;利用问句中的实体和关系信息构建了问句意图分类模型。将问句分成两部分:已提取出完整三元组关系的问句,未提取出完整三元组关系的问句。对于前者本文给出了基于答案实体类别路径树的问句意图分类方法。对于后者本文建立了基于 KNN 算法的问句意图分类算法,通过提取句子级别的特征构建句子级别的特征向量来衡量问句间的距离。 . (5)提出了一个新的实体和关系抽取模型。设计了一个新的序列标注模式和一个端到端的实体和关系关键词抽取的序列标注模型。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
5

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019

杜亚军的其他基金

批准号:60872089
批准年份:2008
资助金额:29.00
项目类别:面上项目
批准号:61271413
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:61872298
批准年份:2018
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

基于图聚集技术的微博用户重叠社区发现方法研究

批准号:61762078
批准年份:2017
负责人:马慧芳
学科分类:F0607
资助金额:39.00
项目类别:地区科学基金项目
2

基于知识图谱和社交网络的在线健康社区医患服务匹配研究

批准号:71904174
批准年份:2019
负责人:许荣华
学科分类:G0405
资助金额:19.50
项目类别:青年科学基金项目
3

基于超网络的企业微博知识挖掘及整合方法研究

批准号:71371077
批准年份:2013
负责人:席运江
学科分类:G0112
资助金额:54.00
项目类别:面上项目
4

基于多源异构数据的知识图谱构建、推理与问答研究

批准号:61772059
批准年份:2017
负责人:张日崇
学科分类:F0607
资助金额:61.00
项目类别:面上项目