基于中文文本挖掘技术的SIPO专利知识演化分析

基本信息
批准号:61272370
项目类别:面上项目
资助金额:20.00
负责人:丁堃
学科分类:
依托单位:大连理工大学
批准年份:2012
结题年份:2013
起止时间:2013-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:林鸿飞,杨志豪,赵铭伟,林德明,王贤文,高继平,刘盛博,林原,张春博
关键词:
本体构建机会发现语义检索社会关系网络信息抽取
结项摘要

Nowadays Patent is rich in the information of knowledge and plays an import role in economy. The construction of map of patent knowledge evolution arises the value of application greatly. The aim for this proposal is to do deeply research on patent knowledge evolution based on text mining from the viewpoint of knowledge subject and object. Firstly, the domain ontology is constructed using users demand, and it is used for term identification and query expansion. The domain patent dataset is retrieved from SIPO(Chinese Patent Database) with query. Secondly, The representation of patent knowledge is presented with the form of < Feature,Effect > and < Effect,Value > in order to convert the unstructed information into knowledge unit with metrics , and the key issue is to filled the framework of knowledge using named entity identification, attribution extraction and semantic annotation. The patent theme is clustered from similarity and novelty. Finally, competition network of knowledge subject and co-word network of knowledge object are built up, and the map of patent evolution is drawn by time dimension to discovery chance and forecast the trend. The visual platform of patent knowledge mining is developed.

专利是技术知识最有效的载体,专利知识演化图谱的构建将会极大地提升专利的应用价值。项目的宗旨是:综合运用文本挖掘技术,从知识主体和知识客体两个视角,进行面向专题的专利知识演化分析。首先,对于给定的用户需求,构建相应的领域本体,用于术语识别和查询扩展,检索国家专利数据库SIPO,建立专题数据库;然后,给出专利的逻辑表示,定义专利知识的细粒度表示<Feature,Effect>、<Effect,Value>,利用命名实体识别、属性抽取、语义标注等技术,填充专利的Feature、Effect和Value值框架,将非结构化信息转化为可以量化的知识单元。在专利知识相似度和新颖度基础上进行专利的主题聚类;最后,构造基于知识主体的竞争网络和基于知识客体的共词网络,按照时间维度,研制专利知识演化图谱,进行热点专利识别、专利机会发现和专利趋势预测,建立可视化的专利挖掘平台。

项目摘要

专利是技术知识最有效的载体,专利知识挖掘将会极大地提升专利的应用价值。项目主要目的是综合运用知识计量、文本挖掘、自然语言处理技术,以国家专利数据库SIPO为载体,进行面向专题的专利知识演化分析。首先,给出了专利的逻辑表示,相对于通常的信息抽取,根据专利领域特性,构建了专利知识的细粒度表示,将专利摘要文本表示技术特征和特征值的序列,即< Patent Frame>表示为若干个<Feature,Value>,利用命名实体识别、属性抽取、语义标注等技术,填充专利<Feature,Value>,从而将非结构化信息转化为可以量化的知识单元,实现了更为精细化的检索和分析。然后,在专利逻辑表示的基础上,提出了基于有序聚类和主题模型的专利知识演化分析方法,得到了所关心领域的不同发展历史阶段和不同阶段的主题聚类。在每个时间段内部,专利技术具有较强的内聚性,围绕相关的主题展开。不同时间段之间耦合性降低,表现为不同时期的专利热点的变化,有序聚类可以合理的表示技术发展的阶段。在前面演化分析的基础上,根据词语共现和时间因素构建词语关联图,从而基于小世界理论进行专利机会预测。实验显示,该方法能够发现潜在的专利机会。最后,建立可视化的中文专利挖掘平台,并将其中主要的文本挖掘方法拓展到到专利、生物、引文网络中。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

DOI:10.5846/stxb202009292521
发表时间:2021

丁堃的其他基金

相似国自然基金

1

中文文本情感倾向挖掘技术研究

批准号:60673038
批准年份:2006
负责人:黄萱菁
学科分类:F0211
资助金额:26.00
项目类别:面上项目
2

中文社交化短文本情感分析与话题挖掘研究

批准号:71501003
批准年份:2015
负责人:王德庆
学科分类:G0112
资助金额:17.40
项目类别:青年科学基金项目
3

基于专利与网络文本集成挖掘的新兴产业技术机会识别与预测研究

批准号:71804016
批准年份:2018
负责人:马婷婷
学科分类:G0403
资助金额:19.50
项目类别:青年科学基金项目
4

基于专利知识挖掘的产品创新设计方法研究

批准号:50675197
批准年份:2006
负责人:邱清盈
学科分类:E0506
资助金额:25.00
项目类别:面上项目