基于中文文本挖掘技术的SIPO专利知识演化分析

基本信息

批准号：61272370

项目类别：面上项目

资助金额：20.00

负责人：丁堃

学科分类：

依托单位：大连理工大学

批准年份：2012

结题年份：2013

起止时间：2013-01-01 - 2013-12-31

项目状态：已结题

项目参与者：林鸿飞,杨志豪,赵铭伟,林德明,王贤文,高继平,刘盛博,林原,张春博

关键词：

本体构建机会发现语义检索社会关系网络信息抽取

结项摘要

Nowadays Patent is rich in the information of knowledge and plays an import role in economy. The construction of map of patent knowledge evolution arises the value of application greatly. The aim for this proposal is to do deeply research on patent knowledge evolution based on text mining from the viewpoint of knowledge subject and object. Firstly, the domain ontology is constructed using users demand, and it is used for term identification and query expansion. The domain patent dataset is retrieved from SIPO(Chinese Patent Database) with query. Secondly, The representation of patent knowledge is presented with the form of < Feature,Effect > and < Effect，Value > in order to convert the unstructed information into knowledge unit with metrics , and the key issue is to filled the framework of knowledge using named entity identification, attribution extraction and semantic annotation. The patent theme is clustered from similarity and novelty. Finally, competition network of knowledge subject and co-word network of knowledge object are built up, and the map of patent evolution is drawn by time dimension to discovery chance and forecast the trend. The visual platform of patent knowledge mining is developed.

专利是技术知识最有效的载体，专利知识演化图谱的构建将会极大地提升专利的应用价值。项目的宗旨是：综合运用文本挖掘技术，从知识主体和知识客体两个视角，进行面向专题的专利知识演化分析。首先，对于给定的用户需求，构建相应的领域本体，用于术语识别和查询扩展，检索国家专利数据库SIPO，建立专题数据库；然后，给出专利的逻辑表示，定义专利知识的细粒度表示<Feature,Effect>、<Effect，Value>,利用命名实体识别、属性抽取、语义标注等技术，填充专利的Feature、Effect和Value值框架，将非结构化信息转化为可以量化的知识单元。在专利知识相似度和新颖度基础上进行专利的主题聚类；最后，构造基于知识主体的竞争网络和基于知识客体的共词网络，按照时间维度，研制专利知识演化图谱，进行热点专利识别、专利机会发现和专利趋势预测，建立可视化的专利挖掘平台。

项目摘要

专利是技术知识最有效的载体，专利知识挖掘将会极大地提升专利的应用价值。项目主要目的是综合运用知识计量、文本挖掘、自然语言处理技术，以国家专利数据库SIPO为载体，进行面向专题的专利知识演化分析。首先，给出了专利的逻辑表示，相对于通常的信息抽取，根据专利领域特性，构建了专利知识的细粒度表示,将专利摘要文本表示技术特征和特征值的序列，即< Patent Frame>表示为若干个<Feature,Value>，利用命名实体识别、属性抽取、语义标注等技术，填充专利<Feature,Value>，从而将非结构化信息转化为可以量化的知识单元，实现了更为精细化的检索和分析。然后，在专利逻辑表示的基础上，提出了基于有序聚类和主题模型的专利知识演化分析方法，得到了所关心领域的不同发展历史阶段和不同阶段的主题聚类。在每个时间段内部，专利技术具有较强的内聚性，围绕相关的主题展开。不同时间段之间耦合性降低，表现为不同时期的专利热点的变化，有序聚类可以合理的表示技术发展的阶段。在前面演化分析的基础上，根据词语共现和时间因素构建词语关联图，从而基于小世界理论进行专利机会预测。实验显示，该方法能够发现潜在的专利机会。最后，建立可视化的中文专利挖掘平台，并将其中主要的文本挖掘方法拓展到到专利、生物、引文网络中。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.3969/j.issn.1674-0696.2020.10.20

发表时间：2020

丁堃的其他基金

批准号：61772103

批准年份：2017

资助金额：63.00

项目类别：面上项目

相似国自然基金

中文文本情感倾向挖掘技术研究

批准号：60673038

批准年份：2006

负责人：黄萱菁

学科分类：F0211

资助金额：26.00

项目类别：面上项目

中文社交化短文本情感分析与话题挖掘研究

批准号：71501003

批准年份：2015

负责人：王德庆

学科分类：G0112

资助金额：17.40

项目类别：青年科学基金项目

基于专利与网络文本集成挖掘的新兴产业技术机会识别与预测研究

批准号：71804016

批准年份：2018

负责人：马婷婷

学科分类：G0403

资助金额：19.50

项目类别：青年科学基金项目

基于专利知识挖掘的产品创新设计方法研究

批准号：50675197

批准年份：2006

负责人：邱清盈

学科分类：E0506

资助金额：25.00

项目类别：面上项目

基于中文文本挖掘技术的SIPO专利知识演化分析

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

信息熵-保真度联合度量函数的单幅图像去雾方法

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

含饱和非线性的主动悬架系统自适应控制

丁堃的其他基金

基于引用极性和评论挖掘的论文综合评价模型研究

相似国自然基金