To improve the precision and the recall of patent document retrieval and to reduce the computational cost, the content arrangement and sentence writing of the patent documents is directed to compute the patent document similarity. The research includes: (1) Establishing the Topological Structure of Element Combination for the Patent Document (TECP) through screening, synthesizing and unscrambling for similarity computing, and assigning different position weights for patent items in the Patent Document Vector Space Model (PVSM) according to the node positions of the items in TECP. (2) Constructing the patent knowledge base of pharmaceutical samples by using the field dictionary MED, patent database DWPI and International Patent Classification, and assigning semantic weights for items’ position to improve the accuracy of semantic expression in PVSM. (3) Designing a new kernel (kernel P) to compute the similarity of patent text, which includes the factor P based on the characteristics of patent documents, linear factor and Euclidean distance factor. The kernel P is proved out theoretically to achieve the best performance in relevance, generalization and learning. On the similarity computation of patent documents, the kernel P is used to calculate the similarity of PVSMs in the same elements of TECP between two compared patent documents, and then total similarity is obtained by weighing the summation of the different elements similarities to reduce the computational cost. The parameters are optimized based on multiple cross-validation, expertise and different retrieval purposes. The validation of the above method is to be done by the experiment.
为提高专利文献相似计算精准率和召回率,针对专利文献内容结构和用词造句特点,(1)对与相似计算有关的要素进行筛选、综合和整序,构建专利文献要素组合拓朴结构(TECP),依据词项在TECP中的节点位置不同赋予专利文献向量空间模型(PVSM)中词项位置权值;(2)利用领域词典MED、DWPI和国际专利分类IPC体系协同构建制药样本专利知识库,用于赋予PVSM中词项语义权值,以进一步提高PVSM语义表示的准确性;(3)构造核函数P核,包含针对用词造句特点并基于TECP设计的P因子、线性因子和欧氏距离因子,对P核进行理论证明,优化核参数使具有好的针对性、泛化和学习性能。最后,在进行专利文献相似度计算时,先用P核计算两个待比对专利文献TECP同要素的PVSM间的相似度,再将不同要素的相似度加权求和得总相似度,以减小计算开销。通过多重交叉验证、专家经验和不同检索目的优化各参数,并实验验证方法的有效性。
专利文献包含大量的技术、经济和法律信息,成为知识产权战略推进中的关键因素,是科技进步和创新的主要载体。知识产权的获取、创造、运用和管理过程均离不开对专利文献的相似计算。如何进一步提高专利文献相似度计算的有效性即召回率和精准率是本研究要解决的技术问题。.本报告主要研究内容如下:(1)影响专利文献相似度计算的要素组合拓朴结构模型及其构造方法研究。 通过挖掘用户对专利文献中不同要素的兴趣情况及各要素之间的兴趣相互关系程度,揭示用户对专利文献各部分的关注点或兴趣所在。利用Tobii T60XL眼动仪记录用户阅读专利文献的眼动行为,结合测前问卷、测后RTA访谈进行分析。选用访问时间、注视次数、瞳孔直径缩放比三个指标,计算各要素兴趣度,从而构建了专利各要素间的用户兴趣拓扑结构。研究发现:(名称、摘要、摘要附图)、独立权利要求、具体实施方式和从属权利要求的兴趣度分别达到1.45、1.124、0.933和0.923,为后继的专利相似计算权系数确定提供依据。 (2)专利文献词项的语义表示方法及专利文献向量空间模型的构建。提出通过构建领域专利知识库,将专利文本表示成带有专利语义权重信息以及词频权重信息的文本向量;综合考虑了词项出现在专利文献中的位置不同时,词项对专利文献相关度的贡献不同,赋以各词项位置权重,将专利文本进一步表示成带有位置权重信息的专利文本向量。 (3) 构造专利文献相似度计算的核函数Luke核并用于相似度计算,提高了相似计算的效果。结合专利文献的特点,利用Mercer定理,构造的Luke核具有如下形式 。结合兴趣加权和词项的位置语义表示,将Luke核用于专利文献相似度计算。研究结果表明:准确率、召回率和F1评价指数分别达到0.58,0.96,0.72,大大提高了计算效果。.本研究为核函数的构建提供了一般方法,并丰富了核函数的类型;基于人本的思想,通过阅读行为生理特征研究,提高了权系数设计的科学性;综合词项的位置和语义关系进一步提升了相似计算的准确率和召回率。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
涡度相关技术及其在陆地生态系统通量研究中的应用
黄河流域水资源利用时空演变特征及驱动要素
拥堵路网交通流均衡分配模型
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
空间群组目标相似度计算模型研究
多知识源下概念语义相似度或关联度计算方法及其评价
基于内蕴几何结构的颅面相似度计算与复原
视频语义向量空间模型与不良视频识别