[发明专利]一种专利文本向量的语义表示方法在审
申请号: | 201410169250.8 | 申请日: | 2014-04-24 |
公开(公告)号: | CN104199809A | 公开(公告)日: | 2014-12-10 |
发明(设计)人: | 王秀红;袁银池;汪满容;卢章平 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 江苏纵联律师事务所 32253 | 代理人: | 戴勇 |
地址: | 212013 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专利 文本 向量 语义 表示 方法 | ||
1.一种专利文本向量的语义表示方法,其特征在于包括以下步骤:
步骤一,构建领域专利知识库;
步骤二,利用构建的领域专利知识库,计算词项的专利语义权重,将专利文本表示成带有专利语义信息的向量:假设两待比对的专利文本为dx和dz,首先通过词包法将dx和dz表示成实词向量xx和zz;然后通过构建的领域专利知识库赋以各词项专利语义权重,将xx和zz进一步表示成带有专利语义信息的向量xx0和zz0;所述实词为出现在专利文献中的名词、动词、形容词和副词,即所述词项;
步骤三,结合利用TF-IDF规则,最后将专利文本表示成带有专利语义权重信息以及词频权重信息的专利文本向量x和z。
2.根据权利要求1所述的一种专利文本向量的语义表示方法,其特征在于所述构建领域专利知识库的方法为:基于所述领域的领域词典和德温特世界专利索引数据库即DWPI数据库公开的所述领域的专利文献,结合所述领域的技术国际专利分类即IPC分类体系层次结构关系,构建所述领域专利知识库。
3.根据权利要求1所述的一种专利文本向量的语义表示方法,其特征在于所述步骤二进一步具体为
输入:待比对的专利文本dx和专利文本dz
输出:待比对的专利文本dx和专利文本dz分别对应的专利文本向量x和z
步骤1,用词包法分别将dz和dx表示成两个词频向量xx和zz
φ1:dz→zz=φ1(dz)=(tf(t1,dz),tf(t2,dz),...,tf(tN,dz))∈RN,
φ1:dx→xx=φ1(dx)=(tf(t1,dx),tf(t2,dx),...,tf(tN,dx))∈RN
式中f(ti,dx)和f(ti,dz)分别是词项ti,i=1,...,N在dx和dz中出现的频率,N为词典大小;
步骤2,利用所构建的领域专利知识库,计算zz和xx中各词项ti,i=1,...,N的专利语义权重,将专利文本进一步表示成带有知识语义信息的专利文本向量xx0和zz0
φ2:zz→zz0=φ2(zz)=(ω(t1)tf(t1,zz),ω(t2)tf(t2,zz),...,ω(tN)tf(tN,zz))∈RN
φ2:xx→xx0=φ2(xx)=(ω(t1)tf(t1,xx),ω(t2)tf(t2,xx),...,ω(tN)tf(tN,xx))∈RN
ω(ti)为词项ti的专利语义权重,通过将专利文本中词项ti对应关联到领域专利知识库中,计算得词项ti的专利语义权重ω(ti);
步骤3,针对专利文献带有很强的专业性,术语在某一特定专业领域内反复出现,而在其它专业领域却很少出现的特点,利用TF-IDF规则,即当某个专利术语在一篇或少数专利文献中出现的频率高而在其它专利文献中很少出现,则认为该术语具有很好的类别区分能力;在很多个专利文献中都出现的术语,区分性能较弱,进一步结合利用TF-IDF规则定义词项ti的词频权重w0(ti)来表达术语重要程度,将专利文本dx和dz进一步表示成专利文本向量x和z
φ3:zz0→z=φ3(zz0)=(ω0(t1)ω(t1)tf(t1,zz),ω0(t2)ω(t2)tf(t2,zz),...,ω0(tN)ω(tN)tf(tN,zz))∈RN
φ3:xx0→x=φ3(xx0)=(ω0(t1)ω(t1)tf(t1,xx),ω0(t2)ω(t2)tf(t2,xx),...,ω0(tN)ω(tN)tf(tN,xx))∈RN。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学;,未经江苏大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410169250.8/1.html,转载请声明来源钻瓜专利网。