[发明专利]一种专利文献聚类方法在审
申请号: | 201510278103.9 | 申请日: | 2015-05-27 |
公开(公告)号: | CN104881401A | 公开(公告)日: | 2015-09-02 |
发明(设计)人: | 林鸿飞;孙东普 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 大连星海专利事务所 21208 | 代理人: | 徐雪莲 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。 | ||
搜索关键词: | 一种 专利 文献 方法 | ||
【主权项】:
一种专利文献聚类方法,其特征在于,包括以下步骤:S1、语料集采集及预处理:a1、语料集采集:选定预定领域,从专利文献数据库中按照专利IPC分类号在每个类别中采集专利文献信息组成语料集,所述专利文献信息包括专利文献的专利标题、IPC分类号和专利摘要;从所述语料集中提取所有专利文献的专利摘要并存储为词向量训练语料集;从语料集中提取部分专利文献的专利摘要并存储为属性和属性值模型训练语料集;从语料集中提取部分专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料集;从聚类分析语料集中抽取所有专利摘要并将其分成两个部分,一部分作为聚类分析摘要集,另一部分作为聚类分析属性和属性值抽取集;从聚类分析语料集中抽取所有专利标题并存储为聚类分析标题集;a2、分词处理及标注:采用分词模型对词向量训练语料集、聚类分析标题集、聚类分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集,同时对属性和属性值模型训练词语集和属性值抽取词语集进行词性标注及属性标注;所述属性标注以属性和属性值组成的数据组的形式进行标注;S2、聚类分析语料的特征词提取:对步骤S1中得到的与聚类分析摘要集相对应的聚类分析摘要词语集,统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量,计算每个词语的TFIDF值:
其中,N为聚类分析语料集的语料总数,nk,i为第k个词语在聚类分析摘要集中的第i篇专利摘要中出现的次数,nk,d为聚类分析摘要集中包含第k个词语的专利摘要的数量;预设阈值,对于与聚类分析摘要集的每条摘要所对应的聚类分析摘要词语集中的词语将TFIDF值大于阈值的词语作为与该专利摘要的特征词,每条专利摘要的特征词组成聚类分析摘要特征词集合;遍历步骤S1得到的聚类分析标题词语集,对于每一条专利标题,将属于对应聚类分析摘要特征词集合中的词语提取并保存为聚类分析专利标题特征词集;S3、基于词向量的聚类分析数据专利向量表示:包括如下步骤:b1、获取词向量:利用词向量技术,得到所述词向量训练词语集中每个词语的词向量;b2、属性和属性值抽取:将属性和属性值作为命名实体,利用序列标注技术,通过步骤a2得到的经过属性标注后的属性和属性值模型训练词语集所对应的属性和属性值模型训练语料集训练得到的条件随机场模型,并将训练得到的条件随机场模型应用于聚类分析属性和属性值抽取集,完成对聚类分析属性和属性值抽取集中的每个专利摘要的标签预测;对于经过标签预测的聚类分析属性和属性值抽取集,提取聚类分析属性和属性值抽取集中的每一篇专利摘要中被赋予标签的词语,并将上述词语保存为聚类分析摘要属性和属性值集;b3、专利摘要属性和属性值的向量表示:利用词向量技术将步骤b2得到的聚类分析摘要属性和属性值集中词语表示为词向量形式,将每篇专利摘要所对应的聚类分析摘要属性和属性值集中的词向量进行线性加和作为该专利摘要属 性和属性值的向量表示;b4、专利标题的向量表示:利用步骤b1,将聚类分析标题集中包含的专利标题特征词替换成对应的词向量;将聚类分析标题集中每一调专利标题所对应的所有专利标题特征词的词向量进行线性相加,得到该条专利标题的向量表示;b5、专利摘要文本的向量表示:利用步骤b4的方法得到专利摘要文本的向量表示;b6、加权融合:将步骤b3‑b5得到专利摘要属性和属性值的向量表示、专利标题的向量表示和专利摘要文本的向量表示进行加权线性求和,求和之后得到的和向量即为聚类分析数据专利向量表示;S4、聚类:针对步骤S3得到的聚类分析数据专利向量,利用聚类分析法通过计算聚类分析数据专利向量之间的相似度完成初次聚类;再结合具体的阈值,对初始聚类结果进行不断调整,最后得到聚类分析数据中专利的聚类结果;S5、聚类结果评价:根据预设的评价指标对聚类结果进行评价。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510278103.9/,转载请声明来源钻瓜专利网。
- 上一篇:信息提供装置以及信息提供方法
- 下一篇:修复均化的方法与系统