[发明专利]一种科技项目申请书特征词提取方法有效
申请号: | 201310151425.8 | 申请日: | 2013-04-27 |
公开(公告)号: | CN103235774A | 公开(公告)日: | 2013-08-07 |
发明(设计)人: | 徐小良;林建海;茅志刚 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科技 项目 申请书 特征 提取 方法 | ||
1. 一种科技项目申请书特征词提取方法,其特征在于包括如下步骤:
步骤1. 把申请书中的通用词和惯用词,作为专业停用词库;把标点符号、非汉字作为切分标记库;
所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”,“研究”;
步骤2. 对项目申请书进行分词:首先根据切分标记库,将申请书内容文本切分成子串序列;然后对子串序列分别进行中科院ICTCLAS分词;
步骤3.构建基于碎片的规则模型,并通过构建的规则模型识别未登录词;
所述的未登录词识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,设WsC1C2…CnWe其中Ws 是与碎片左端相邻的多字词,C1C2…Cn为产生的碎片,We 是与碎片右端相邻的多字词;规则模型如下:
规则一:确定字词的词性,针对多词性的字词,以其词性标注的第一个为其词性;
规则二:设置未登录词排除字集,将词性为介词、助词、代词、副词的单字,或其它词性当中与其它字串构成未登录词的概率小于10%的单字设置为未登录词排除字集;
规则三:设置切分规则,未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段切分为WsC1…Ci-1 与Ci+1…CnWe 两个未登录词片段,其中,1<i<n,n为自然数;
规则四:设置前缀字集,对未登录词片段WsC1C2…CnWe 中的Cn进行前缀字判断,将碎片中其它字词构成未登录词的概率超过90%的单字,且在词AB中处于A位置的字称为前缀字,并集合成前缀字集;
规则五:设置后缀字集,对于未登录词片段WsC1C2…CnWe中的C1 进行后缀字判断,同样根据规则四,集合成后缀字集;
规则六:设置词性配搭规则,具体如下:
若未登录词候选片段如WsC1We ,C1的第一词性为形容词,若We 为名词,则优先与We 结合;否则,若Ws为名词,不成词,否则优先与Ws结合;若未登录词候选片段如WsC1,Ws 为名词,Ws C1 不成词,否则成词;若未登录词候选片段如C1We,We 为动词,C1 We 不成词,否则,成词;
若未登录词候选片段如WsC1We ,C1的第一词性为动词,若We 为动词或名词,那么C1优先与Ws结合; 否则,若Ws为动词,那么优先与Ws结合,否则不成词;若未登录词候选片段为C1We ,We 为形容词,则C1We 不成词,否则成词;若未登录词候选片段如WsC1,Ws 为名词,WsC1 不成词,否则成词;
若未登录词候选片段如WsC1We ,C1的第一词性为名词,若Ws ,We 都为名词,则C1 优先与Ws 结合,若只有Ws或We 为名词,则优先与Ws或We 结合,否则,优先与Ws结合;若未登录词候选片段如WsC1 或C1We ,则结合成WsC1 或C1We ;
若未登录词候选片段如WsC1We ,C1的第一词性为其它词性,C1 优先与Ws 结合;
对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下:
1)若n=1,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);
2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C2…CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成C2…CnWe,转6);根据规则七,若C1是数词,则转7;否则转8);
3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);
4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);
5)根据规则六词性配搭,识别出未登录词;
6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束;若i<n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1…CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);
7)取下一个Ci,若i=n,根据规则六,若Ci是数词或量词前缀字,取出Cn-1Cn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束;若i<n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8);
8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束;若i<n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1…CnWe,转6);否则转8);
步骤4. 根据通用停用词库和专业停用词库进行停用词过滤,把过滤停用词和未登录词后的分词结果作为词语集合,所述的通用停用词库是采用哈工大停用词表;
步骤5. 对步骤4得到的词语集合进行词语间语义相似度计算,从而建立词语语义相似度网络;然后结合词语的词频,计算网络中词语的关联度来提取出其他特征词;
所述的语义相似度计算过程如下:
对于两个词语,借助于知网语义词典, 首先对两个词的义原相互进行相似度计算,并取其最大值,再根据下面的公式定义求得两个词语的语义相似度;
其中,w1为词语,有n个概念,w2为词语,有m个概念,且,n和m为自然数;
所述的词语语义相似度网络如下:
设为处理后得到的词语集合,则其对应的语义相似度邻接矩阵定义为:
词语集合经过词语语义相似度计算得到p*(1+p)/2个词语间语义相似度的值,并对这些值进行递减排序;设定一个阈值,取出前的值,设这部分语义相似度值所对应的词组合成另一词序列集合为,根据它们之间的语义相似度值生成对应的输入语义相似度邻接矩阵,p与q为自然数;
作为输入的词语集合,作为输入的语义相似度邻接矩阵,则其对应的词语语义相似度网络图定义为:G={V,E}; 其中图G为无向加权图,V表示图G中的顶点集,表示V中第i个顶点(词);E表示G中的边集;图G边的权值矩阵为,为第i个顶点和第j个顶点之间边的权值;
所述的词语语义关联度计算为:
设图G为构建的社会网络图,其中G为加权无向图,图中两个顶点之间边的权值为它们之间的语义相似度;到的最短路径经过的顶点依次为,路径对应的边的权值依次为,则G中顶点和对它们之间的关联度定义为:
其中为词序列集合中第j个词在申请书中的词频;为顶点到之间最短路径长度;
所以对于图G中的顶点,它在整个图中的关联度如下:
通过计算将得到q个关联度的值并从大到小排序,设定一个阈值,取出前个的值,则这些值所对应的顶点将作为文本特征词进行提取;
步骤6.将步骤5得到的特征词与步骤3识别出的未登录词组成科技项目的特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310151425.8/1.html,转载请声明来源钻瓜专利网。