[发明专利]一种科技项目申请书特征词提取方法有效

申请号：	201310151425.8	申请日：	2013-04-27
公开（公告）号：	CN103235774A	公开（公告）日：	2013-08-07
发明（设计）人：	徐小良;林建海;茅志刚	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	杜军
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种科技项目申请书特征词提取方法。本发明具体包括如下步骤：步骤1：将申请书主要文本切分成子串序列并进行中科院ICTCLAS分词；步骤2：构建基于碎片的规则模型，并通过构建的规则模型识别未登录词；步骤3：对经步骤2提取未登录词后的分词结果进行停用词过滤得到词语集合；步骤4：计算词语集合中词语间语义相似度并建立词语语义相似度网络，计算图中词语的关联度，根据关联度大小提取特征词；步骤5：将步骤4得到的特征词与步骤2识别出的未登录词组成科技项目申请书的特征词。本发明能更准确地提取到项目申请书的关键词，也改善了科技项目相似度检查的效果。
搜索关键词：	一种科技项目申请书特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1. 一种科技项目申请书特征词提取方法，其特征在于包括如下步骤：步骤1. 把申请书中的通用词和惯用词，作为专业停用词库；把标点符号、非汉字作为切分标记库；所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”，“研究”；步骤2. 对项目申请书进行分词：首先根据切分标记库，将申请书内容文本切分成子串序列；然后对子串序列分别进行中科院ICTCLAS分词；步骤3.构建基于碎片的规则模型，并通过构建的规则模型识别未登录词；所述的未登录词识别是基于碎片的，将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段，设W_sC₁C₂…C_nW_e其中W_s是与碎片左端相邻的多字词，C₁C₂…C_n为产生的碎片，W_e是与碎片右端相邻的多字词；规则模型如下：规则一：确定字词的词性，针对多词性的字词，以其词性标注的第一个为其词性；规则二：设置未登录词排除字集，将词性为介词、助词、代词、副词的单字，或其它词性当中与其它字串构成未登录词的概率小于10%的单字设置为未登录词排除字集；规则三：设置切分规则，未登录词候选片段对于未登录词片段W_sC₁C₂…C_nW_e中的C_i根据规则二，确定为排除字，那么未登录词片段切分为W_sC₁…C_i-1 与C_i+1…C_nW_e 两个未登录词片段，其中，1<i<n，n为自然数；规则四：设置前缀字集，对未登录词片段W_sC₁C₂…C_nW_e 中的C_n进行前缀字判断，将碎片中其它字词构成未登录词的概率超过90%的单字，且在词AB中处于A位置的字称为前缀字，并集合成前缀字集；规则五：设置后缀字集，对于未登录词片段W_sC₁C₂…C_nW_e中的C₁进行后缀字判断，同样根据规则四，集合成后缀字集；规则六：设置词性配搭规则，具体如下：若未登录词候选片段如W_sC₁W_e ，C₁的第一词性为形容词，若W_e为名词，则优先与W_e结合；否则，若W_s为名词，不成词，否则优先与W_s结合；若未登录词候选片段如W_sC₁，W_s为名词，W_sC₁不成词，否则成词；若未登录词候选片段如C₁W_e，W_e为动词，C₁W_e不成词，否则，成词；若未登录词候选片段如W_sC₁W_e，C₁的第一词性为动词，若W_e为动词或名词，那么C₁优先与W_s结合; 否则，若W_s为动词，那么优先与W_s结合，否则不成词；若未登录词候选片段为C₁W_e，W_e为形容词，则C₁W_e不成词，否则成词；若未登录词候选片段如W_sC₁，W_s为名词，W_sC₁不成词，否则成词；若未登录词候选片段如W_sC₁W_e，C₁的第一词性为名词，若W_s，W_e都为名词，则C₁优先与W_s结合，若只有W_s或W_e为名词，则优先与W_s或W_e结合，否则，优先与W_s结合；若未登录词候选片段如W_sC₁ 或C₁W_e ，则结合成W_sC₁或C₁W_e；若未登录词候选片段如W_sC₁W_e，C₁的第一词性为其它词性，C₁优先与W_s结合；对未登录词候选片段W_sC₁C₂…C_nW_e进行未登录词识别的规则模型，其描述如下：1）若n=1，根据规则二，若C₁是排除字或者数词，则识别结束；否则转3）；2）若n>=2，根据规则二，若C₁是排除字，则未登录词候选片段变成C₂…C_nW_e,转6）；根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，未登录词候选片段变成C₂…C_nW_e，转6）；根据规则七，若C₁是数词，则转7；否则转8）；3）根据规则四，若C₁是前缀字，则取出未登录词C₁W_e，识别结束；否则转4）；4）根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，识别结束；否则转5）；5）根据规则六词性配搭，识别出未登录词；6）取下一个C_i，若i=n，根据规则二，若C_i是排除字或数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则，识别结束；若i<n,根据规则二，若C_i是排除字，则未登录词候选片段变成C_i+1…C_nW_e，转6）；根据规则六，若C_i是数词，转7）；否则转8）；7）取下一个C_i，若i=n,根据规则六，若C_i是数词或量词前缀字,取出C_n-1C_n，作为数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则识别结束；若i<n，根据规则七，若C_i是数词，量词前缀字，量词，转7）；否则，转8）；8）取下一个C_i，若i=n，根据规则二，C_i是排除字或数词，则取出C_n前面的单字作为未登录词，识别结束；根据规则四，若C_i是前缀字，则取出C_n前面的单字为未登录词，C_nW_e也作为未登录词，识别结束；否则，识别出W_e前面的单字作为未登录词，识别结束；若i<n,根据规则二，若C_i是排除字，取出C_i前面的单字，根据规则三，若为一个，不作为未登录词，否则作为未登录词，未登录词候选片段变成C_i+1…C_nW_e,转6）；否则转8）；步骤4. 根据通用停用词库和专业停用词库进行停用词过滤，把过滤停用词和未登录词后的分词结果作为词语集合，所述的通用停用词库是采用哈工大停用词表；步骤5. 对步骤4得到的词语集合进行词语间语义相似度计算，从而建立词语语义相似度网络；然后结合词语的词频，计算网络中词语的关联度来提取出其他特征词；所述的语义相似度计算过程如下：对于两个词语，借助于知网语义词典，首先对两个词的义原相互进行相似度计算，并取其最大值，再根据下面的公式定义求得两个词语的语义相似度；其中,w₁为词语，有n个概念,w₂为词语，有m个概念，且，n和m为自然数；所述的词语语义相似度网络如下：设为处理后得到的词语集合，则其对应的语义相似度邻接矩阵定义为：词语集合经过词语语义相似度计算得到p*(1+p)/2个词语间语义相似度的值，并对这些值进行递减排序；设定一个阈值，取出前的值，设这部分语义相似度值所对应的词组合成另一词序列集合为，根据它们之间的语义相似度值生成对应的输入语义相似度邻接矩阵，p与q为自然数；作为输入的词语集合，作为输入的语义相似度邻接矩阵，则其对应的词语语义相似度网络图定义为：G={V,E}；其中图G为无向加权图，V表示图G中的顶点集，表示V中第i个顶点（词）；E表示G中的边集；图G边的权值矩阵为，为第i个顶点和第j个顶点之间边的权值；所述的词语语义关联度计算为：设图G为构建的社会网络图，其中G为加权无向图，图中两个顶点之间边的权值为它们之间的语义相似度；到的最短路径经过的顶点依次为，路径对应的边的权值依次为，则G中顶点和对它们之间的关联度定义为：其中为词序列集合中第j个词在申请书中的词频；为顶点到之间最短路径长度；所以对于图G中的顶点，它在整个图中的关联度如下：通过计算将得到q个关联度的值并从大到小排序，设定一个阈值，取出前个的值，则这些值所对应的顶点将作为文本特征词进行提取；步骤6.将步骤5得到的特征词与步骤3识别出的未登录词组成科技项目的特征词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310151425.8/，转载请声明来源钻瓜专利网。

上一篇：尼龙6纤维聚合纺丝一步法技术
下一篇：一种季戊四醇油酸酯油溶性缓蚀剂的配制方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种科技项目申请书特征词提取方法有效

专利文献下载