[发明专利]一种科技项目申请书特征词提取方法有效
申请号: | 201310151425.8 | 申请日: | 2013-04-27 |
公开(公告)号: | CN103235774A | 公开(公告)日: | 2013-08-07 |
发明(设计)人: | 徐小良;林建海;茅志刚 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科技 项目 申请书 特征 提取 方法 | ||
技术领域
本发明属于分词与特征词提取技术领域,尤其涉及一种科技项目申请书特征词提取方法,用于针对科技项目申请书特征词提取的应用。
背景技术
随着我国各类科技计划项目申报数量和经费的逐年递增,由于目前科技项目管理信息系统建设的不健全,导致项目重复申报立项情况十分普遍。为有效杜绝这种现象,提高科技经费使用效率,针对科技项目申请书信息进行文本相似度计算研究是非常必要的。特征词是相似度计算、文本检索等应用的基础,因而特征词提取方法的研究是有效实现科技项目相似性检查的关键所在。
目前特征词提取方法主要分为三类:(1)基于统计特征的方法,如词语频度统计;(2)基于词语网络的方法,如根据规则将文档映射为词语共现网络并计算词语的关键度来提取特征词;(3)基于语义的方法。前两种方法虽然具有简单高效的优点,但由于算法局限于字面匹配、缺乏语义理解而排除了低频率的特征词。针对这个问题,引入语义特征进行关键词提取是目前的主要研究方法,如引入《同义词词林》计算词语的语义距离,一定程度上提高了关键词提取的准确度。
发明内容
本发明的目的是针对现有技术的不足,提出一种科技项目申请书特征词提取方法,能够有效地提取出表示项目申请书的特征词。
本发明解决问题所采取的技术方案包括如下步骤:
步骤1. 把申请书中的通用词和惯用词,作为专业停用词库;把标点符号、非汉字作为切分标记库。
所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”,“研究”。
步骤2. 对项目申请书进行分词:首先根据切分标记库,将申请书内容文本切分成子串序列;然后对子串序列分别进行中科院ICTCLAS分词。
步骤3.构建基于碎片的规则模型,并通过构建的规则模型识别未登录词。所述的未登录词识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,设WsC1C2…CnWe其中Ws 是与碎片左端相邻的多字词,C1C2…Cn 为产生的碎片,We 是与碎片右端相邻的多字词。规则模型如下:
规则一:确定字词的词性。针对多词性的字词,以其词性标注的第一个为其词性。
规则二:设置未登录词排除字集。词性为介词、助词、代词、副词的单字,比如“的、呢、最、太、这、我”,还有其它词性当中有存在构词能力较弱的,比如“呈,有,如,时”,所述的构词能力比较弱是指与其它字串构成未登录词的概率小于10%;将这些词归类为未登录词排除字集。
规则三:设置切分规则。未登录词候选片段对于未登录词片段WsC1C2…CnWe 中的Ci根据规则二,确定为排除字,那么未登录词片段切分为WsC1…Ci-1 与Ci+1…CnWe 两个未登录词片段,其中,1<i<n,n为自然数。
规则四:设置前缀字集。对未登录词片段WsC1C2…CnWe 中的Cn 进行前缀字判断。根据科技项目申请书分词碎片的分析统计,将碎片中存在构词能力比较强,且在词AB中处于A位置的字称为前缀字。所述的构词能力比较强是指与其它字词构成未登录词的概率超过90%的前缀字,将所述的前缀字归类为前缀字集。
规则五:设置后缀字集。对于未登录词片段WsC1C2…CnWe 中的C1 进行后缀字判断。同样根据规则四,将所述的后缀字归类为前缀字集。
规则六:设置词性配搭规则,具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310151425.8/2.html,转载请声明来源钻瓜专利网。