[发明专利]一种基于统计和规则的特定领域的合成词发现方法无效
申请号: | 201310237883.3 | 申请日: | 2013-06-14 |
公开(公告)号: | CN103309852A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 刘毅;彭涛;韩波;邓院林;曹鹏 | 申请(专利权)人: | 瑞达信息安全产业股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 武汉凌达知识产权事务所(特殊普通合伙) 42221 | 代理人: | 宋国荣 |
地址: | 430070 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统计 规则 特定 领域 合成词 发现 方法 | ||
1.一种基于统计和规则的特定领域的合成词发现方法,其特征在于:
利用现有的分词系统对领域文本进行原子词切分和词性标注;
利用停用词和构词规则过滤,删除不能组成合成词的原子词;
正向遍历处理后的原子词,构造包含原子词组合关系的有向图,有向图记为G:<V,E>,其中V指文本中的原子词集,E是与V对应的原子词相邻的原子词构成的集合;
利用深度遍历算法搜索有向图,找出所有可能的合成词组合,同时利用统计指标和构词规则判断成词条件,生成合成词候选集;
对合成词候选集进行人工筛选后的词表导入分词系统,固化为系统字典文件。
2.按照权利要求1所述的方法,其特征在于:步骤B中所述的停用词来源于多个汉字组成的停用词表,该表以dic文件存储在计算机硬盘存储器上,使用时直接读入内存调用。
3.按照权利要求1所述的方法,其特征在于:步骤D中所述的统计指标包括词频,互信息,置信度。
4.按照权利要求3所述的方法,其特征在于:所述词频指单词在文本中出现的次数。
5.按照权利要求3所述的方法,其特征在于:所述的互信息指对训练文本中相邻出现的各个字之间组合的频度进行统计,计算出相邻字出现的频率,用这个频率与字单独出现的频率进行比较,计算出汉字之间的互信息,进而判断该字串是否组成词语;
对有序汉字串AB 中汉字A 、B 之间的互信息定义为:
其中, P( AB) 为汉字串AB 出现的概率, P( A)为汉字A 出现的概率, P( B) 为汉字B 出现的概率;假定它们在语料库中出现的次数分别计为n ( A) 、n ( B) 、n ( AB) , n 是统计语料库中的词频总数;则有:P( A , B) = n ( AB) / n , P( A) = n ( A) / n , P( B) =n ( B) / n 。
6.按照权利要求3所述的方法,其特征在于:所述的置信度是指,设定恰当的置信区间可以在遵循最长匹配原则的同时区分出较短的但的确有意义的合成词;对于长词串A和短词串B,且B是A的子集,则A与B的置信度的定义如下:
其中n(B)是词串B出现的次数,n(A)是词串A出现的次数,C(A,B)说明出现B的时候,有C(A,B)的可能B是A的一部分。
7.按照权利要求1所述的方法,其特征在于:步骤B中所述的构词规则包括,
规则1:数词,代词,介词,助词,虚词,连词等词性不组成合成词;
规则2:数词后跟着的单字词或名词不组成合成词;
规则3:已经拥有完整意义的词不能组成合成词;
规则4:有的词只能做词首;
规则5:有的词只能做词尾;
规则6:合成词中至少含有一个动词、名词或名词性成分;
规则7:合成词最后一个词为动词、名词或名词性成分。
8.按照权利要求1所述的方法,其特征在于:步骤A中所述的分词系统采用的是ICTCLAS4J版本,可以直接部署在电脑上或通过编译器调用接口执行分词操作。
9.按照权利要求1所述的方法,其特征在于:步骤A中所述的领域文本为txt、html、pdf或doc格式的文件,存储在硬盘的固定位置,其中保存的是中英文字符。
10.按照权利要求1所述的方法,其特征在于:步骤D中所述的生成的合成词候选集的存储过程将其固化在硬盘上,通过保存为txt文件或是存储到数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瑞达信息安全产业股份有限公司,未经瑞达信息安全产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310237883.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子地图的任务的处理方法和装置
- 下一篇:短文本的垃圾识别方法及系统