[发明专利]一种基于统计和规则的特定领域的合成词发现方法无效
申请号: | 201310237883.3 | 申请日: | 2013-06-14 |
公开(公告)号: | CN103309852A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 刘毅;彭涛;韩波;邓院林;曹鹏 | 申请(专利权)人: | 瑞达信息安全产业股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 武汉凌达知识产权事务所(特殊普通合伙) 42221 | 代理人: | 宋国荣 |
地址: | 430070 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于计算机自然语言处理领域,涉及一种基于统计和规则的特定领域的合成词发现方法。其步骤包括:利用分词系统分词和词性标注,遍历分词结果利用停用词和构词规则过滤,遍历生成原子词的有向图,利用深度遍历排列组合可能的合成词组合并用统计指标和构词规则同时约束,生成合成词候选集供人工筛选,导入合成词进入字典文件供以后使用。本发明的优点有:建立了原子词的有向图,利用深度遍历自动探寻合成词的边界,可以识别出任意长度的合成词;构词规则便于定制和扩展,有良好的移植性;同时具有较高的准确率和召回率,提高汉语分词的准确度;生成的合成词能够更为精确的概念,这也为中文信息处理的深入研究奠定良好的基础。 | ||
搜索关键词: | 一种 基于 统计 规则 特定 领域 合成词 发现 方法 | ||
【主权项】:
一种基于统计和规则的特定领域的合成词发现方法,其特征在于:利用现有的分词系统对领域文本进行原子词切分和词性标注;利用停用词和构词规则过滤,删除不能组成合成词的原子词;正向遍历处理后的原子词,构造包含原子词组合关系的有向图,有向图记为G:,其中V指文本中的原子词集,E是与V对应的原子词相邻的原子词构成的集合;利用深度遍历算法搜索有向图,找出所有可能的合成词组合,同时利用统计指标和构词规则判断成词条件,生成合成词候选集;对合成词候选集进行人工筛选后的词表导入分词系统,固化为系统字典文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瑞达信息安全产业股份有限公司,未经瑞达信息安全产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310237883.3/,转载请声明来源钻瓜专利网。
- 上一篇:电子地图的任务的处理方法和装置
- 下一篇:短文本的垃圾识别方法及系统