[发明专利]一种基于模糊匹配与统计的错字词知识库构建方法在审
申请号: | 201510934356.7 | 申请日: | 2015-12-15 |
公开(公告)号: | CN105512110A | 公开(公告)日: | 2016-04-20 |
发明(设计)人: | 刘海波;刘亮亮;吴健康;顾德之;张再跃;张晓如 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 许丹丹 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于模糊匹配与统计的错字词知识库构建方法,对语料句子进行分词得到词语散串,按照散串合并规则对词语散串进行合并得到合并词串,根据汉语词典利用模糊匹配算法获取合并词串的相似词候选集;获取合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合;根据合并词串的每个邻接元集合元素在语料中共现频次判断某一合并词串是否为错字词串,若该合并词串是错字词串,则根据其相似词的邻接元集合元素在语料中出现的频次建立该合并词串的错词对。本发明的错字词知识库构建方法,解决了现有技术中数据稀疏且仅根据汉语词典的错词判断所带来的校正准确率低的问题,系统响应快、精度符合实际应用需求,有效性和准确性高。 | ||
搜索关键词: | 一种 基于 模糊 匹配 统计 错字 知识库 构建 方法 | ||
【主权项】:
一种基于模糊匹配与统计的错字词知识库构建方法,其特征在于,包括以下步骤:(1)对语料句子进行分词得到若干个词语散串,所述词语散串按其在所述语料句子中的顺序进行排列,按照预先设置的散串合并规则对词语散串进行合并得到若干个合并词串,根据汉语词典利用模糊匹配算法获取合并词串的相似词候选集;(2)对某一合并词,利用所述词语散串获取该合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合;(3)根据合并词串的每个邻接元集合元素在语料中的共现频次判断某一合并词串是否为错字词串,若该合并词串是错字词串,则根据其相似词的邻接元集合元素在语料中出现的频次建立该合并词串的错词对。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510934356.7/,转载请声明来源钻瓜专利网。