[发明专利]一种中文分词的方法及装置有效

申请号：	201510727506.7	申请日：	2015-10-30
公开（公告）号：	CN106649251B	公开（公告）日：	2019-07-09
发明（设计）人：	胡斌;崔维福	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文分词方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种中文分词方法及装置，涉及分词技术领域，为解决分词结果不准确的问题而发明。本发明的方法包括：对同一个目标字符串分别进行正向匹配分词和逆向匹配分词，分别获得正向分词序列和逆向分词序列；查找正向分词序列和逆向分词序列之间的冲突词，冲突词包括正向分词序列包含、但逆向分词序列不包含的第一冲突词，以及逆向分词序列包含、但正向分词序列不包含的第二冲突词；计算第一冲突词的贡献值，记做第一贡献值；计算第二冲突词的贡献值，记做第二贡献值；比较第一贡献值与第二贡献值的大小，将贡献值大的冲突词记做优质冲突词；将优质冲突词与非冲突词结合，确定目标字符串最终的分词结果。本发明主要应用于中文分词的过程中。

技术领域

本发明涉及分词技术领域，尤其涉及一种中文分词的方法及装置。

背景技术

中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。中文分词指的是将一个中文字符串切分成一个一个单独的词语，获得由这些独立词语组合而成的分词序列。

中文分词目前使用最广泛是机械分词方法，它是按照一定的策略将待分析的中文字符串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到与中文字符串部分相同的字符，则匹配成功，即识别出一个词语。

对于有特定含义的特定词语，可能会出现其他分词的组合，这样根据词条匹配得到的分词结果，可能与实际的语义有偏差。例如，对于中文字符串“被告人丁建设犯抢劫罪”，会出现两种不同的分词结果：第一种情况为“被告、人丁、建设、犯、抢劫、罪”，第二种情况为“被告人、丁、建设、犯、抢劫、罪”。其中“被告人”是法律行业中的一个特定词，应当作为一个词语进行划分，而“丁”属于姓氏的专有名词，不应将其与“人”合在一起划分为“人丁”这个词语。可见，第一种分词结果并不准确，错误的分词方式导致了实际语义的错误识别。

发明内容

本发明提供了一种中文分词的方法及装置，能够解决分词结果不准确的问题。

为了解决上述技术问题，一方面，本发明提供了一种中文分词的方法，包括：

对同一个目标字符串分别进行正向匹配分词和逆向匹配分词，分别获得正向分词序列和逆向分词序列；

查找所述正向分词序列和所述逆向分词序列之间的冲突词，所述冲突词包括所述正向分词序列包含、但所述逆向分词序列不包含的第一冲突词，以及所述逆向分词序列包含、但所述正向分词序列不包含的第二冲突词；

计算所述第一冲突词的贡献值，记做第一贡献值；

计算所述第二冲突词的贡献值，记做第二贡献值；

比较所述第一贡献值与所述第二贡献值的大小，将贡献值大的冲突词记做优质冲突词；

将优质冲突词与非冲突词结合，确定目标字符串最终的分词结果。

另一方面，本发明还提供了一种中文分词的装置，包括：

分词单元，用于对同一个目标字符串分别进行正向匹配分词和逆向匹配分词，分别获得正向分词序列和逆向分词序列；

查找单元，用于查找所述分词单元获得的正向分词序列和所述逆向分词序列之间的冲突词，所述冲突词包括所述正向分词序列包含、但所述逆向分词序列不包含的第一冲突词，以及所述逆向分词序列包含、但所述正向分词序列不包含的第二冲突词；