[发明专利]一种分词方法及装置有效
申请号: | 201210407529.6 | 申请日: | 2012-10-23 |
公开(公告)号: | CN102915299B | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 李成华;王勇进;王峰 | 申请(专利权)人: | 海信集团有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 孔凡红 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 方法 装置 | ||
技术领域
本发明涉及分词领域,特别涉及一种分词方法及装置。
背景技术
随着网络的普及和电子技术的成熟,使电视机逐步趋向于“高清化”、“网 络化”、“智能化”。
通过互联网进行视频点播搜索成为智能电视中主要的需求和应用。而要从 互联网海量视频中准确地搜索出用户想要看的视频内容,就需要有效地提取文 本信息,因此,如何有效提取文本信息也就成为了信息检索领域的重要问题。 中文分词作为信息处理及检索的一个主要技术而受到广泛关注,特别是在不同 领域的不同应用中对分词要求越来越高,可以说分词技术的好坏也直接影响到 了信息处理和检索的结果。
现有技术中有多种分词方法,其中基于字符串的分词方法因为较为简单而 比较通用。
现有的基于字符串的分词方法大概可以包括正向最大匹配法和逆向最大 匹配法。例如有一种基于字符串的分词方法主要采用正向最大匹配法或逆向最 大匹配法对需要分词的字符串进行机械分词处理,对未识别出的单字实现了地 名和街道名的分词识别,其目的在于识别地名、街道名称等,扩充了地名词库。
本申请发明人在实现本申请实施例技术方案的过程中,至少发现现有技术 中存在如下技术问题:
1、现有的分词系统只采用一种分词方法(正向最大匹配法或逆向最大匹 配法)来进行分词,分词过程较为粗糙,导致得到的分词结果不够准确,降低 了分词准确度;
2、现有的分词方法只涉及到地名领域的分词,对于其他领域的字符串仍 然无法进行有效识别。
发明内容
本发明实施例提供一种分词方法及装置,用于解决现有技术中分词准确度 不高的技术问题,实现了提高分词准确度的技术效果。
本发明的一方面,提供了一种分词方法,包括以下步骤:
获得待处理的字符串;
根据正向最大匹配法将所述待处理的字符串与通用词典库进行匹配,得到 第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串与通用词典库进 行匹配,得到第二匹配结果,其中,所述第一匹配结果中包含有第一数值个的 第一词组,所述第二匹配结果中包含有第二数值个的第二词组,所述第一数值 为根据第一匹配结果确定的所述第一匹配结果中所包含的所述第一词组的数 量,所述第二数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含 的所述第二词组的数量,所述第一匹配结果中包含有第三数值个的单字,所述 第二匹配结果中包含有第四数值个的单字,所述第三数值为根据所述第一匹配 结果确定的所述第一匹配结果中所包含的单字的数量,所述第四数值为根据所 述第二匹配结果确定的所述第二匹配结果中所包含的单字的数量;
判断所述第一数值与所述第二数值是否相等;
当所述第一数值与所述第二数值相等时,判断所述第三数值是否大于所述 第四数值,其中,所述第一匹配结果中包含有第三数值个的单字,所述第二匹 配结果中包含有第四数值个的单字;
当所述第三数值等于所述第四数值时,输出所述第一数值个词组。
本发明的另一方面,提供了一种分词装置,包括:
获取模块,用于获得待处理的字符串;
匹配模块,用于根据正向最大匹配法将所述待处理的字符串与通用词典库 进行匹配,得到第一匹配结果,和根据逆向最大匹配法将所述待处理的字符串 与通用词典库进行匹配,得到第二匹配结果,其中,所述第一匹配结果中包含 有第一数值个的第一词组,所述第二匹配结果中包含有第二数值个的第二词组, 所述第一数值为根据第一匹配结果确定的所述第一匹配结果中所包含的所述 第一词组的数量,所述第二数值为根据所述第二匹配结果确定的所述第二匹配 结果中所包含的所述第二词组的数量,所述第一匹配结果中包含有第三数值个 的单字,所述第二匹配结果中包含有第四数值个的单字,所述第三数值为根据 所述第一匹配结果确定的所述第一匹配结果中所包含的单字的数量,所述第四 数值为根据所述第二匹配结果确定的所述第二匹配结果中所包含的单字的数 量;
第一判断模块,用于判断所述第一数值与所述第二数值是否相同;
第二判断模块,当所述第一数值与所述第二数值相同时,判断所述第三数 值是否大于所述第四数值,其中,所述第一匹配结果中包含有第三数值个的单 字,所述第二匹配结果中包含有第四数值个的单字;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信集团有限公司,未经海信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210407529.6/2.html,转载请声明来源钻瓜专利网。