[发明专利]词检测方法、装置、系统在审
申请号: | 201610638447.0 | 申请日: | 2016-08-05 |
公开(公告)号: | CN107688562A | 公开(公告)日: | 2018-02-13 |
发明(设计)人: | 王晓利;张驰;加山英俊 | 申请(专利权)人: | 株式会社NTT都科摩 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京市柳沈律师事务所11105 | 代理人: | 万里晴 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 方法 装置 系统 | ||
技术领域
本申请涉及词语检测领域,且更具体地涉及词检测方法、装置、系统。
背景技术
随着因特网(Internet)、信息共享(如论坛、微博、微信等)、自媒体等的蓬勃发展,广大用户正创建越来越多的新词,并在用户之间广泛传播。例如,“打酱油”、“坑爹”、“高大上”、“给力”、“脑残”、“呆萌”等等。而很多基于词的应用、例如机器翻译则需要了解这些是新词、且需要了解这些新词的真实含义,否则机器翻译可能将其翻译成完全无意义的内容。例如“坑爹”这个新词,它实际的意思是例如“骗人”,因此如果机器翻译了解这是新词,且了解这些新词的真实含义,则可以将其翻译成真实的意思。还有很多基于词的应用、例如输入法的输入推荐等只需要知道这是否是新词即可,而不需要知道该新词的真实含义。
因此,检测新词是至关重要的。但如果采用人工来标记这些新词,则会占用大量的时间和人力成本,且实时性和效率均低。
这提出了快速跟踪并检测新词的需求。
发明内容
检测新词的一种方案是:首先在大规模的Internet生语料上进行词法切分,然后在分词的基础上进行统计分析得到大量的候选词,然后通过与已有字典中的已有词进行比较,如果不被包括在已有词中,则可以检测为新词。因此,新词检测的基础是检测候选词,具体地,检测被候选为新词的词。
因为英文词由于词与词之间的空格天然地切分了词的单位,而中文词(以及日文词等类似属性的词)由于是连续的,因此机器无法判断那几个字组成了一个词,因此,新词检测的问题可以被划分为:词的切分(segmentation)、词的组合(bundle)、词的检测(candidate string classification)、与已有词典的比较以找到新词。
根据本发明的第一方面,提供一种词检测方法,包括如下步骤:将文字数量为N的第一字串输入第一成词分类器,其中,所述第一成词分类器用于检测文字数量为M的词,其中M<N,且M、N为正整数;根据所述第一成词分类器的成词分类结果,在第一成词分类器检测到文字数量为M的第二词的情况下,将所述第一字串分段为包括至少第二词的多个分段字串,其中各个分段字串中的文字相互不重叠;以每个分段字串作为最小单元,将所述第一字串输入第二成词分类器来检测所述第一字串是否是词,其中,所述第二成词分类器用于检测文字数量为N的词。
根据本发明的第二方面,提供一种词检测系统,包括:处理器;存储器,用于存储一个或多个计算机可执行指令,当被处理器执行时进行本发明的第一方面的词检测方法。
根据本发明的第三方面,提供一种词检测装置,包括:第一输入单元,被配置为将文字数量为N的第一字串输入第一成词分类器,其中,所述第一成词分类器用于检测文字数量为M的词,其中M<N,且M、N为正整数;第一分段单元,被配置为根据所述第一成词分类器的成词分类结果,在第一成词分类器检测文字数量为M的第二词的情况下,将所述第一字串分段为包括至少第二词的多个分段字串,其中各个分段字串中的文字相互不重叠;第二输入单元,被配置为以每个分段字串作为最小单元,将所述第一字串输入第二成词分类器来检测所述第一字串是否是词,其中,所述第二成词分类器用于检测文字数量为N的词。
根据本发明的第四方面,提供一种词检测方法,包括如下步骤:接收输入的字串;根据输入的字串的文字长度来确定所述第一成词分类器所使用的特征的种类;通过第一成词分类器来检测输入的字串是否是词。
根据本发明的第五方面,提供一种词检测系统,包括:处理器;存储器,用于存储一个或多个计算机可执行指令,当被处理器执行时进行本发明的第四方面的词检测方法。
根据本发明的第六方面,提供一种词检测装置,包括:接收单元,被配置为接收输入的字串;确定单元,被配置为根据输入的字串的文字长度来确定所述第一成词分类器所使用的特征的种类;检测单元,被配置为通过第一成词分类器来检测输入的字串是否是词。
通过检测到词,本发明的各个实施例可广泛应用于各种领域,例如词的切分领域、输入法领域、搜索领域、字典服务领域、邮箱服务领域、问答系统领域、机器翻译领域、特定词过滤领域等等。
附图说明
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。
图2示出了根据本发明的实施例的新词检测方法的整体流程图。
图3A示出了词检测分类器中可选择使用的8种特征的含义;图3B示出了本发明人对这8种特征实验其准确性的结果。
图4示出了根据本发明的实施例的词检测方法的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社NTT都科摩,未经株式会社NTT都科摩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610638447.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在线设计编辑器文字按需转SVG系统
- 下一篇:一种同义词的识别方法及识别装置