[发明专利]一种多语文本的切词方法在审
申请号: | 201611257765.9 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106802886A | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 张睦 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语文 方法 | ||
技术领域
本发明属于自然语言处理领域,具体涉及一种多语文本的切词方法。
背景技术
对于一篇输入的文本,计算机仅仅将它们看作一串普通的字符序列,而自然语言的预处理的过程则可以从这个文本字符串中分析出有意义的语言组成成分,这项工作为进行更复杂的自然语言处理提供基础。
传统的自然语言预处理技术主要依赖于字典以及多次文本扫描以及匹配字符串,即在处理过程中需要在词典中查找相应字符串并进行词条的匹配,并进行最大正向匹配,最大逆向匹配等操作。就目前而言,这些预处理方法都得到了不错的预处理效果。然而,随着全球互联网覆盖范围的不断扩张,以及其应用技术的迅猛发展,文本信息中语言的种类数目以及其本身的数据量都在急速增加。对于传统的预处理技术而言,这种发展趋势将导致更多语言字典的包含,和更多词条查找、扫描以及匹配的工作。因此,如何优化计算量去提升自然语言的预处理效率将面临很多问题。
基本概念:
a)切词:对于一篇输入的自然语言文本,切词的主要任务是将其分解成为一个个最小的语言相关单元;
b)有限状态机:表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型;
c)正则表达式:用于进行检索替换符合某个模式的文本操作。
发明内容
本方法提出了一种新的切词方法用于解决自然语言的预处理效率提升的问题,即在脱离对语言字典的依赖并且仅扫描一遍的情况下,对输入的文本进行切词的预处理操作,获取文本中一个个最小的语言相关单元。
为解决上述技术问题,本发明提供了一种多语文本的切词方法,包括以下步骤:
步骤101,输入文本,并按顺序读取文本中的字符;
步骤102,基本切分处理:循环遍历多语文本中的字符,获取相邻的字符,对相邻的字符进行字符类型判断,根据基本切分规则进行切分,所述基本切分规则是用于通过识别相邻字符的字符类型,判断是否将相邻的字符进行切分的规则;
步骤103,配对符号处理:识别配对符,按照配对符处理规则判断配对符是否算词的一部分,若不算,切分出来;所述配对符处理规则,用于通过识别配对符的配对情形,判断是否将当前配对符算作词的一部分的规则;
步骤104,自定义普通符号处理:识别自定义的普通符号,按照普通符号处理规则判断普通符号和前后连续的若干个字符形成的字符串是否与正则表达式相匹配,如果匹配则进行规则处理,所述普通符号处理规则,包括自定义的普通符号名称、是否被切分、正则表达式;
步骤105,循环遍历输入文本,输出切词结果。
进一步,所述字符类型包括类拉丁字母、类汉字、数字、符号,空白符、类汉字。
进一步,所述基本切分规则是
若相邻的字符,其中一个是类拉丁字母,另一个是类汉字或空白符,则进行切分;
若相邻的字符,其中一个是数字,另一个是类汉字或空白符,则进行切分;
若相邻的字符,其中一个是符号,另一个是类汉字或空白符,则进行切分;
若相邻的字符,其中一个是类拉丁字母,另一个是数字或符号,则进行切分;
若相邻的字符,其中一个是类汉字,另一个属于字符类型中的一种,则进行切分;
若相邻的字符都是空白符,则不进行切分;
所述空白符不作为词的一部分。
进一步,所述配对符是成对出现的符号,属于字符类型中符号的一种。
进一步,所述步骤104中的普通符号属于字符类型中符号的一种。
进一步,所述配对符的配对情形包括首尾配对、首部挂单、尾部挂单、首部配对但与尾部不配对、尾部配对但与首部不配对。
进一步,所述配对符处理规则包括:
若当前配对符首尾配对,则当前配对符不算作词的一部分;
若当前配对符首部挂单,则当前配对符不算作词的一部分;
若当前配对符尾部挂单,则当前配对符不算作词的一部分;
若当前配对符首部配对但与尾部不配对,则当前配对符算作词的一部分;
若当前配对符尾部配对但与首部不配对,则当前配对符算作词的一部分。
进一步,所述输出切词结果是按输入文本的字符顺序将切分出来的切词内容输出。
进一步,所述普通符号处理规则是通过用户自定义进行设置的。
本发明的有益效果是:在脱离对语言字典的依赖并且仅扫描一遍的情况下,对输入的文本进行切词的预处理操作,获取文本中一个个最小的语言相关单元,有利于提升自然语言的预处理效率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611257765.9/2.html,转载请声明来源钻瓜专利网。