[发明专利]一种多语文本的切词方法在审
申请号: | 201611257765.9 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106802886A | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 张睦 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语文 方法 | ||
1.一种多语文本的切词方法,其特征是包括以下步骤:
步骤101,输入文本,并按顺序读取文本中的字符;
步骤102,基本切分处理:循环遍历多语文本中的字符,获取相邻的字符,对相邻的字符进行字符类型判断,根据基本切分规则进行切分,所述基本切分规则是用于通过识别相邻字符的字符类型,判断是否将相邻的字符进行切分的规则;
步骤103,配对符号处理:识别配对符,按照配对符处理规则判断配对符是否算词的一部分,若不算,切分出来;所述配对符处理规则,用于通过识别配对符的配对情形,判断是否将当前配对符算作词的一部分的规则;
步骤104,自定义普通符号处理:识别自定义的普通符号,按照普通符号处理规则判断普通符号和前后连续的若干个字符形成的字符串是否与正则表达式相匹配,如果匹配则进行规则处理,所述普通符号处理规则,包括自定义的普通符号名称、是否被切分、正则表达式;
步骤105,循环遍历输入文本,输出切词结果。
2.根据权利要求1所述的一种多语文本的切词方法,其特征是所述字符类型包括类拉丁字母、类汉字、数字、符号,空白符、类汉字。
3.根据权利要求2所述的一种多语文本的切词方法,其特征是所述基本切分规则是
若相邻的字符,其中一个是类拉丁字母,另一个是类汉字或空白符,则进行切分;
若相邻的字符,其中一个是数字,另一个是类汉字或空白符,则进行切分;
若相邻的字符,其中一个是符号,另一个是类汉字或空白符,则进行切分;
若相邻的字符,其中一个是类拉丁字母,另一个是数字或符号,则进行切分;
若相邻的字符,其中一个是类汉字,另一个属于字符类型中的一种,则进行切分;
若相邻的字符都是空白符,则不进行切分;
所述空白符不作为词的一部分。
4.根据权利要求1所述的一种多语文本的切词方法,其特征是所述配对符是成对出现的符号,属于字符类型中符号的一种。
5.根据权利要求1所述的一种多语文本的切词方法,其特征是所述步骤104中的普通符号属于字符类型中符号的一种。
6.根据权利要求1所述的一种多语文本的切词方法,其特征是所述配对符的配对情形包括首尾配对、首部挂单、尾部挂单、首部配对但与尾部不配对、尾部配对但与首部不配对。
7.根据权利要求1所述的一种多语文本的切词方法,其特征是所述配对符处理规则包括:
若当前配对符首尾配对,则当前配对符不算作词的一部分;
若当前配对符首部挂单,则当前配对符不算作词的一部分;
若当前配对符尾部挂单,则当前配对符不算作词的一部分;
若当前配对符首部配对但与尾部不配对,则当前配对符算作词的一部分;
若当前配对符尾部配对但与首部不配对,则当前配对符算作词的一部分。
8.根据权利要求1所述的一种多语文本的切词方法,其特征是所述输出切词结果是按输入文本的字符顺序将切分出来的切词内容输出。
9.根据权利要求1所述的一种多语文本的切词方法,其特征是所述普通符号处理规则是通过用户自定义进行设置的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611257765.9/1.html,转载请声明来源钻瓜专利网。