[发明专利]一种多语文本的切词方法在审
申请号: | 201611257765.9 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106802886A | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 张睦 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本方法提供一种多语文本的切词方法,在脱离对语言字典的依赖并且仅扫描一遍的情况下,对输入的文本进行切词的预处理操作,获取文本中一个个最小的语言相关单元,所述预处理包括基本切分处理、配对符处理、自定义普通符号处理,用于解决自然语言的预处理效率提升的问题。 | ||
搜索关键词: | 一种 语文 方法 | ||
【主权项】:
一种多语文本的切词方法,其特征是包括以下步骤:步骤101,输入文本,并按顺序读取文本中的字符;步骤102,基本切分处理:循环遍历多语文本中的字符,获取相邻的字符,对相邻的字符进行字符类型判断,根据基本切分规则进行切分,所述基本切分规则是用于通过识别相邻字符的字符类型,判断是否将相邻的字符进行切分的规则;步骤103,配对符号处理:识别配对符,按照配对符处理规则判断配对符是否算词的一部分,若不算,切分出来;所述配对符处理规则,用于通过识别配对符的配对情形,判断是否将当前配对符算作词的一部分的规则;步骤104,自定义普通符号处理:识别自定义的普通符号,按照普通符号处理规则判断普通符号和前后连续的若干个字符形成的字符串是否与正则表达式相匹配,如果匹配则进行规则处理,所述普通符号处理规则,包括自定义的普通符号名称、是否被切分、正则表达式;步骤105,循环遍历输入文本,输出切词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611257765.9/,转载请声明来源钻瓜专利网。