[发明专利]中文分词系统及中文文本的分词方法有效
申请号: | 201810869254.5 | 申请日: | 2018-08-02 |
公开(公告)号: | CN109033085B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 李俊;何晓艺;席丽娜 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 分词 系统 文本 方法 | ||
本发明实施例公开一种中文分词系统及分词方法,该分词系统包括:分词算法单元,用于为用户提供至少两种中文分词系统所支持的分词算法;分词模型单元,用于为用户提供至少两种中文分词系统所支持的第一分词模型;处理单元,用于确定用户从分词算法单元中选择的分词算法和从分词模型单元中选择的第一分词模型的类型是否对应;在对应的情况下,利用用户选择的分词算法以及第一分词模型对中文文本进行分词;在不对应的情况下,利用用户选择的分词算法以及类型与分词算法具有对应关系的第一分词模型,对中文文本进行分词。该中文分词系统降低了使用和调优门槛,便于用户调整分词流程,适应不同应用场景下的分词需求。
技术领域
本发明涉及信息处理与文本挖掘技术领域,具体涉及一种中文分词系统,此外,本申请还涉及一种中文文本的分词方法。
背景技术
国际上常用的对文本进行深层次的语法语义分析的方法,都是以词作为基本单位。中文词是由单个汉字组成,很多单个汉字本身无法独立作为一个词来应用或起到语法作用。然而在中文文本中,汉字是连写的,词之间没有空格,无法直接获取到哪几个汉字组成一个中文词。因此,在中文文本的自然语言处理任务中,首先需要对文本进行预处理,将连续的汉字分割成具有意义的词,这个过程就叫做分词。
目前虽然有很多不同的分词工具,但是提供使用的方式偏向于工程应用,针对特定的应用场景制定特定的分词流程。如果用户要将其应用到其他不同的场景中,则需要调整分词流程中的不同环节,例如调整分词算法、分词模型或词典等。这对用户的要求较高,用户需要具备一定的开发能力,了解自然语言处理的知识,至少需要了解分词相关的知识,才能够完成调整分词流程的工作。因此,现有的分词工具适用范围较窄,使用和调优门槛高,这是本领域技术人员亟待解决的问题。
发明内容
为了解决上述技术问题,本申请提供一种新的中文分词系统,降低分词工具的使用和调优门槛,便于用户调整分词流程,适应不同应用场景下的分词需求。
第一方面,提供一种中文分词系统,包括:
分词算法单元,用于为用户提供至少两种中文分词系统所支持的分词算法;
分词模型单元,用于为用户提供至少两种中文分词系统所支持的第一分词模型,所述第一分词模型的类型与所述分词算法具有对应关系;
处理单元,用于确定用户从分词算法单元中选择的分词算法和从分词模型单元中选择的第一分词模型的类型是否对应;在对应的情况下,利用用户选择的分词算法,以及用户选择的第一分词模型对中文文本进行分词,得到分词结果;在不对应的情况下,利用用户选择的分词算法,以及类型与所述分词算法具有对应关系的第一分词模型,对中文文本进行分词,得到分词结果。
结合第一方面,在第一方面第一种可能的实现方式中,该中文分词系统还包括:
分词模型构建单元,用于为用户提供中文分词系统所支持的至少一种初始分词模型;获取用户上传的第一分词标注语料;以及,利用所述第一分词标注语料训练用户选择的初始分词模型,得到第二分词模型;
所述处理单元还用于确定用户从分词算法单元中选择的分词算法和所述第二分词模型的类型是否对应;在对应的情况下,利用用户从分词算法单元中选择的分词算法以及所述第二分词模型对中文文本进行分词,得到分词结果。
结合第一方面的第一种实现方式,在第一方面第二种可能的实现方式中,所述分词模型构建单元还具体用于将第一分词标注语料按照预设比例划分为训练集和验证集;利用训练集训练所述初始分词模型,得到确定的模型参数;将所述模型参数代入所述初始分词模型,利用验证集计算所述初始分词模型的第一准确率和第一召回率;在所述第一准确率达到预设的准确率阈值,和/或,所述第一召回率达到预设的召回率阈值的情况下,存储第二分词模型,其中,所述第二分词模型为代入所述模型参数后的初始分词模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810869254.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语义层次树构建方法以及装置
- 下一篇:一种地址解析、匹配的方法及装置