[发明专利]用于实现中文分词与词性标注的方法、介质及电子设备在审
申请号: | 202211504442.0 | 申请日: | 2022-11-28 |
公开(公告)号: | CN115796177A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 简仁贤;刘影 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 杜杨 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 实现 中文 分词 词性 标注 方法 介质 电子设备 | ||
1.一种用于实现中文分词与词性标注的方法,应用于云端,所述方法包括:
接收来自于客户端的分词及词性标注请求,其中,所述分词及词性标注请求至少用于携带待分词的文本和用户的配置信息;
至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果,其中,所述目标分词及词性标注模型具备同时挖掘分词结果和词性标注结果的功能;
向所述客户端提供所述分词及词性标注结果。
2.如权利要求1所述的方法,其特征在于,所述配置信息的类型包括:与所述待分词的文本对应的领域、是否添加自定义词表、是否使用实体增强词性以及分词粒度中的至少一个。
3.如权利要求2所述的方法,其特征在于,在所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:
解析所述配置信息得到与所述待分词的文本对应的目标领域、自定义词表以及本次的分词粒度;
从多领域知识词表中选择属于所述目标领域的词表,得到目标词表,其中,所述多领域知识词表是基于知识图谱抽取多领域的专业知识词表得到的,所述知识图谱部署在所述云端;
所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:
根据所述目标词表、所述自定义词表、所述本次的分词粒度以及所述目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果。
4.如权利要求1所述的方法,其特征在于,在所述根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:
获取标注数据,其中,所述标注数据是通过对收集的多领域的待标注数据进行标注处理得到的;
根据所述标注数据对分词及词性标注模型进行训练,得到所述目标分词及词性标注模型。
5.如权利要求4所述的方法,其特征在于,
所述获取标注数据,包括:
根据标注规范对所述多领域的待标注数据进行标注,得到所述标注数据,其中,所述标注规范用于定义分词标注以及词性标注的规则,所述标注规范可被调整。
6.如权利要求4所述的方法,其特征在于,所述根据标注规范对所述多领域的待标注数据进行标注得到所述标注数据,包括:
根据所述标注规范对所述多领域的待标注数据进行标注,得到初始标注结果数据;
检测所述初始标注结果数据得到检测结果,并反馈所述检测结果,以进一步根据所述检测结果对所述初始标注结果数据进行修正;
接收对所述初始标注结果数据进行修改后的数据,得到所述标注数据。
7.如权利要求3所述的方法,其特征在于,所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:
根据实体词典并通过所述目标分词及词性标注模块对所述待分词的文本进行词语切分,并将切分得到的词性设置为与实体类别对应的词性,得到初始分词及词性标注结果;
根据自定义词表对所述初始分词及词性标注结果进行处理,得到修正结果;
根据所述目标词表对所述修正结果进行处理,得到所述分词及词性标注结果。
8.如权利要求1-7任一项所述的方法,其特征在于,所述目标分词及词性标注模型或者所述分词及词性标注模型是基于分词词性算法的联合模型,其中,所述分词词性算法的联合模型需要将同时标注有分词结果和分词词性的标注数据作为训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211504442.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种化工废气回收处理装置
- 下一篇:异形药剂瓶成型工艺