[发明专利]用于分词的方法和装置有效
申请号: | 201910959438.5 | 申请日: | 2019-10-10 |
公开(公告)号: | CN110728137B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 陈秀龙;余栋;顾松庠 | 申请(专利权)人: | 京东数字科技控股有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/284 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100176 北京市大兴区经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开的实施例公开了用于分词的方法和装置。该方法的一具体实施方式包括:获取待分词文本;将待分词文本中的汉字转化为拼音,获得待分词拼音文本;响应于待分词拼音文本包括目标拼音,从预设标记集合中选取用于表征目标拼音和目标拼音对应的模糊音的预设标记,其中,目标拼音为对应模糊音的拼音;利用所选取的预设标记替代待分词拼音文本中的目标拼音,获得新的待分词拼音文本;将新的待分词拼音文本输入预先训练的分词模型,获得拼音词汇序列,其中,分词模型用于表征包括预设标记的拼音文本与拼音词汇序列的对应关系;基于拼音词汇序列,对待分词文本进行分词,获得汉字词汇序列。该实施方式可以减小模糊音对分词的影响,提高分词的准确度。 | ||
搜索关键词: | 用于 分词 方法 装置 | ||
【主权项】:
1.一种用于分词的方法,包括:/n获取待分词文本;/n将所述待分词文本中的汉字转化为拼音,获得待分词拼音文本;/n响应于所述待分词拼音文本中包括目标拼音,从预设标记集合中选取用于表征目标拼音和目标拼音对应的模糊音的预设标记,其中,目标拼音为对应模糊音的拼音;/n利用所选取的预设标记替代所述待分词拼音文本中的目标拼音,获得新的待分词拼音文本;/n将所述新的待分词拼音文本输入预先训练的分词模型,获得拼音词汇序列,其中,所述分词模型用于表征包括预设标记的拼音文本与拼音词汇序列的对应关系;/n基于所述拼音词汇序列,对所述待分词文本进行分词,获得汉字词汇序列。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910959438.5/,转载请声明来源钻瓜专利网。