[发明专利]一种分词方法、装置、设备及可读存储介质在审
申请号: | 202011054725.0 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112131866A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 白安琪;蒋宁;王洪斌;吴海英;赵立军 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;王丹 |
地址: | 404100 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 方法 装置 设备 可读 存储 介质 | ||
本发明公开了一种分词方法、装置、设备及可读存储介质,涉及自然语言处理技术领域,以提高分词的合理性。该方法包括:获取第一文本,第二文本以及预设的词模;分别获取第一文本的第一分词文本以及第二文本的第二分词文本;对于第二分词文本中的目标词,从第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段;将至少一个所述目标待检测语言片段和所述词模进行匹配,得到匹配结果,根据所述匹配结果和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式。本发明实施例可提高分词的合理性。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种分词方法、装置、设备及可读存储介质。
背景技术
未登录词的识别与歧义消解是中文分词的两个难题。分词结果的准确性,通常会在NLP(Nature Language Processing,自然语言处理)的下游任务中得以检验。不同任务对于分词结果的严苛程度不同,面临的分词难题也各异。因此,在不同的下游任务中,需要有针对性地解决中文分词难题。
其中,未登录词,也称新词,即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。
摘要文本作为一种较为常见的NLP下游任务,旨在将海量且动态更新的信息精炼化,其可能包括大量未登录词,且未登录词作为关键性词语出现在摘要文本中的概率也极高。
目前摘要文本的生成都是基于已有的分词技术,包括基于词典/检索/统计的方法进行文本分词后生成的。但是,现有的分词方法大多受到种子词典的收录范围、统计语料库的覆盖面的限制,从而导致了现有的分词方法的分词不合理。
发明内容
本发明实施例提供一种分词方法、装置、设备及可读存储介质,以提高分词的合理性。
第一方面,本发明实施例提供了一种分词方法,包括:
获取第一文本,第二文本以及预设的词模,其中,所述第二文本为根据所述第一文本生成的摘要文本;
分别获取所述第一文本的第一分词文本以及所述第二文本的第二分词文本;
对于所述第二分词文本中的目标词,从所述第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段;
将至少一个所述目标待检测语言片段和所述词模进行匹配,得到匹配结果;
根据所述匹配结果和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式。
第二方面,本发明实施例还提供一种分词装置,包括:
第一获取模块,用于获取第一文本,第二文本以及预设的词模,其中,所述第二文本为根据所述第一文本生成的摘要文本;
第二获取模块,用于分别获取所述第一文本的第一分词文本以及所述第二文本的第二分词文本;
第三获取模块,用于对于所述第二分词文本中的目标词,从所述第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段;
第一匹配模块,用于对于所述至少一个待检测语言片段中的目标待检测语言片段,将所述目标待检测语言片段和所述词模进行匹配,得到匹配结果;
第一确定模块,用于根据所述至少一个待检测语言片段中的匹配结果和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011054725.0/2.html,转载请声明来源钻瓜专利网。