[发明专利]一种复合词识别方法及相关装置有效
申请号: | 201811603067.9 | 申请日: | 2018-12-26 |
公开(公告)号: | CN110569498B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 赵耕弘;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复合词 识别 方法 相关 装置 | ||
本申请提供了一种复合词识别方法及相关装置,所述方法包括:获得原始文本中至少两个相邻词;获得所述至少两个相邻词的词向量之和,作为第一向量;根据所述至少两个相邻词在原始文本中的位置,获得所述至少两个相邻词的合并词;获得所述合并词的词向量,作为第二向量;若所述第一向量和所述第二向量之间的关系与预设关系模型匹配,确定所述合并词属于复合词;其中,所述预设关系模型用于表示复合词的分词的词向量之和与复合词的词向量之间的关系。可见,本申请实施例通过将词向量之间的关系,与预设关系模型进行匹配,实现了一种对复合词进行识别的方式,进一步解决了在分词处理等情况中对复合词不合理拆分的问题。
技术领域
本申请涉及自然语言处理领域,尤其是涉及一种复合词识别方法及相关装置。
背景技术
随着信息技术的发展,越来越多的领域都出现了新的复合词。例如,“年华收益率”、“影子银行”、“离岸金融”等等。这些复合词都是由两个或更多的词语组合而成。
然而,有些情况下可能会对这些复合词进行不合理的拆分。例如,在对复合词进行分词处理时,往往会把这些复合词不合理地拆分成两个或更多的独立的词语,导致分词处理的准确性降低,进一步影响了后续基于分词结果的分类、筛选等文本处理。
发明内容
本申请解决的技术问题在于提供一种复合词识别方法及相关装置,以实现对复合词进行识别,解决在分词处理等情况中对复合词不合理拆分的问题。
为此,本申请解决技术问题的技术方案是:
本申请实施例提供了一种复合词识别方法,包括:
获得原始文本中至少两个相邻词;
获得所述至少两个相邻词的词向量之和,作为第一向量;
根据所述至少两个相邻词在原始文本中的位置,获得所述至少两个相邻词的合并词;
获得所述合并词的词向量,作为第二向量;
若所述第一向量和所述第二向量之间的关系与预设关系模型匹配,确定所述合并词属于复合词;其中,所述预设关系模型用于表示复合词的分词的词向量之和与复合词的词向量之间的关系。
可选的,还包括:
获得第一向量集合和第二向量集合;所述第一向量集合包括多个复合词的词向量,所述第二向量集合包括每个复合词的分词的词向量之和;
建立预设关系模型,其中所述预设关系模型包括参数值;
根据所述第一向量集合和所述第二向量集合,获得所述预设关系模型的参数值。
可选的,建立所述预设关系模型,包括:建立以下任一种或多种模型:线性回归模型、逻辑回归模型、以及多项式回归模型。
可选的,获得所述预设关系模型的参数值,包括:
利用最小二乘法或者拟牛顿法获得所述预设关系模型的参数值。
可选的,获得原始文本中至少两个相邻词,包括:
对所述原始文本进行分词处理,获得多个分词结果;
从所述多个分词结果中获得至少两个相邻的分词结果。
可选的,还包括:
若所述第一向量和所述第二向量之间的关系与所述预设关系模型不匹配,确定所述合并词不属于复合词。
本申请实施例提供了一种复合词识别装置,包括:
相邻词获得单元,用于获得原始文本中至少两个相邻词;
向量和获得单元,用于获得所述至少两个相邻词的词向量之和,作为第一向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811603067.9/2.html,转载请声明来源钻瓜专利网。