[发明专利]基于串向量的文本表示方法和装置、电子设备、存储介质在审
申请号: | 202110565711.3 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113342930A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 梁吉光;徐凯波 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/903;G06F40/242;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 文本 表示 方法 装置 电子设备 存储 介质 | ||
本申请涉及一种基于串向量的文本表示方法和装置、电子设备、存储介质,其中,该方法包括:获取目标文本,目标文本为待文本向量化表示的文本;利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串;将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子;利用多个分片句子的句子向量确定目标文本的文本向量。本申请解决了相关技术中的文本表示方法需要对中文文本进行分词,从而带来了语义损失的技术问题。
技术领域
本申请涉及自然语言处理领域,尤其涉及一种基于串向量的文本表示方法和装置、电子设备、存储介质。
背景技术
自然语言处理(NLP,Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。相关技术主要对词和字进行向量化研究,尤其是词向量更是备受青睐。字向量研究以单字为研究粒度,只考虑字与字的共现关系,未利用词所带有的语义信息,因此并未在文本向量化表示的研究中所重视。词向量是近十年以来自然语言处理中语义表示的一种至关重要技术手段,其语义表示效果远超one-hot模型(独热编码模型)、概率模型,备受学界和工业界的学者推崇。词向量在中文和英文两个语种的研究有很大的不同,中文需要进行分词,而英文天然靠空格进行了分词。中文分词算法有很多,造成分词器有很多,更因分词标注不统一导致分词结果很多种。分词不正确会将误差级联到词向量环节,导致词向量没有得到很好的学习,即词语得不到有效的语义表示,最终会导致中文文本得不到有效的语义表示。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种基于串向量的文本表示方法和装置、电子设备、存储介质,以至少解决相关技术中文本表示方法需要对中文文本进行分词,从而带来语义损失的技术问题。
根据本申请实施例的一个方面,提供了一种基于串向量的文本表示方法,包括:获取目标文本,其中,目标文本为待文本向量化表示的文本;利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,其中,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串;将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子;利用多个分片句子的句子向量确定目标文本的文本向量。
可选地,利用多个分片句子的句子向量确定目标文本的文本向量包括:利用向量编码模型获取每个分片句子的句子向量,其中,向量编码模型是预先训练好的用于确定句子向量的模型;将多个分片句子的句子向量取平均值,得到目标文本的文本向量。
可选地,在利用向量编码模型获取每个分片句子的句子向量之前,方法还包括:读取用于训练向量编码模型的语料样本库;利用多模式串匹配模型对语料样本库内的每段文本进行字符串匹配,得到语料样本库内每段文本的第一字符串样本集和第二字符串样本集,其中,第一字符串样本集包括多模式串匹配模型在每段文本中匹配到的字符串,第二字符串样本集包括每段文本中多模式串匹配模型未匹配到的字符串;将语料样本库内每段文本的第一字符串样本集和第二字符串样本集中的字符串按照在文本中的位置拼接,得到语料样本库内每段文本对应的分片句子样本集;根据分片句子样本集中每个分片句子的字符串向量生成分片句子的原始向量;将分片句子样本集中各个分片句子的原始向量输入向量编码模型,以对向量编码模型进行模型训练,其中,模型训练包括将向量编码模型的模型参数调整为目标值,向量编码模型的模型参数为目标值的情况下所输出的所有句子向量的维度值为正整数N。
可选地,利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合包括:利用多模式串匹配模型从目标文本中识别出中文字符串,并将识别出的中文字符串保存至第一字符串集合;将目标文本中未被识别出中文字符串的文本片段进行拆字处理,将拆字得到的中文字符串保存至第二字符串集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110565711.3/2.html,转载请声明来源钻瓜专利网。