[发明专利]文本识别方法、装置、设备及计算机可读存储介质在审
申请号: | 201910548488.4 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110362734A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 刘佳祥;王硕寰;孙宇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量表达 文本 文本识别 计算机可读存储介质 候选分类 视角 通用 目标分类 人工参与 融合处理 申请 | ||
本申请提供一种文本识别方法、装置、设备及计算机可读存储介质。本申请实施例通过根据指定文本,获得所述指定文本的通用向量表达,进而,可以根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达,使得能够根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果,并对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果,无需人工参与,将人工设置成本降低为零,从而提高了文本识别的可靠性。
【技术领域】
本申请涉及文本识别技术,尤其涉及一种文本识别方法、装置、设备及计算机可读存储介质。
【背景技术】
当今互联网中信息丰富多彩,各种各样,有很多信息都可以对我们起到指导作用。例如,在消费领域,商品的一些评论信息等文本,可能会影响到消费者的消费决定。
现有技术中,具体可以预先通过人工采集大量的倾向性词汇,以形成倾向性内容列表。利用这个倾向性内容列表,对待识别的文本,例如,万维网(World Wide Web,Web)页面中的词、句子等,进行匹配处理。若匹配出的内容特征满足指定阈值条件,则将所匹配的内容特征识别为具有某种倾向性例如,负面倾向性等的内容,进而进行基于倾向性的分析与处理。这种文本的识别处理的可靠性不高。
【发明内容】
本申请的多个方面提供一种文本识别方法、装置、设备及计算机可读存储介质,用以提高文本识别的可靠性。
本申请的一方面,提供一种文本识别方法,包括:
根据指定文本,获得所述指定文本的通用向量表达;
根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达;
根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果;
对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。
本申请的另一方面,提供一种文本识别装置,包括:
通用编码单元,用于根据指定文本,获得所述指定文本的通用向量表达;
特定编码单元,用于根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达;
分类单元,用于根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果;
融合单元,用于对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。
本申请的另一方面,提供一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述一方面所提供的文本识别方法。
本申请的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面所提供的文本识别方法。
由上述技术方案可知,本申请实施例通过根据指定文本,获得所述指定文本的通用向量表达,进而,可以根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达,使得能够根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果,并对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果,无需人工参与,将人工设置成本降低为零,从而提高了文本识别的可靠性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910548488.4/2.html,转载请声明来源钻瓜专利网。