[发明专利]文本处理方法、装置、电子设备及可读存储介质有效
申请号: | 201911121910.4 | 申请日: | 2019-11-15 |
公开(公告)号: | CN111046656B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 刘凡;冯云;王一冰;聂璐月 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 可读 存储 介质 | ||
本公开的实施例提供了一种文本处理方法、装置、电子设备及可读存储介质,所述方法包括:对待识别语句进行分词处理,得到第一分词序列;根据所述第一分词序列,生成第一向量;将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。本公开实施例可以提高识别施事实体和受事实体的准确率和效率,并且可以降低识别成本。
技术领域
本公开的实施例涉及计算机技术领域,尤其涉及一种文本处理方法、装置、电子设备及可读存储介质。
背景技术
随着互联网信息技术的飞速发展,互联网上的文本信息呈现爆炸式增长。如何从大规模的文本信息中快速而准确地抽取人们需要的信息成为研究的热点。
实体关系抽取作为信息抽取的重要组成部分,其目的在于从自然语言文本挖掘出实体间的语义关联,例如,识别句子中的施事实体和受事实体。不仅有助于领域本体的建立,促进知识图谱的构建,而且通过对实体间的语义信息深入挖掘与分析能够进一步理解用户的意图,从而在闲聊对话系统、人机交互系统、以及搜索系统等多个应用领域,可以为用户提供更加精准的服务,提高用户体验。
然而,目前在实体关系抽取过程中,需要对文本的句法进行分析,并且人工标注句子中的各个成分,以及确定句子中各成分之间的关系。其中,人工标注专业要求程度较高,不仅导致实体关系抽取的成本较高,而且句法分析过程中的细微错误都会导致最终的抽取结果出错。因此,目前的实体关系抽取方式不仅准确率较低而且成本较高。
发明内容
本公开的实施例提供一种文本处理方法、装置、电子设备及可读存储介质,用以提高识别施事实体和受事实体的准确率和效率,并且可以降低识别成本。
根据本公开的实施例的第一方面,提供了一种文本处理方法,所述方法包括:
对待识别语句进行分词处理,得到第一分词序列;
根据所述第一分词序列,生成第一向量;
将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。
根据本公开的实施例的第二方面,提供了一种模型训练方法,所述方法包括:
获取待训练语句;
对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
对所述待训练语句进行分词处理,得到第二分词序列;
根据所述第二分词序列,生成第二向量;
根据所述第二向量以及所述标注样本,训练深度神经网络模型得到识别模型。
根据本公开的实施例的第三方面,提供了一种文本处理装置,所述装置包括:
第一分词模块,用于对待识别语句进行分词处理,得到第一分词序列;
第一转换模块,用于根据所述第一分词序列,生成第一向量;
关系识别模块,用于将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911121910.4/2.html,转载请声明来源钻瓜专利网。