[发明专利]文本处理方法、装置、电子设备及可读存储介质有效

申请号：	201911121910.4	申请日：	2019-11-15
公开（公告）号：	CN111046656B	公开（公告）日：	2023-07-14
发明（设计）人：	刘凡;冯云;王一冰;聂璐月	申请（专利权）人：	北京三快在线科技有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06N3/04;G06N3/08
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100083 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开的实施例提供了一种文本处理方法、装置、电子设备及可读存储介质，所述方法包括：对待识别语句进行分词处理，得到第一分词序列；根据所述第一分词序列，生成第一向量；将所述第一向量输入识别模型，以通过所述识别模型输出标注信息，所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系；其中，所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型，所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。本公开实施例可以提高识别施事实体和受事实体的准确率和效率，并且可以降低识别成本。

技术领域

本公开的实施例涉及计算机技术领域，尤其涉及一种文本处理方法、装置、电子设备及可读存储介质。

背景技术

随着互联网信息技术的飞速发展，互联网上的文本信息呈现爆炸式增长。如何从大规模的文本信息中快速而准确地抽取人们需要的信息成为研究的热点。

实体关系抽取作为信息抽取的重要组成部分，其目的在于从自然语言文本挖掘出实体间的语义关联，例如，识别句子中的施事实体和受事实体。不仅有助于领域本体的建立，促进知识图谱的构建，而且通过对实体间的语义信息深入挖掘与分析能够进一步理解用户的意图，从而在闲聊对话系统、人机交互系统、以及搜索系统等多个应用领域，可以为用户提供更加精准的服务，提高用户体验。

然而，目前在实体关系抽取过程中，需要对文本的句法进行分析，并且人工标注句子中的各个成分，以及确定句子中各成分之间的关系。其中，人工标注专业要求程度较高，不仅导致实体关系抽取的成本较高，而且句法分析过程中的细微错误都会导致最终的抽取结果出错。因此，目前的实体关系抽取方式不仅准确率较低而且成本较高。

发明内容

本公开的实施例提供一种文本处理方法、装置、电子设备及可读存储介质，用以提高识别施事实体和受事实体的准确率和效率，并且可以降低识别成本。

根据本公开的实施例的第一方面，提供了一种文本处理方法，所述方法包括：

对待识别语句进行分词处理，得到第一分词序列；

根据所述第一分词序列，生成第一向量；

将所述第一向量输入识别模型，以通过所述识别模型输出标注信息，所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系；其中，所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型，所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。

根据本公开的实施例的第二方面，提供了一种模型训练方法，所述方法包括：

获取待训练语句；

对所述待训练语句按照预设规则进行标注，得到用于训练识别模型的标注样本，其中，所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系；

对所述待训练语句进行分词处理，得到第二分词序列；

根据所述第二分词序列，生成第二向量；