[发明专利]对话语料中实体的识别方法、装置和计算机设备在审
申请号: | 201811613439.6 | 申请日: | 2018-12-27 |
公开(公告)号: | CN111382569A | 公开(公告)日: | 2020-07-07 |
发明(设计)人: | 熊友军;罗沛鹏;廖洪涛 | 申请(专利权)人: | 深圳市优必选科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 深圳中细软知识产权代理有限公司 44528 | 代理人: | 仉玉新 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对话 语料 实体 识别 方法 装置 计算机 设备 | ||
1.一种对话语料中实体的识别方法,其特征在于,所述方法包括:
获取待识别实体的语料文本;
将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字;
获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵;
将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。
2.如权利要求1所述的方法,其特征在于,在所述获取待识别实体的语料文本之前,还包括:
获取语料文本训练样本集,所述语料文本训练样本集包括多个语料文本训练样本,所述语料文本训练样本包括口语化的口语语料文本训练样本和对所述口语语料文本训练样本进行语义联想的联想语料文本训练样本;
根据所述语料文本训练样本集对所述实体识别模型进行训练,得到所述实体识别模型。
3.如权利要求2所述的方法,其特征在于,所述根据所述语料文本训练样本集对所述实体识别模型进行训练,得到所述实体识别模型,包括:
将所述语料文本训练样本集中的各个所述语料文本训练样本进行分词,得到每个所述语料文本训练样本的包含多个字的分词结果;
根据字向量查找表和每个所述语料文本训练样本的分词结果,得到与所述语料文本训练样本集对应的训练文本矩阵;
获取每个所述语料文本训练样本中每个字对应的标注,得到所述语料文本训练样本集对应的训练文本标注矩阵,所述标注用于区分实体和非实体;
将所述训练文本矩阵作为实体识别模型的输入,将对应的所述训练文本标注矩阵作为所述实体识别模型的输出,对所述实体识别模型进行训练,得到目标实体识别模型。
4.如权利要求2所述的方法,其特征在于,所述语料文本训练样本的样本类型包括命令型、情感型、名字型和动作型,所述根据所述语料文本训练样本集对所述实体识别模型进行训练,得到所述实体识别模型,包括:
获取命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本的训练比例;
根据所述命令型语料文本训练样本、所述情感型语料文本训练样本、所述名字型语料文本训练样本和所述动作型语料文本训练样本的训练比例,从所述语料文本训练样本集中获取对应数量的语料文本训练样本;
根据获取的对应数量的语料文本训练样本,对所述实体识别模型进行训练,得到所述实体识别模型。
5.如权利要求1至4任一项所述的方法,其特征在于,在所述将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体之后,还包括:
到实体库中查找是否存在所述实体;
若所述实体库中存在所述实体,则所述实体为可信实体;
若所述实体库中不存在所述实体,则所述实体为可疑实体。
6.如权利要求5所述的方法,其特征在于,所述实体库包括命令型实体库、情感型实体库、名字型实体库和动作型实体库,在所述若所述实体库中存在所述实体,则所述实体为可信实体之后,还包括:
根据所述实体所在的实体库的类型确定所述实体的实体类型;
获取与所述实体类型对应的答复模板,以在所述答复模板中查找答复结果。
7.如权利要求1至4任一项所述的方法,其特征在于,所述将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体,包括:
将所述文本矩阵作为实体识别模型的输入,得到所述语料文本中的实体和非实体的位置分布信息;
根据所述位置分布信息,得到所述语料文本中的实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技有限公司,未经深圳市优必选科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811613439.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种DNA组装的方法及其应用
- 下一篇:电子支付交易系统和方法