[发明专利]资料识别方法及装置、电子设备、存储介质有效
申请号: | 202010520924.X | 申请日: | 2020-06-10 |
公开(公告)号: | CN111666767B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 张发恩;姜勇越 | 申请(专利权)人: | 创新奇智(上海)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F16/35 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 李飞 |
地址: | 201900 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资料 识别 方法 装置 电子设备 存储 介质 | ||
本申请提供一种资料识别方法及装置、电子设备、存储介质,该方法包括:从文本中筛选出符合预设规则的句子,获得预设目标;通过命名实体识别和依存句法分析从预设目标的上下文提取预设目标的第一主语;将预设目标作为已构建的分类模型的输入,获得分类模型输出的预设目标的第二主语;根据第一主语和第二主语,得到预设目标的正确主语。从而可以从存在大量实体的文本中获取指定内容的主语,将该方法应用于观点提出者的识别时,可以提高观点提出者的识别准确率,扩展了系统功能。
技术领域
本申请涉及数据处理技术领域,特别涉及一种资料识别方法及装置、电子设备、计算机可读存储介质。
背景技术
观点是实体提出的对某个实体或者某个实体的属性的看法,因此属于主观内容,即便是中立的情感,也是实体通过主观的判断给出的观点。观点抽取是指从原始的新闻文本中,识别表达任务观点的句子,并从中抽取出观点要素,如观点持有者、观点评价的对象、观点发表的时间、观点提出的地点以及观点持有者对评价对象的情感态度等,也就是说需要确定一篇文档中哪些是观点、哪些实体在什么时间和地点发表了这些观点,然后再进行观点内容的挖掘。
目前观点抽取主要集中在确定表达观点的实体前提下,对评论性的语言进行内容的挖掘,抽取属性(例如酒店的服务、电脑的质量)、评价词和情感极性判断。实际上这个任务是真正的观点抽取的后续任务,可见,目前主要关注的是观点内容的挖掘,无法从存在大量实体的文本中确定表达观点的实体,导致系统功能受限。
发明内容
本申请实施例提供了资料识别方法,用以从存在大量实体的文本中获取指定内容的主语,扩展系统功能。
本申请实施例提供了一种资料识别方法,包括:
从文本中筛选出符合预设规则的句子,获得预设目标;
通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语;
将所述预设目标作为已构建的分类模型的输入,获得所述分类模型输出的所述预设目标的第二主语;
根据所述第一主语和所述第二主语,得到所述预设目标的正确主语。
在一实施例中,所述预设目标为观点,所述从文本中筛选出符合预设规则的句子,获得预设目标,包括:
按照表达观点的标准句式,从所述文本中提取与所述标准句式匹配的句子。
在一实施例中,在所述按照表达观点的标准句式,从所述文本中提取与所述标准句式匹配的句子之后,所述方法还包括:
根据已构建的情感词库,对所述文本中剩余的句子进行扫描,筛选出包含所述情感词库中情感词的句子。
在一实施例中,所述方法还包括:
通过命名实体识别和规则判断,从所述文本中筛选出所述观点的提出地点。
在一实施例中,所述方法还包括:
根据已构建的时间词库,从所述文本中提取所述观点的相对提出时间;
根据所述文本的发布时间,对所述相对提出时间进行换算,获得所述观点的绝对提出时间。
在一实施例中,在所述根据所述第一主语和所述第二主语,得到所述预设目标的正确主语之后,所述方法还包括:
将所述观点和所述观点的正确主语进行关联存储。
在一实施例中,在所述根据所述第一主语和所述第二主语,得到所述预设目标的正确主语之后,所述方法还包括:
通过计算所述文本与不同事件的语义相似度,确定所述文本归属的目标事件;
将所述观点以及所述观点的正确主语与所述目标事件关联存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(上海)科技有限公司,未经创新奇智(上海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010520924.X/2.html,转载请声明来源钻瓜专利网。