[发明专利]三元组抽取方法、设备及计算机存储介质在审
申请号: | 202111667514.9 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114328970A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 聂建豪 | 申请(专利权)人: | 达闼机器人有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/194;G06F40/289;G06F40/186 |
代理公司: | 北京智晨知识产权代理有限公司 11584 | 代理人: | 张婧 |
地址: | 200245 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 三元 抽取 方法 设备 计算机 存储 介质 | ||
1.一种三元组抽取方法,其特征在于,包括:
获取待处理语料集;
通过人工智能相似性搜索算法faiss对所述待处理语料集进行聚类,得到若干个相似语料集;
通过依存句法分析所述相似语料集中每个文本的词语之间的依存关系;
根据所述依存关系确定各个相似语料集对应的抽取模板,并根据所述抽取模板抽取三元组。
2.根据权利要求1所述的三元组抽取方法,其特征在于,在所述得到若干个相似语料集之后,还包括:
将所述若干个相似语料集与正则表达式相匹配;
若相似语料集与所述正则表达式相匹配,则根据所述正则表达式抽取三元组;
若相似语料集与所述正则表达式不匹配,则执行所述通过依存句法分析所述相似语料集中每个文本的词语之间的依存关系步骤。
3.根据权利要求1或2所述的三元组抽取方法,其特征在于,在所述通过依存句法分析所述相似语料集中每个文本的词语之间的依存关系之前,还包括:
分析所述相似语料集中每个文本的词语的词性;
识别所述相似语料集中每个文本中的专有名词;
所述根据所述依存关系确定各个相似语料集对应的抽取模板,包括:
根据所述相似语料集中每个文本的所述词性、所述专有名词、和所述依存关系确定所述对应的抽取模板。
4.根据权利要求3所述的三元组抽取方法,其特征在于,所述根据所述相似语料集中每个文本的所述词性、所述专有名词、和所述依存关系确定所述对应的抽取模板,包括:
根据所述词性对所述文本中的词语进行筛选;
在所述筛选后的词语中确定专有名词;
根据所述专有名词和所述依存关系,确定所述文本的核心词;
根据所述核心词在文本中的位置、以及所述核心词的词性确定所述对应的抽取模板。
5.根据权利要求3所述的三元组抽取方法,其特征在于,包括:
所述抽取模板至少包括:基本三元组模板和属性三元组模板;其中,所述基本三元组模板的结构包括第一实体,关联词,第二实体;所述属性三元组模板的结构包括第一名词性词,第二名词性词,第三名词性词。
6.根据权利要求5所述的三元组抽取方法,其特征在于,所述通过依存句法分析所述相似语料集中每个文本的词语之间的依存关系,包括:
获取所述文本的长度;
若所述文本的长度超过预设阈值,则根据所述文本的从句结构对所述文本进行分解;
通过依存句法分析所述分解后的文本中的词语之间的依存关系。
7.根据权利要求5或6所述的三元组抽取方法,其特征在于,在根据所述依存关系确定各个相似语料集对应的抽取模板之后,还包括:
利用验证语料集对所述抽取模板进行迭代优化;
所述根据所述抽取模板抽取三元组,包括:
根据所述迭代优化后的所述抽取模板抽取三元组。
8.根据权利要求1所述的三元组抽取方法,其特征在于,所述获取待处理语料集,包括:
通过爬虫的方式,从互联网中获取非结构化文本,并将所述非结构化文本作为所述待处理语料集。
9.一种三元组抽取装置,其特征在于,包括:
获取模块,用于获取待处理语料集;
聚类模块,用于通过人工智能相似性搜索算法faiss对待处理语料集进行聚类,得到若干个相似语料集;
分析模块,用于通过依存句法分析相似语料集中每个文本的词语之间的依存关系;
抽取模块,用于根据依存关系确定各个相似语料集对应的抽取模板,并根据抽取模板抽取三元组。
10.一种知识图谱的构建方法,其特征在于,包括:
获取资源数据集;
利用如权利要求1至8中任一所述的三元组抽取方法,对所述资源数据集进行三元组的抽取;
根据抽取的所述三元组构建知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达闼机器人有限公司,未经达闼机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111667514.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆控制装置、整车集成单元以及车辆
- 下一篇:一种灯头组件及照明装置