[发明专利]一种基于主题模型和语义分析的实体指称项识别方法在审

专利信息
申请号: 201911235554.9 申请日: 2019-12-05
公开(公告)号: CN111027323A 公开(公告)日: 2020-04-17
发明(设计)人: 韩伟红;徐菁;陈雷霆;母国才;尹怀东 申请(专利权)人: 电子科技大学广东电子信息工程研究院
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F40/211;G06F16/35;G06K9/62
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 潘俊达;郭宝煊
地址: 523000 广东省东莞市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 模型 语义 分析 实体 指称 识别 方法
【权利要求书】:

1.一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,包括如下步骤:

步骤一、对输入语料进行句子分割、分词、词性标注和依存关系解析;

步骤二、基于句法分析,获取边界完整的名词词组作为实体指称项的候选集,然后综合利用LDA主题模型和TF-IDF统计算法,从所述候选集中过滤非实体指称项;

步骤三、度量所述实体指称项和种子实体的语义相似度,选择相似度高的种子类别作为实体类别,然后利用浅层的句法知识设置规则,将每种所述实体类别的所述实体指称项分类到相应的指称项类别。

2.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤二中,利用所述LDA主题模型包括:

将每篇文档表示为一个词频向量;

将文本字符串转化为易于建模的实值数字,得到文档到主题的多项式概率分布、主题到词的多项式概率分布。

3.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于:所述LDA主题模型为由文档、主题和词组组成三层贝叶斯概率模型。

4.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤二中,所述TF-IDF统计算法的公式为

其中,ni表示词语wi在一篇文档中的出现次数,n表示一篇文档中所有词语的出现次数,|D|表示所有文档的数目,di表示包含词语wi的文档数目,对以上两个公式取积,即tfi×dfi,即可得到词语wi对文档的重要程度。

5.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤二中,获取边界完整的所述名词词组作为所述实体指称项的候选集,包括:

将具有预设词性标签且相邻的词语进行组合;

抽取朴素名词性词语作为所述实体指称项候选集,其中,所述朴素名词性词语为单一的名词词语或包含具有预设词性标签的词语的最长名词词组。

6.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤一中,所述句子分割包括:

根据句子结束符号,对输入文本进行分句。

7.如权利要求5所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤一中,所述词性标注包括:

对分词结果中的每个词语标注一个正确的词性标签,确定每个词语是否为名词、动词或其他词。

8.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤二中,从所述候选集中过滤所述非实体指称项,包括:

采用语料库训练该模型,利用生成的文档与主题概率分布和主题与词概率分布,获取候选指称项对文档的主题贡献率。

9.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤三中,将每种所述实体类别的所述实体指称项分类到相应的指称项类别,还包括:

若结尾词语含有预设的词性标签,则被分类到相应所述指称项类别下,否则,分类到另一所述指称项类别。

10.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤三中,所述实体指称项分类方法包括:

采用词语之间的依存关系的句法知识,抽取与候选实体相关的语境信息;

采用Word2Vec模型来获取词语的向量表示,通过将所述词语转化为高维的空间向量,来捕获所述词语之间的语义相似度;

度量所述语境的相似度时,加入语境词语的词性信息;

在分类过程中,高质量的所述候选实体添加到种子集合中;

将类别标签作为过滤阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学广东电子信息工程研究院,未经电子科技大学广东电子信息工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911235554.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top