[发明专利]有向图意义导向模型驱动的短语语义挖掘方法在审

专利信息
申请号: 202010072516.2 申请日: 2020-01-21
公开(公告)号: CN111291573A 公开(公告)日: 2020-06-16
发明(设计)人: 高小翎;王程 申请(专利权)人: 高小翎
主分类号: G06F40/30 分类号: G06F40/30;G06F40/253;G06F16/36
代理公司: 暂无信息 代理人: 暂无信息
地址: 317000 浙江省台*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 意义 导向 模型 驱动 短语 语义 挖掘 方法
【权利要求书】:

1.有向图意义导向模型驱动的短语语义挖掘方法,其特征在于:采用面向语义的有向图结构数据模型Sem-Graph,从语义视角挖掘自然语言中的短语,基于Sem-Graph模型的等价和特化两大关系,从语义视角对自然语言语句完成建模;并且实现对Word-Net本体语言的描述,构建与自然语言短语对应的基于Sem-Graph的语句级语义图数据结构,最后基于语义图数据结构的短语语义结构,利用挖掘频繁子图法,实现短语语义的挖掘;

有向图意义导向模型驱动的短语语义结构挖掘流程的核心部分,包含三个部分:第一部分,确定词性信息;第二部分,构建语义图;第三部分,挖掘频繁子图;

第一部分,确定词性信息,将要处理的文本内容通过预处理集中到一个文件中,使用自然语言工具包NLTK对预处理后的文本进一步分析处理,得到词汇对应的词性信息;

第二部分,构建语义图,对每个文本内容按句子粒度切分,每个句子形成一个语义子图,一篇文档形成Sem-Graph语义子图集;

第三部分,挖掘频繁子图,通过规范语义子图格式生成,将Sem-Graph语义子图集生成规范语义子图格式生成文件,再通过频繁子图挖掘算法,生成频繁短语语义模式,完成短语语义挖掘。

2.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,短语语义挖掘在Sem-Graph语义图上挖掘已经用Word-Net标注过的语义节点的图结构模式,基于Sem-Graph的本体语言描述包括基于Sem-Graph的自然语言语句解析和Word-Net本体语言描述,基于Sem-Graph的本体语言描述将面向语义的语义模型Sem-Graph和本体语言Word-Net从语义视角联系起来,为短语语义结构的挖掘奠定基础。

3.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,基于Sem-Graph的自然语言语句解析中,Sem-Graph采用意义导向方法建立语义数据模型,用有向图结构表现语义信息,Sem-Graph用带标记的节点存储标准语义信息,节点标记表示它的意义类型;

一套语言定义成集L,它的基本元素是由二元关系对(c,p)组成,其中c为有限字母表字符串构成的词形,p表示给定意义集中某一元素,语言中每个带有意义的词形就是一个单词,Sem-Graph面向语义,自然语言中的每个单词看作是根意义#Chord的一个特化。

Sem-Graph将自然语言中的个句子看作根意义#Statement,引入一种新的根意义#Lp,每个词对由两个单词构成,词对的前后关系表示在句子中的顺序关系,词对中的每一个单词又看作是根意义#Chord的一个特化;

自然语言语句被Sem-Graph看作是一个#Statement根意义,它是由#Lp根意义构成的集,记作#Statement={#Lp*},其中符号“*”表示#Lp可出现的任意次数,#Lp表示词对根意义,记作#Lp=(LDi,LDi+1),其中LDi和LDi+1是自然语言语句的具体单词,它们的出现顺序保证自然语言语句的单词出现顺序,词对中出现的单词LDi可看作是根意义#Chord的一个特化,记作

4.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,基于Sem-Graph的Word-Net本体语言表示中,Word-Net将传统的词汇信息和计算做了有效的组合,Word-Net是英语词汇数据库,为程序语言控制提供接口,Word-Net对词汇的分类根据词义,每一类词被组织成同义词集,每一个同义词集表示一个词汇词项;

Word-Net根据词汇的矩阵模型组织,语义关系通过同义词集间联系体现,Word-Net中不仅包同义关系,还包含其它多种关系,分别是反义关系、上下位关系、部分整体关系、近义关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高小翎,未经高小翎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010072516.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top