[发明专利]有向图意义导向模型驱动的短语语义挖掘方法在审
申请号: | 202010072516.2 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111291573A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 高小翎;王程 | 申请(专利权)人: | 高小翎 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/253;G06F16/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 317000 浙江省台*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 意义 导向 模型 驱动 短语 语义 挖掘 方法 | ||
1.有向图意义导向模型驱动的短语语义挖掘方法,其特征在于:采用面向语义的有向图结构数据模型Sem-Graph,从语义视角挖掘自然语言中的短语,基于Sem-Graph模型的等价和特化两大关系,从语义视角对自然语言语句完成建模;并且实现对Word-Net本体语言的描述,构建与自然语言短语对应的基于Sem-Graph的语句级语义图数据结构,最后基于语义图数据结构的短语语义结构,利用挖掘频繁子图法,实现短语语义的挖掘;
有向图意义导向模型驱动的短语语义结构挖掘流程的核心部分,包含三个部分:第一部分,确定词性信息;第二部分,构建语义图;第三部分,挖掘频繁子图;
第一部分,确定词性信息,将要处理的文本内容通过预处理集中到一个文件中,使用自然语言工具包NLTK对预处理后的文本进一步分析处理,得到词汇对应的词性信息;
第二部分,构建语义图,对每个文本内容按句子粒度切分,每个句子形成一个语义子图,一篇文档形成Sem-Graph语义子图集;
第三部分,挖掘频繁子图,通过规范语义子图格式生成,将Sem-Graph语义子图集生成规范语义子图格式生成文件,再通过频繁子图挖掘算法,生成频繁短语语义模式,完成短语语义挖掘。
2.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,短语语义挖掘在Sem-Graph语义图上挖掘已经用Word-Net标注过的语义节点的图结构模式,基于Sem-Graph的本体语言描述包括基于Sem-Graph的自然语言语句解析和Word-Net本体语言描述,基于Sem-Graph的本体语言描述将面向语义的语义模型Sem-Graph和本体语言Word-Net从语义视角联系起来,为短语语义结构的挖掘奠定基础。
3.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,基于Sem-Graph的自然语言语句解析中,Sem-Graph采用意义导向方法建立语义数据模型,用有向图结构表现语义信息,Sem-Graph用带标记的节点存储标准语义信息,节点标记表示它的意义类型;
一套语言定义成集L,它的基本元素是由二元关系对(c,p)组成,其中c为有限字母表字符串构成的词形,p表示给定意义集中某一元素,语言中每个带有意义的词形就是一个单词,Sem-Graph面向语义,自然语言中的每个单词看作是根意义#Chord的一个特化。
Sem-Graph将自然语言中的个句子看作根意义#Statement,引入一种新的根意义#Lp,每个词对由两个单词构成,词对的前后关系表示在句子中的顺序关系,词对中的每一个单词又看作是根意义#Chord的一个特化;
自然语言语句被Sem-Graph看作是一个#Statement根意义,它是由#Lp根意义构成的集,记作#Statement={#Lp*},其中符号“*”表示#Lp可出现的任意次数,#Lp表示词对根意义,记作#Lp=(LDi,LDi+1),其中LDi和LDi+1是自然语言语句的具体单词,它们的出现顺序保证自然语言语句的单词出现顺序,词对中出现的单词LDi可看作是根意义#Chord的一个特化,记作
4.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,基于Sem-Graph的Word-Net本体语言表示中,Word-Net将传统的词汇信息和计算做了有效的组合,Word-Net是英语词汇数据库,为程序语言控制提供接口,Word-Net对词汇的分类根据词义,每一类词被组织成同义词集,每一个同义词集表示一个词汇词项;
Word-Net根据词汇的矩阵模型组织,语义关系通过同义词集间联系体现,Word-Net中不仅包同义关系,还包含其它多种关系,分别是反义关系、上下位关系、部分整体关系、近义关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高小翎,未经高小翎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010072516.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种期货估价方法
- 下一篇:应答响应方法、装置、终端及存储介质