[发明专利]有向图意义导向模型驱动的短语语义挖掘方法在审
申请号: | 202010072516.2 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111291573A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 高小翎;王程 | 申请(专利权)人: | 高小翎 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/253;G06F16/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 317000 浙江省台*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 意义 导向 模型 驱动 短语 语义 挖掘 方法 | ||
本发明提出的有向图意义导向模型驱动的短语语义挖掘方法,利用Sem‑Graph数据模型实现了典型本体语言Word‑Net的逻辑结构表示,在此基础上实现Word‑Net本体语言的建模工作。对基于Sem‑Graph模型的自然语言文本数据进行语义级的短语结构挖掘,用面向语义的语义模型对自然语言中语句完成建模,实现语句级的语义图数据结构描述,并在此语义图上定义短语语义结构,运用挖掘频繁子图算法实现频繁短语语义的挖掘。能对文档进行恰当的描述和准确的概括,使得每一个最小的处理单元都具备独立且相对完整的语义特征,能从大量文本数据中挖掘出领域相关的高质量短语,充分满足日益增长的短语语义挖掘需求。
技术领域
本发明涉及一种短语语义挖掘方法,特别涉及有向图意义导向模型驱动的短语语义挖掘方法,属于短语语义挖掘技术领域。
背景技术
随着新一代移动互联网技术的快速兴起,越来越多的人喜欢通过社交平台来分享一些有趣和重大的新闻,或者表达自己对一些关注度高和重大社会事件的看法。根据统计,微博每天都会产生数亿条文本,文本数据可以被分解成一系列的相关片段,这些片段不仅形式上简洁,而且还包含了丰富有价值的信息。在数量如此庞大的文本之中,有的文本对事件或观点有着清晰的描述,有的却十分难以理解,为了对这些文本数据进行恰当的描述和准确的概括,以进行大数据分析或者进一步的利用,短语挖掘随之兴起。
短语挖掘从给定的语料库中自动抽取显著短语,它是大量领域文本分析的基础,具有很强的实用性。短语挖掘能够使得对文档的挖掘处理从原先的词汇级变成短语级,使得每一个最小的处理单元都具备独立且相对完整的语义特征。从大量文本数据中挖掘出领域相关的高质量短语现实意义十分重大,它为进一步的文本分析提供了良好基础。
现有技术的短语挖掘的方法包括N-Gram、Chunk、主题模型和频繁项集挖掘等,N-Gram首先对文本数据进行字节流大小为N的滑动窗口操作,每一个长度为N的字符串被看作Gram,然后对所有Gram出现的频率进行分析和统计,根据给定的阈值去除无用的字符串,得到满足要求的短语。Chunk首先利用块识别器找出句子中包含的所有块,然后对每个块内部成分赋予恰当的句法结构,最后通过块连接器将各不同的块合并成完整的句法结构树,形成短语。融合主题模型的方法是先进行LDA主题建模,再依据每一个词的主题信息通过归纳得到短语;频繁项集挖掘方法将文本中的短语看作是项集中某一项,然后在项集上进行频繁项集挖掘。
现有技术的语义模型挖掘工作重点集中在实体和关系对的不同方面。譬如偏向于对实体建模,用属性和实体间有意义函数来表示语义信息;倾向于对关系建模,并且使用类型构造器来表达实体间的n元关系;专注于图数据结构模型,使用节点和边分别表示实体和关系。随着数据挖掘快速发展,验证了其在知识发现方面所具有的巨大潜能,频繁子图模式挖掘更是其重要的子方向,现有技术的挖掘频繁子图工作主要面临的挑战有两方面,一是候选子图如何有效生成,并且还需要尽量保证不受同构子图干扰,二是如何高效地确定子图出现频度,从而进一步生成下阶的频繁子图。
综合来看,现有技术的信息类别划分存在以下缺陷:一是现有技术的文本数据挖掘方法不能对文档进行恰当的描述和准确的概括,不能使得每一个最小的处理单元都具备独立且相对完整的语义特征,不能从大量文本数据中挖掘出领域相关的高质量短语,不能满足日益增长的短语语义挖掘需求;二是现有技术的短语挖掘工作主要集中在对自然语言中具体短语的挖掘,缺少从语义视角认识自然语言中的短语结构,没有引入面向语义的有向图结构数据模型,不能从语义视角来重新认识自然语言中的短语,不能从语义的视角认识自然语言,不能对语句定义其对应的语义图数据结构;三是现有技术不能对自然语言文本数据进行语义级的短语结构挖掘,没有用面向语义的语义模型对自然语言中语句完成建模,不能实现语句级的语义图数据结构描述,不能在语义图上定义短语语义结构,不能运用挖掘频繁子图算法实现频繁短语语义的挖掘;四是由于现有技术没有在不影响语义信息完整情况下,对语句级语义图数据结构的简化,不能够提高挖掘效率,不具有的模块化的特点,不通用普适性,现有技术的方法步骤和计算都较为复杂。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高小翎,未经高小翎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010072516.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种期货估价方法
- 下一篇:应答响应方法、装置、终端及存储介质