[发明专利]一种知识驱动的英汉单词语义相似度自动检测方法在审
申请号: | 201910438159.4 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110263331A | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 王铁鑫;曹静雯;李文心 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 单词语义 语义词典 知识驱动 自动检测 分类树 相似度 自然语言 建立数据库 可视化应用 二次加工 人工参与 人工分析 输出接口 数据关系 语义关系 准确定义 插件 数据库 分析 量化 | ||
本发明公开了一种知识驱动的英汉单词语义相似度自动检测方法,包括如下步骤:步骤1、基于Eclipse的MongoDB JDBC驱动,在本地MongoDB中建立数据库并建立collection,将HowNet数据库中的语义词典和义原分类树二次加工导入到MongoDB中;步骤2、人工分析MongoDB中的数据即语义词典和义原分类树中的词之间的关系,对分析出来的数据关系进行加工处理,实现关系值的量化计算;步骤3、基于Eclipse的WindowBuilder插件为工具提供可视化应用界面,提供输入和输出接口。本发明通过对“HowNet”中词语的概念进行分析、比较,实现词语的准确定义;在尽量降低人工参与的情况下,减少因自然语言二义性而产生的理解错误,能够更准确地比较和区分词语间的语义关系。
技术领域
本发明涉及自然语言处理领域,具体涉及一种知识驱动的英汉单词语义相似度自动检测方法。
背景技术
在大数据时代,数据和信息处理是各个领域的共同关注点。效率和智能是处理过程的两个关键。而随着经济的发展,企业为了谋求更好的发展,需要与其他企业进行合作,因为相互合作的企业之间需要进行数据共享,从而各自的内部系统之间需要进行通信,共享和集成。不同的企业使用不同的系统,具有不同内容的信息系统,需要识别正误、消除冗余、合并相同类型、然后以统一数据的形式生成有价值的信息。
Seth Grimes曾说“80%的商业信息来自非结构化数据,主要是文本分析”。系统之中的部分文本信息例如行政信息,需求文档等由相应人员采用自然语言进行编写,自然语言具有二义性,在传达以及执行相应任务存在理解失误性导致巨大的经济损失。所以对这些共享和传达的文本信息需要进行语义分析,给出准确的语义。
自然语言使用词语作为基本单位。词语可以形成句子,句子形成章节。因此,文本的语义由所包含的所有句子的语义合成,而句子的语义由词语和某些语法的语义决定。作为句子和文本的基本单位,这些词语具有特定的语义和内涵。语义分析是NLU(自然语言理解)的基本问题,它在NLP(自然语言处理)、信息检索、信息过滤、信息分类和语义挖掘中具有广泛的应用。
NLP是一门集语言学,计算机科学和数学于一体的科学。具有丰富NLP信息的大型计算机可用字典的重要性是显而易见的。为了提高NLP技术的效率,有必要创建大规模的知识资源,包括机器可处理的字典。目前,有几个现有的大型知识库。与其他知识库相比例如WordNet和FrameNet,HowNet强调概念之间的关系,属性与概念属性之间的关系。作为一个双语(英—汉)知识库,HowNet为设计真正的智能软件提供了知识,总记录超过120,000,而且还在不断扩大。
关于HowNet首先需要解释两个概念“义原”和“定义”。“义原”是无法分割的最小意义单位,选择义原的原则是现有义原必须能够描述所有概念。而“定义”是一个由一些义原组成的概念,用于描述词语。语义词典和义原分类树是HowNet的基本文件。语义词典由许多记录组成,包含单词的中英文翻译,词性和词的定义。每条记录都是英文和中文双语,包含每个单词含义的概念和描述,但HowNet的语义词典不仅仅是复制英汉词典,每个词的定义的选择和制定都是基于当前的流行度。
MongoDB是关系数据库和非关系数据库之间的产品。它是非关系数据库中功能最多,关系最密切的数据库。MongoDB在数据存储和查询方面有两个基本优势。首先,它支持的数据结构非常宽松——类似于JSON的BSON格式,因此它可以存储更复杂的数据类型。其次,它支持一种非常强大的查询语言,其语法与面向对象的查询语言类似。它可以实现关系数据库单表查询的几乎所有功能,并且还支持索引数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910438159.4/2.html,转载请声明来源钻瓜专利网。