[发明专利]一种口语化短文本的实体属性提取方法及电子装置在审
申请号: | 202010500426.9 | 申请日: | 2020-06-04 |
公开(公告)号: | CN113761919A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 万辛;戚梦苑;孙晓晨;黄远;沈亮;刘发强;孙旭东;张磊;郝冰川 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余功勋 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 口语化 文本 实体 属性 提取 方法 电子 装置 | ||
本发明提供一种口语化短文本的实体属性提取方法及电子装置,包括对口语化短文本切词及词性标注,并对各标注词性的词语进行命名主体识别,得到实体词语;将口语化短文本映射为主谓宾三元组,获取主谓宾三元组中各词语的依存关系,并使用实体词语对主谓宾三元组中各词语进行实体识别;当主谓宾三元组中的主谓宾满足一触发规则时,提取宾语词组作为实体属性。本发明采用词性标注、依存句法分析、实体识别以及结合触发词词性规则的综合方法,更加有针对性的提取了口语化短数据的实体属性信息,丰富了口语化短文本领域的结构化信息抽取方法。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种口语化短文本的实体属性提取方法及电子装置。
背景技术
随着互联网应用的迅猛发展,通过网络能够获取的文本数据量也呈指数级增长,如何从这些海量文本数据中快速、准确地分析出真正有用的信息,显得尤为关键和紧迫,而这正是信息抽取这一研究领域力图解决的问题。信息抽取的任务是从大量数据中准确、快速地获取目标信息,提高信息的利用率。信息抽取的主要功能是从文本中抽取出特定的事实信息,这些文本可以是结构化、半结构化或非结构化的数据。通常,信息抽取利用机器学习、自然语言处理(NLP)等方法从上述文本中抽取出特定的信息后,保存到结构化的数据库当中,以便用户查询和使用。信息抽取的具体实现方法可分为两类:基于规则的方法和基于统计的方法。信息抽取的具体实现过程在一定程度上要依赖机器学习算法,近年来机器学习算法在一些方面的突破,为信息抽取关键技术的进步提供了直接支持。
基于人工制定规则的信息抽取方法,促进了信息抽取的明显进步。针对结构化文本和半结构化文本的信息抽取研究结果基本可以达到较高准确率,抽取方法和过程相对容易。早期研究人员通常创建基于语法的语言模型,利用人工编写触发词规则或语法进行定性化的信息抽取,这种方法在诸多特定的语料语境下取得了较好的准确率。
依存句法分析,即采用统计机器学习的方法分析句子的成分,由于是基于依存句法分析的文本挖掘方法,因而有必要阐述依存句法分析的基本概念。例如,对句子“我刚才吃了一个苹果。”进行依存句法分析的结果如图1所示。依存分析的结构中,词与词之间直接发生依存关系,构成一个依存对。一个依存对的两个词中,其中一个是核心词,也称为支配词;另一个是修饰词,也称为从属词,依存关系采用一个有向箭头进行表示,指向单词的父亲节点。在本发明中,规定箭头的方向为由从属词指向支配词。在图1中,每个箭头上有一个标记,叫做关系类型,表示该依存对中的两个词之间存在的依存关系。
命名实体识别(Named Entity Recognition,NRE)是信息抽取的基础性工作,其任务是从文本中识别出诸如人名、组织名、日期、时间、地点、特定的数字形式等内容,并为之添加相应的标注信息,为信息抽取后续工作提供便利。鉴于基于规则的方法效率不高,而且规则的编写通常需要领域的专业人士耗时几个月甚至更长时间才能完成,召回率不理想,人们考虑将统计模型引入到命名实体识别的实现上,利用机器学习的方法得到领域知识库,然后再对测试文本进行分析,这种方法取得较好的效果,一定程度上弥补了原始方法的不足。命名实体识别研究日趋成熟,当前的研究热点集中在应用阶段。
因为基于规则的信息抽取方法有其自身的局限性,如:人工编制规则的过程较复杂、通过机器学习得到的规则效率较低、系统通用性差等,所以后来的研究逐渐又转向基于统计的方法。基于统计的信息抽取,虽然可以从一定程度上弥补基于规则方法的缺陷,但是随着研究的深入,人们发现基于统计的方法并不是完美的。同时一般化、单一结构的算法并不能适用于所有领域文本的结构化信息提取,尤其特定主题语料的数据结构特殊,单一的方法无法很好的在生产环境中提取更加准确丰富的实体属性信息。口语化短文本中往往包含很多非结构化信息,但其数据结构的样式与标准的书面样式数据有很大的不同,具体表现如下:
1.口语化:双方在交流时时往往不如书面表达那样规范严谨,句式为应答模式,即一个语句为单方的信息陈述,另一方为倾听者,交流句式也较为单一随意。
2.噪声多:口语化语料的噪声较多,且具有明显性规律,如其中包含许多仅表示规律性的无意义词汇,如‘嗯’、‘喂’。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010500426.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于相位延迟部件的投影系统
- 下一篇:一种稀土催化剂及其制备和应用