[发明专利]用于识别非结构化文本中的信息的方法和装置有效

申请号：	201110077305.9	申请日：	2011-03-23
公开（公告）号：	CN102693244A	公开（公告）日：	2012-09-26
发明（设计）人：	丰强泽;齐红威	申请（专利权）人：	日电(中国)有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	潘剑颖
地址：	100191 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于识别结构文本中的信息方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种用于识别非结构化文本中的信息的方法和装置，不仅能够处理包含名称或同义词形式的非结构化文本，也能够处理不包含名称或同义词形式的非结构化文本。在本发明中，所要识别的非结构化文本中的信息可以是服务提供商提供的业务、产品提供商提供的产品、专利术语、和/或相关领域的关键词，这些信息可以存储在词典中。

背景技术

电信运营商、银行等服务提供商，通常需要处理大量的非结构化文本，例如客户的投诉、咨询等。这些非结构化文本都是自然语言的形式，经常包含一个或多个业务，这些业务是服务提供商为客户定制的，经常多达数百上千种。例如，一个电信客户投诉“短号网出问题了，充100送30的话费也没赠送”，其中包含电信运营商制定的两个业务“短号集群网”和“充值优惠”。

业务/业务信息的有效识别可以从非结构化文本中自动提取出业务名称，从而帮助服务提供商理解非结构化文本，为数据挖掘等相关技术提供支持。

另外，产品提供商也经常需要从非结构化文本(如公司主页、网上评论)中识别出产品的名称，从而为产品竞争分析、产品口碑分析等相关技术提供支持。

此外，从专利文件中识别出专利术语，可以帮助确定某专利的技术范围，并为专利检索等相关技术提供支持。

目前已经存在一些相关的信息识别方法，大多只能处理直接包含名称(如业务名称、产品名称、专利名称、领域关键词)或同义词形式的非结构化文本。例如，如果事先定义业务“短号集群网”的同义词是“短号网”，则可以从“短号网出问题了，充100送30的话费也没赠送”中提取出业务“短号集群网”，但无法提取出业务“充值优惠”。

例如，T.Nasukawa于2001年在IBM SYSTEMS JOURNAL上发表的论文“Text Analysis and Knowledge Mining System”中提供了一种从客户的投诉/咨询文本中提取领域关键词(可以是业务名称或产品名称)的方法，主要基于包含领域关键词名称及同义信息的语义词典来进行提取，当非结构化文本中包含某领域关键词或其同义词形式时，可以提取出相应的领域关键词，但当非结构化文本中不包含领域关键词名称或同义词形式时，则无法提取。

美国专利US 7,395,256 B2提供了一种从大量非结构化文档中提取重要关键词的方法，采用了基于统计的重要性计算方法，由此提取出重要性高的关键词，然后用于索引建立等用途。利用这种方法，能够找出新的关键词，但无法实现旧的关键词的映射，即无法根据一个已知的关键词词典，从非结构化文本中将与已知关键词没有同义关系的术语映射到已知关键词。

美国专利US 7,478,092 B2提供了一种从非结构化文本中提取关键术语的方法，首先提取出所有的名词或名词短语，然后利用预定的过滤规则选择出有代表性的名词或名词短语作为关键术语。利用这种方法，能够找出新的关键术语，但无法实现旧的关键术语的映射，即无法根据一个已知的关键术语词典，从非结构化文本中将与已知关键术语没有同义关系的术语映射到已知关键术语。

因此，现有的方法都无法根据基于预先设定的词典，从不包含名称或其同义词形式的非结构化文本中提取出相应的名称，达到信息识别的目的。

发明内容

考虑到现有技术的上述缺陷，本发明提出了一种用于识别非结构化文本中的信息的方法和装置，不仅能够处理包含名称或同义词形式的非结构化文本，也能够处理不包含名称或同义词形式的非结构化文本。在本发明中，所要识别的非结构化文本中的信息可以是服务提供商提供的业务、产品提供商提供的产品、专利术语、和/或相关领域的关键词，这些信息可以存储在词典中。在本说明书中，将以服务提供商提供的业务为例，进行详细描述，但本意并非将本发明局限于以下详细描述的具体实施例。

根据本发明的第一方案，提出了一种信息识别装置，包括：基础术语提取单元，用于根据词典，从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称，作为基础术语；术语提取规则生成单元，用于基于由所述基础术语提取单元提取出的基础术语和所述第一非结构化文本，生成术语提取规则；术语提取单元，用于基于由所述基础术语提取单元提取出的基础术语、由所述术语提取规则生成单元生成的术语提取规则，从第二非结构化文本中提取出新的术语；术语映射单元，用于将所述术语提取单元所提取出的每个术语映射到词典中最适合的名称，作为所识别出的信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司，未经日电(中国)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110077305.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于识别非结构化文本中的信息的方法和装置有效

专利文献下载