[发明专利]一种基于层叠条件随机场的产品名识别方法及装置有效
申请号: | 201510974820.5 | 申请日: | 2015-12-23 |
公开(公告)号: | CN105630768B | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 黄河燕;杨献祥 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层叠 条件 随机 品名 识别 方法 装置 | ||
本发明涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置,属于互联网数据处理与分析技术领域,本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,通过词向量结合词聚类的方法融合全局上下文信息;同时针对产品名结构复杂存在嵌套的问题,采用层叠条件随机场模型进行产品名的识别。对比现有技术,本发明有效的解决了产品名识别中上下文信息不足,产品名存在嵌套结构复杂等问题,提高了复杂结构的产品名识别的性能,并且本发明产品名识别的准确率和F1值高于传统方法。
技术领域
本发明属于互联网数据处理与分析领域,涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置。
背景技术
Web2.0时代,随着微博等社交网络平台的兴起,每个互联网用户不再仅仅是信息的浏览者,同时也成为信息的发布者,互联网已经从一个信息发布平台转变为互动交流的平台。在过去的十年里,我国的电子商务产业不断发展壮大,越来越多的公司在互联网上开展业务,通过网络推广销售产品。截至2013年12月,全国开展在线销售的企业比例达到23.5%,通过互联网进行营销推广的企业也占到了20.9%。越来越多的人习惯网络购物,在互联网上讨论自己购买的产品,在论坛、微博、购物网站等地方评论自己用过和买过的产品的优点和不足,人们习惯在购买商品之前通过搜索引擎查看自己要买的商品的用户评价,而网友对某一商品的评价好坏则会影响自己的购买决策。各类企业也纷纷开通了自己的官方微博,开始在微博这一个新的媒体中推广自己的产品。目前不仅政府开始关注互联网的话题传播,各类商业企业也开始关注并分析各类论坛、微博、博客等网络信息,希望从中掌握公司产品的市场口碑,了解广大网民对公司产品的意见和建议,时刻监测本公司产品的负面评论以及时的进行危机公关,保护公司的声誉。互联网已经成为各行各业的公司从公开途径获取本行业竞争情报的重要方式,各类公司都在密切关注竞争对手的产品的市场表现、新产品的发布以期及时作出合适的决策。对于各类企业,其关注互联网信息最根本的就是关注其所属行业和自己生产的产品,因此从互联网上海量的数据中准确的识别出产品名是进行行业舆情监控、口碑营销以及商务智能的基础和前提。
产品名识别是要在文本中识别出产品名称实体,产品名识别是信息抽取中的专有名词识别的一个细分领域,旨在将文本中表示产品名称的实体识别出来以便为商务智能等上层应用提供支撑。目前针对专有名词识别的研究主要针对人名、地名、组织机构名等传统的命名实体进行识别,随着互联网和电子商务的发展针对产品名称的识别工作也越来越重要,目前关于产品名称的识别还相对较少。与传统命名实体不同,产品名通常结构比较复杂,通常包含数字、字母、特殊字符、汉字等,而且长度相对较长嵌套现象比较严重;另外,Web2.0时代互联网上充斥着大量的用户生成文本,由于用户的文字功底不同、表达习惯各异其处理难度远高于新闻等传统媒体,其应用价值也比传统的新闻媒体要高的多。为了更好的从互联网海量信息中准确的识别出产品名,需要综合考虑局部和全局上下文信息,对产品名识别的方法进行改进。
发明内容
本发明的目的在于着重考虑产品名的嵌套问题,同时综合利用上下文信息进行产品名识别方法的改进,提出一种基于层叠条件随机场的上下文相关产品名识别方法,有效的解决产品名中存在的嵌套问题,同时充分利用局部和全局上下文信息来进行特征的改进,提升产品名识别的性能。
本发明的思想是采用词向量模型和词聚类融合全局上下文信息,补充局部上下文信息的不足,同时采用层叠条件随机场模型进行具有嵌套结构的产品名的识别。
本发明的目的是通过以下技术方案实现的:
一种基于层叠条件随机场的上下文相关产品名识别方法,包括以下步骤:
步骤1:对语料文本进行分词和词性标注预处理;
步骤2:对语料文本以词为单位进行一次特征表示;
步骤3:对当前词以已训练的低层条件随机场模型要求的特征模板表示后利用已训练的低层条件随机场模型进行识别得到初步识别结果,记为标记1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510974820.5/2.html,转载请声明来源钻瓜专利网。