[发明专利]一种基于层叠条件随机场的产品名识别方法及装置有效
申请号: | 201510974820.5 | 申请日: | 2015-12-23 |
公开(公告)号: | CN105630768B | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 黄河燕;杨献祥 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置,属于互联网数据处理与分析技术领域,本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,通过词向量结合词聚类的方法融合全局上下文信息;同时针对产品名结构复杂存在嵌套的问题,采用层叠条件随机场模型进行产品名的识别。对比现有技术,本发明有效的解决了产品名识别中上下文信息不足,产品名存在嵌套结构复杂等问题,提高了复杂结构的产品名识别的性能,并且本发明产品名识别的准确率和F1值高于传统方法。 | ||
搜索关键词: | 一种 基于 层叠 条件 随机 品名 识别 方法 装置 | ||
【主权项】:
1.一种基于层叠条件随机场的上下文相关产品名识别方法,该方法包括以下步骤:步骤一、对语料文本进行分词和词性标注预处理;步骤二、对语料文本以词为单位进行一次特征表示;步骤三、对当前词以已训练的低层条件随机场模型要求的特征模板表示后利用已训练的低层条件随机场模型进行识别得到初步识别结果,记为标记1;步骤四、将用一次特征表示的词加上标记1作为二次特征表示;步骤五、对当前词以已训练的低层条件随机场模型要求的特征模板表示后利用已训练的高层条件随机场模型进行识别获得最终识别结果,记为标记2;步骤六、将语料文本中被识别出是产品实体的词增加其对应的标记2后输出;所述一次特征包括基础特征、领域特征、类别特征,所述基础特征用于表示词所具有的特征,包括词本身、词性、是否包含字母、是否包含数字、是否包含特殊字符;领域特征用于表示词所属领域的特征,包括当前词是否品牌名、是否系列名、是否型号名、是否产品属性;类别特征用于表示词所属的类别特征;所述领域特征基于领域产品知识库通过字符串匹配方式确定,所述领域产品知识库通过以下过程构建:从领域相关网站抓取产品相关数据;对抓取到的数据进行解析得到初步的产品实体列表;对初步的产品实体列表进行人工修正,明确产品实体所属品牌、系列以及型号,构建包括产品实体及其所属品牌、系列以及型号在内的产品实体列表并存储;参考抓取得到的数据人工整理一个领域产品的常见属性列表并存储;所述当前词所属的类别特征通过以下过程确定:基于词向量模型,对其中的词根据彼此之间的相似度进行聚类,两个词A和B对应的词向量和向量之间的相似度通过以下公式计算:聚类完成后为每一个类别设置一个唯一的类别编号;将当前词所属的类别的类别编号输出;所述词向量模型通过以下过程获得:下载领域相关的网页并解析成纯文本;对下载得到的文本进行分词处理;使用分好词的文本训练词向量模型;所述标记1和标记2采用BIO方式进行标注,B表示实体开始,I表示实体中除开始之外的部分,O表示非实体部分,由此方式得到的标记1为下述之一:B‑BRA:表示品牌名的开始元素;I‑BRA:表示品牌名的除开始元素以外的其它元素;B‑SER:表示系列名的开始元素;I‑SER:表示系列名的除开始元素以外的其它元素;B‑TYP:表示型号名的开始元素;I‑TYP:表示型号名的除开始元素以外的其它元素;B‑COM:表示公司名的开始元素;I‑COM:表示公司名的除开始元素以外的其它元素;B‑PRO:表示产品名的开始元素;I‑PRO:表示产品名的除开始元素以外的其它元素;O:表示非实体元素;所述已训练的低层条件随机场模型和高层条件随机场模型通过如下过程得到:收集产品相关的文本作为训练语料;对训练语料进行分词和词性标注;标记分词后的文本中出现的品牌、系列、型号、公司、产品名实体,得到包含产品实体的句子;对产品实体进行一次特征、标记1和标记2表示;将以一次特征、标记1表示的产品实体用于条件随机场模型的训练得到已训练的低层条件随机场模型,其特征模板应包括上一个词、当前词和下一个词的特征;将以一次特征、标记1、标记2表示的产品实体用于条件随机场模型的训练得到已训练的高层条件随机场模型,其特征模板应包括上一个词、当前词和下一个词的特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510974820.5/,转载请声明来源钻瓜专利网。