[发明专利]一种基于隐式马尔科夫模型的科技类复合短语识别方法有效
申请号: | 201610912585.3 | 申请日: | 2016-10-19 |
公开(公告)号: | CN106569997B | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 柳厅文;闫旸;赵佳鹏;李柢颖;张盼盼;李全刚;亚静;时金桥;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。 | ||
搜索关键词: | 一种 基于 隐式马尔科夫 模型 科技 复合 短语 识别 方法 | ||
【主权项】:
1.一种基于隐式马尔科夫模型的复合短语识别方法,其步骤为:/n1)采用词性标注工具对输入语料进行词性标注和分词;/n2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,当该状态序列中的一段序列以前缀开头,中间为核心成分,以后缀结束,则将该段序列截取作为一复合短语;根据得到的复合短语得到一复合短语集合;其中,采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测的方法为:将词性标注状态作为输入隐式马尔科夫模型的显状态;当输入显状态对应的分词命中上文提示词词典、下文提示词词典或维基百科条目时,将该分词的词性标注显状态置换为命中对象对应的设定值;/n3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的复合短语。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610912585.3/,转载请声明来源钻瓜专利网。