[发明专利]一种关键短语抽取方法和装置有效
申请号: | 201710737275.7 | 申请日: | 2017-08-24 |
公开(公告)号: | CN107577663B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 王亮 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键 短语 抽取 方法 装置 | ||
本发明提供了一种关键短语抽取方法和装置,涉及文本处理技术领域。本发明提供的关键短语抽取方法和装置,在确定关键短语的时候,能够确定词对的共现信息并根据词对的共现信息,确定文本的关键短语。共现信息能够体现组成词对的各个分词之间的关系,对应短语多为固定搭配以及专有名词的特点,以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高了关键短语抽取的精度。
技术领域
本发明涉及文本处理技术领域,特别是涉及一种关键短语抽取方法和装置。
背景技术
为了提高人们浏览的效率,通常需要将文本中的关键信息确定出来,来简洁的表示文本。示例的,在进行视频推荐的时候,通常将视频标题中的短语或者词提取出来作为推荐内容,以简洁的表示视频的内容。由于短语的使用越来越多,因此,如何自动抽取关键短语成了一个研究热点。
现有技术中,在抽取关键短语的时候,是按照语法规则来抽取的。通常是将分词组合,使其满足特定的语法规则,例如,满足词性序列要求,然后将该组合确定为关键短语。
由于短语一般是专有名词或者固定搭配,现有技术中仅通过满足特定语法规则作为判断依据,会出现关键短语抽取不准确,抽取精度较低的问题。
发明内容
本发明提供一种关键短语抽取方法和装置,以便解决关键短语抽取不准确,精度较低的问题。
依据本发明的第一方面,提供了一种关键短语抽取方法,该方法包括:
对文本进行预处理,得到多个分词;
将所述多个分词中每两个相邻的分词组合,得到多个词对;
通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
根据所述每个词对的共现信息,确定所述文本的关键短语。
可选的,所述通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息的步骤,包括:
将所述多个词对中的每个词对分别作为目标词对并执行以下处理:
将目标词对与预设的成词搭配特征表中的短语进行匹配;
将匹配的至少一个短语对应的共现信息确定为所述目标词对的共现信息。
可选的,所述根据所述每个词对的共现信息,确定所述文本的关键短语的步骤,包括:
将所述每个词对的共现信息分别输入预设的条件随机场CRF模型,获得组成所述每个词对的各个分词的标注信息;
根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息;
按照所述组成分词的位置信息,将所述组成分词组合为关键短语。
可选的,所述标注信息包括第一标识、第二标识以及第三标识,所述根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息的步骤,包括:
将所述每个词对的各个分词分别作为目标分词,并执行以下处理:
当所述目标分词的标注信息为第一标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的起始位置;
当所述目标分词的标注信息为第二标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的中间位置;
当所述目标分词的标注信息为第三标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的结束位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710737275.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:面向中文文本的语义理解系统及方法
- 下一篇:用于显示信息的方法和装置