[发明专利]一种关键短语抽取方法和装置有效
申请号: | 201710737275.7 | 申请日: | 2017-08-24 |
公开(公告)号: | CN107577663B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 王亮 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键 短语 抽取 方法 装置 | ||
1.一种关键短语抽取方法,其特征在于,所述方法包括:
对文本进行预处理,得到多个分词;
将所述多个分词中每两个相邻的分词组合,得到多个词对;
通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
根据所述每个词对的共现信息,确定所述文本的关键短语;
所述预设的成词搭配特征表中存储有至少一个短语以及与所述至少一个短语对应的共现信息,所述短语的共现信息包括:组成所述短语的各个分词之间的相关度以及所述各个分词自由度;
所述短语的共现信息还包括:所述短语或者所述各个分词的逆文档频率、所述短语或者所述各个分词的在语料中出现的次数、词性、所述短语的自由度以及所述各个分词的相对自由度;
其中,所述根据所述每个词对的共现信息,确定所述文本的关键短语的步骤,包括:
将所述每个词对的共现信息分别输入预设的条件随机场CRF模型,获得组成所述每个词对的各个分词的标注信息;
根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息;
按照所述组成分词的位置信息,将所述组成分词组合为关键短语。
2.根据权利要求1所述的方法,其特征在于,所述通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息的步骤,包括:
将所述多个词对中的每个词对分别作为目标词对并执行以下处理:
将目标词对与预设的成词搭配特征表中的短语进行匹配;
将匹配的至少一个短语对应的共现信息确定为所述目标词对的共现信息。
3.根据权利要求1所述的方法,其特征在于,所述标注信息包括第一标识、第二标识以及第三标识,所述根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息的步骤,包括:
将所述每个词对的各个分词分别作为目标分词,并执行以下处理:
当所述目标分词的标注信息为第一标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的起始位置;
当所述目标分词的标注信息为第二标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的中间位置;
当所述目标分词的标注信息为第三标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的结束位置。
4.一种关键短语抽取装置,其特征在于,所述装置包括:
预处理模块,用于对文本进行预处理,得到多个分词;
组合模块,用于将所述多个分词中每两个相邻的分词组合,得到多个词对;
第一确定模块,用于通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
第二确定模块,用于根据所述每个词对的共现信息,确定所述文本的关键短语;
所述预设的成词搭配特征表中存储有至少一个短语以及与所述至少一个短语对应的共现信息,所述短语的共现信息包括:组成所述短语的各个分词之间的相关度以及所述各个分词自由度;
所述短语的共现信息还包括:所述短语或者所述各个分词的逆文档频率、所述短语或者所述各个分词的在语料中出现的次数、词性、所述短语的自由度以及所述各个分词的相对自由度;
其中,所述第二确定模块,包括:
获取子模块,用于将所述每个词对的共现信息分别输入预设的条件随机场CRF模型,获得组成所述每个词对的各个分词的标注信息;
确定子模块,用于根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息;
组合子模块,用于按照所述组成分词的位置信息,将所述组成分词组合为关键短语。
5.根据权利要求4所述的装置,其特征在于,所述第一确定模块,用于:
将所述多个词对中的每个词对分别作为目标词对并执行以下处理:
将目标词对与预设的成词搭配特征表中的短语进行匹配;
将匹配的至少一个短语对应的共现信息确定为所述目标词对的共现信息。
6.根据权利要求4所述的装置,其特征在于,所述确定子模块,用于:
将所述每个词对的各个分词分别作为目标分词,并执行以下处理:
当所述目标分词的标注信息为第一标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的起始位置;
当所述目标分词的标注信息为第二标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的中间位置;
当所述目标分词的标注信息为第三标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的结束位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710737275.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:面向中文文本的语义理解系统及方法
- 下一篇:用于显示信息的方法和装置