[发明专利]分析文本话题点的方法、装置、设备和计算机存储介质在审
申请号: | 201711390850.7 | 申请日: | 2017-12-21 |
公开(公告)号: | CN108268602A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 郭振;吴文权;刘占一 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本数据 话题 计算机存储介质 文本 核心语义 语法分析 语法结构 分析 原文 | ||
本发明提供一种分析文本话题点的方法、装置、设备和计算机存储介质,所述方法包括:获取文本数据;从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。通过本发明所提供的技术方案,能够实现所获取的话题点具有重要、通顺且不转义的特点,能够准确表达原文本数据的核心语义,从而提高文本话题点分析的准确性。
【技术领域】
本发明涉及自然语言处理,尤其涉及一种分析文本话题点的方法、装置、设备和计算机存储介质。
【背景技术】
现有技术在分析文本话题点时,通常是基于主题模型进行文本主题的预测。但是,现有技术存在以下缺点:由于主题模型实际上是在特定主题类别上的分类模型,因此仅能够分析得到特定的主题类别,类别数量有限;由主题模型分析得到的主题高度抽象,难以准确描述文本的核心语义。因此,亟需提供一种能够准确分析文本话题点的方法。
【发明内容】
有鉴于此,本发明提供了一种分析文本话题点的方法、装置、设备和计算机存储介质,用于提高文本话题点分析的准确性。
本发明为解决技术问题所采用的技术方案是提供一种分析文本话题点的方法,所述方法包括:获取文本数据;从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。
根据本发明一优选实施例,从所述文本数据中提取重要词包括:从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,确定所述文本数据中各词语的重要性得分,提取满足预设的得分要求的词语作为重要词。
根据本发明一优选实施例,所述确定所述文本数据中各词语的重要性得分包括:基于词语在大规模数据中的统计指标,确定所述文本数据中各词语的重要性得分;或者将所述文本数据中的各词语输入预先训练的词语排序模型,依据词语排序模型输出的结果,确定所述文本数据中各词语的重要性得分。
根据本发明一优选实施例,所述词语排序模型是采用以下方式预先训练得到的:获取训练数据,所述训练数据包括标注有各词语重要性得分的文本数据;将训练数据中文本数据的各词语作为输入,将文本数据中各词语的重要性得分作为输出,训练深度学习模型,得到词语排序模型。
根据本发明一优选实施例,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点包括:获取所述文本数据的语法树;根据所获取的语法树,确定与所述重要词相关的语法结构内容;将确定出的语法结构内容进行组合,得到所述文本数据的话题点。
根据本发明一优选实施例,所述将确定出的语法结构内容进行组合包括:从确定出的语法结构内容中选择满足预设语法结构要求的内容进行组合。
本发明为解决技术问题所采用的技术方案是提供一种分析文本话题点的装置,所述装置包括:获取单元,用于获取文本数据;提取单元,用于从所述文本数据中提取重要词;处理单元,用于对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。
根据本发明一优选实施例,所述提取单元在用于从所述文本数据中提取重要词时,具体执行:从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,确定所述文本数据中各词语的重要性得分,提取满足预设的得分要求的词语作为重要词。
根据本发明一优选实施例,所述提取单元在用于确定所述文本数据中各词语的重要性得分时,具体执行:基于词语在大规模数据中的统计指标,确定所述文本数据中各词语的重要性得分;或者将所述文本数据中的各词语输入预先训练的词语排序模型,依据词语排序模型输出的结果,确定所述文本数据中各词语的重要性得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711390850.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图片搜索方法、装置及计算机设备
- 下一篇:一种基于核心成员识别的社区发现方法