[发明专利]文本规整方法及系统有效
申请号: | 201610539133.5 | 申请日: | 2016-07-08 |
公开(公告)号: | CN107590121B | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 占吉清;高建清;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/117 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 赵景平;宋少华 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 规整 方法 系统 | ||
本发明公开了一种文本规整方法及系统,该方法包括:接收待规整文本数据;对待规整文本数据进行分词,并对分词后的各词进行词性标注;提取各词的文本规整特征,所述文本规整特征包括:语义特征和泛化特征,所述语义特征包括每个词的词向量和词性向量,所述泛化特征用于描述文本数据中重复部分;将所述文本规整特征输入预先构建的文本规整模型,得到文本规整结果;根据所述文本规整结果,删除所述待规整文本数据中需要删除的词,得到规整后的文本数据。利用本发明,可有效提高文本规整效果。
技术领域
本发明涉及自然语言处理领域,具体涉及一种文本规整方法及系统。
背景技术
随着互联网技术的迅速发展,人们每天面对的信息越来越多,而这些信息中大部分是以文本的形式出现,当然也包含一些语音数据经过语音识别后得到的文本数据。无论哪种文本数据,由于具体应用场景的不同,文本数据中经常会存在大量噪声数据,如无意义的且大量出现的词或语义相近重复出现的词,严重干扰用户获取文本信息;也正是由于这些噪声的存在,使得文本数据的描述较随意,无法直接使用,如对记者工作中的采访数据进行语音识别后得到的文本数据中经常会存在语气词、应答语、口头禅或重复描述等现象,导致无法直接使用识别文本中相关描述编辑成稿发表,大大增加了文本编辑人员的工作量。因此,如何去除文本数据中的噪声,对文本数据进行规整,使规整后的文本数据更书面化具有重要意义。
现有的文本规整方法在进行文本规整时,使用传统序列标注的方法,对文本数据的每个分词进行标记,根据标记结果对文本数据进行规整。现有的文本规整方法仅使用文本数据中简单特征及组合作为序列模型的输入,标记待规整文本数据中每个词是否需要删除。模型输入特征较单一,无法全面描述文本数据的语义信息,并且传统序列标注模型信息记忆能力较弱,在文本规整时,仅能考虑较短的上下文信息。因此,现有的文本规整方法只能简单的标记出文本数据中一些无意义词,但对于语义相近的重复语句或词语,无法准确标记,如文本数据“那个我们明天在诚意在诚意楼见面吧”现有方法仅能标记出“那个”和“吧”需要删除,而无法标记出重复的“在”和“诚意”也需要删除,导致文本规整的效果较差。
发明内容
本发明提供一种文本规整方法及系统,以提高文本规整效果。
为此,本发明提供如下技术方案:
一种文本规整方法,包括:
接收待规整文本数据;
对待规整文本数据进行分词,并对分词后的各词进行词性标注;
提取各词的文本规整特征,所述文本规整特征包括:语义特征和泛化特征,所述语义特征包括每个词的词向量和词性向量,所述泛化特征用于描述文本数据中重复部分;
将所述文本规整特征输入预先构建的文本规整模型,得到文本规整结果;
根据所述文本规整结果,删除所述待规整文本数据中需要删除的词,得到规整后的文本数据。
优选地,所述方法还包括按以下方式构建文本规整模型:
确定文本规整模型的拓扑结构;
收集文本数据;
对收集的文本数据进行分词;
对分词后的各词进行词性标注,并标注各词是否为需要规整掉的词,得到各词的标签信息;
提取各词的文本规整特征,所述文本规整特征包括:语义特征和泛化特征;
利用提取的各词的文本规整特征及标签信息,训练得到文本规整模型参数。
优选地,所述文本规整模型的拓扑结构依次包括:输入层、线性规整层、一个或多个隐层及输出层;其中,隐层节点之间采用双向连接,输出层节点之间存在转移关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610539133.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种打散设备
- 下一篇:一种高弹性UV封闭哑光效果薄板的面漆涂装施工工艺