[发明专利]去除停用语并预测句子边界的口语文本处理方法有效
申请号: | 202010112638.X | 申请日: | 2020-02-24 |
公开(公告)号: | CN111339750B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 孟亚磊;刘继明;金宁;王力成;陈浮 | 申请(专利权)人: | 网经科技(苏州)有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/30;G06N7/01;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/084;G06N3/0985 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 王玉国 |
地址: | 215021 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了去除停用语并预测句子边界的口语文本处理方法,首先收集口语识别文本语料;然后对文本语料中的停用语进行标注;再对文本语料中句子边界两侧的字词进行标注;继而采用机器学习方法训练序列标注模型;最后采用模型对口语文本进行处理。采用序列标注方式识别并去除文本序列中的停用语,采用文本向量嵌入、正反双向编码结合条件随机场的机器学习方案,高效抽取口语文本的深层语义特征,提高标签序列预测准确率;采用一个模型同时完成去停用语和句子边界预测;经过处理后,语音识别文本重点更加突出,有了合理的标点分隔,不仅利于人类阅读,也便于自然语言理解模块选择最佳处理粒度。 | ||
搜索关键词: | 去除 用语 预测 句子 边界 口语 文本 处理 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网经科技(苏州)有限公司,未经网经科技(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010112638.X/,转载请声明来源钻瓜专利网。