自然语言处理时，通常的文本清理流程是什么？-白红宇

自然语言处理时，通常的文本清理流程是什么？

阅读量：6291 次

发布时间：2019-06-22

本文共 518 字，大约阅读时间需要 1 分钟。

自然语言处理文本清理流程，主要分为二步：

1.文本预处理，我们的文本基本都是网络文本，主要是网页html的形式，网页中存在很多不必要的信息，比如说一些广告、导航栏，html、JS代码，注释等等，无用的价值信息，可以合理的清理掉，如果需要正文提取，可以利用标签用途、标签密度判定、数据挖掘思想、视觉网页块分析技术等等策略抽取出正文。

2.文本流的语言学处理，主要分为3小步：

1.分词经过文本预处理，我们会得到干净的文本，文本中起到关键作用的是一些词，甚至主要词就能起到决定文本取向。

2.词性标注，可以使用词性标注，通过很多分词工具分出来的会出现一个词，外加该词的词性，比如说啊是语气助词。

3.去除停用词，经过上面的步骤，我们已经把所有的词进行了分类。但是这些所有的词，并不都是我们所需要的，比如说句号，显然，句号对意思的表达没有什么效果。还有”是“、”的“等词，也没有什么效果。因为这些词在所有的文章中都大量存在，并不能反应出文本的意思，可以清理掉。

自然语言作为人类表达和交流思想最基本的工具，在人类社会活动中到处存在，如果计算机能够理解、处理自然语言，必将是人机交流的一大突破，在自然语言处理中，一定要知道计算机了解语言的难点。

转载地址：http://blkta.baihongyu.com/

你可能感兴趣的文章