diff --git a/README.md b/README.md index b1232381..acf65544 100644 --- a/README.md +++ b/README.md @@ -16,6 +16,7 @@ [[加入鹏程·PanGu-α微信交流群](#微信交流群)] - ## 基于common crawl WET格式原始数据清洗过滤方法 + ### 不同语言数据分类过滤 -通过不同语言的Unicode编码范围可以快速过滤出相应语言的网页,[languageExtract.py](./src/languageExtract.py)提供了同时抽取多种语言单语言语料的工具。在实际数据抽取中可能还需要同时考虑原始数据的编码格式、网页结构等因素,构建网页黑白名单等方法提高数据抽取效率和数据的质量。除此之外也可以考虑采用文本分类模型等方式进行过滤。 + +通过不同语言的Unicode编码范围可以快速过滤出相应语言的网页。在实际数据抽取中可能还需要同时考虑原始数据的编码格式、网页结构等因素,构建网页黑白名单等方法提高数据抽取效率和数据的质量。除此之外也可以考虑采用文本分类模型等方式进行过滤。 ### 基于规则的过滤 + Common Crawl数据包含较多各种类型的垃圾,如特殊符号、广告、网页标题,通过数据特点构建相应的数据清洗规则往往能比较好的提高数据质量。 ### 基于分类模型的垃圾数据过滤 + 通过上述两个步骤形成的文本数据往往仍然包含大量敏感、黄色、广告等信息,我们通过基于[Fasttext](./src/3-JunkDataFilter)的文本分类模型、关键词等方法对于敏感、黄色、广告等文本信息进行了过滤。 ### 大规模数据去重方法 -网页内部、不同网页之间均存在文本完全重复的情形,基于Hadoop+Spark平台采用[HashTF+MiniHashLSH](./src/)算法对数据在段落粒度做了文本去重。 + +网页内部、不同网页之间均存在文本完全重复的情形,基于Hadoop+Spark平台采用[HashTF+MiniHashLSH](./src/)算法对数据在段落粒度做了文本去重。目前正在对这部分工作进行总结并撰写专利,等专利提交后会开源该部分基于 spark 大数据平台的全局去重代码。目前只开源文档内的去重代码。 + +## 运行 + +##### 1、语言过滤、规则清洗、敏感词过滤 + + + +##### 2、fasttext 垃圾分类 ## 微信交流群 + 添加微信入鹏程.盘古α交流群: