| @@ -16,6 +16,7 @@ | |||||
| [[加入鹏程·PanGu-α微信交流群](#微信交流群)] | [[加入鹏程·PanGu-α微信交流群](#微信交流群)] | ||||
| <!-- | <!-- | ||||
| # 数据集资源 | # 数据集资源 | ||||
| | 序号 | 数据集 | 数据集大小 |数据集说明| | | 序号 | 数据集 | 数据集大小 |数据集说明| | ||||
| @@ -37,38 +38,34 @@ | |||||
| >>WET:由于许多任务只需要文本信息,普通抓取数据集提供了只包含提取的明文的湿文件。以WET格式存储文本数据的方法非常简单。WARC元数据包含各种细节,包括URL和明文数据的长度,明文数据紧随其后。 | >>WET:由于许多任务只需要文本信息,普通抓取数据集提供了只包含提取的明文的湿文件。以WET格式存储文本数据的方法非常简单。WARC元数据包含各种细节,包括URL和明文数据的长度,明文数据紧随其后。 | ||||
| <!-- ### (2)Common Crawl数据统计 | |||||
| >Common crawl针对原始网页数据进行了多个维度的分析统计工作,相关的统计分析参考[cc-crawl-statistics](https://commoncrawl.github.io/cc-crawl-statistics/)网站,如: | |||||
| 截止2020年底累积网页数统计如下图,当目前已经累积约200亿网页。 | |||||
| <img src="./docs/CC_total_size.png" width="550" height="400"/><br/> | |||||
| 每月发布的爬取页面数量统计图: | |||||
| <img src="./docs/CC_data_size_stat.png" width="550" height="400"/><br/> | |||||
| Common Crawl网页中域名分布图: | |||||
| <img src="./docs/CC_domain.png" width="550" height="400"/><br/> | |||||
| Common Crawl数据中各种语言比例统计表(部分): | |||||
| <img src="./docs/CC_language.png" width="450" height="600"/><br/> | |||||
| ### (3)已有基于Common Crawl数据的研究工作 | |||||
| 目前已经有相当多的基于common crawl数据进行数据抽取、算法研究等相关工作: | |||||
| - [Extracting Job Ads from Common Crawl](https://skeptric.com/common-crawl-job-ads/) | |||||
| - [构建大规模新闻数据集](https://doi.org/10.1145/3340531.3412762) | |||||
| - [多语言语料构建](https://arxiv.org/abs/2104.08758) | |||||
| - [More](https://commoncrawl.org/the-data/examples/) --> | |||||
| ## 基于common crawl WET格式原始数据清洗过滤方法 | ## 基于common crawl WET格式原始数据清洗过滤方法 | ||||
| ### 不同语言数据分类过滤 | ### 不同语言数据分类过滤 | ||||
| 通过不同语言的Unicode编码范围可以快速过滤出相应语言的网页,[languageExtract.py](./src/languageExtract.py)提供了同时抽取多种语言单语言语料的工具。在实际数据抽取中可能还需要同时考虑原始数据的编码格式、网页结构等因素,构建网页黑白名单等方法提高数据抽取效率和数据的质量。除此之外也可以考虑采用文本分类模型等方式进行过滤。 | |||||
| 通过不同语言的Unicode编码范围可以快速过滤出相应语言的网页。在实际数据抽取中可能还需要同时考虑原始数据的编码格式、网页结构等因素,构建网页黑白名单等方法提高数据抽取效率和数据的质量。除此之外也可以考虑采用文本分类模型等方式进行过滤。 | |||||
| ### 基于规则的过滤 | ### 基于规则的过滤 | ||||
| Common Crawl数据包含较多各种类型的垃圾,如特殊符号、广告、网页标题,通过数据特点构建相应的数据清洗规则往往能比较好的提高数据质量。 | Common Crawl数据包含较多各种类型的垃圾,如特殊符号、广告、网页标题,通过数据特点构建相应的数据清洗规则往往能比较好的提高数据质量。 | ||||
| ### 基于分类模型的垃圾数据过滤 | ### 基于分类模型的垃圾数据过滤 | ||||
| 通过上述两个步骤形成的文本数据往往仍然包含大量敏感、黄色、广告等信息,我们通过基于[Fasttext](./src/3-JunkDataFilter)的文本分类模型、关键词等方法对于敏感、黄色、广告等文本信息进行了过滤。 | 通过上述两个步骤形成的文本数据往往仍然包含大量敏感、黄色、广告等信息,我们通过基于[Fasttext](./src/3-JunkDataFilter)的文本分类模型、关键词等方法对于敏感、黄色、广告等文本信息进行了过滤。 | ||||
| ### 大规模数据去重方法 | ### 大规模数据去重方法 | ||||
| 网页内部、不同网页之间均存在文本完全重复的情形,基于Hadoop+Spark平台采用[HashTF+MiniHashLSH](./src/)算法对数据在段落粒度做了文本去重。 | |||||
| 网页内部、不同网页之间均存在文本完全重复的情形,基于Hadoop+Spark平台采用[HashTF+MiniHashLSH](./src/)算法对数据在段落粒度做了文本去重。目前正在对这部分工作进行总结并撰写专利,等专利提交后会开源该部分基于 spark 大数据平台的全局去重代码。目前只开源文档内的去重代码。 | |||||
| ## 运行 | |||||
| ##### 1、语言过滤、规则清洗、敏感词过滤 | |||||
| ##### 2、fasttext 垃圾分类 | |||||
| ## 微信交流群 | ## 微信交流群 | ||||
| 添加微信入鹏程.盘古α交流群:<img src="./docs/个人微信.jpg" width="270"/><br/> | 添加微信入鹏程.盘古α交流群:<img src="./docs/个人微信.jpg" width="270"/><br/> | ||||
| <img src="./docs/交流群00.jpg" width="270"/><br/> | <img src="./docs/交流群00.jpg" width="270"/><br/> | ||||