You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

dataCollection.md 5.2 kB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160
  1. ## 项目简述
  2. <br><br>
  3. ## 开源技术栈
  4. - Java EE
  5. - SpringBoot
  6. - HttpClient
  7. - webMagic
  8. - Spider-flow
  9. - Redis
  10. - MySQL
  11. - VUE
  12. - Tomcat
  13. - Nginx
  14. - Zookeeper
  15. - Kafka
  16. - RabbitMQ
  17. - Bootstrap
  18. ## 总体架构
  19. ![输入图片说明](ProIMG/Qon4S9stvKHpWoe8RSYMLw.png)
  20. (这是最早期系统架构图)
  21. ## 数据处理流程
  22. ![输入图片说明](ProIMG/-SaHmZ-9GeADfc121RJbqw.png)
  23. (这是最早期系统设计图)
  24. ## 信源管理
  25. 信源,信息来源的简称。
  26. <br><br>
  27. 我们需要对采集 类型,内容,平台,地区 等多种属性进行管理。我们对此开发了三代信源管理平台。
  28. ##### 一代产品形态
  29. ![输入图片说明](ProIMG/spider-factory-1.png)
  30. ##### 二代产品形态
  31. ![输入图片说明](ProIMG/spider-factory-2.png)
  32. ##### 三代产品形态
  33. ![输入图片说明](ProIMG/spider-factory-3.png)
  34. ## 站点画像
  35. 采用模拟浏览器请求技术实现深度和广度抓取算法,总体分3个环节,对整个站点进行 1)全站扫描、2)数据储存、3)特性分析。 <br>
  36. - siteMeta <br>
  37. 识别整个网站的结构,并且解析存储,给每一个抓取的网站都建立一个“小档案”库。 <br><br>
  38. - siteIndex <br>
  39. 在识别基础上把所有网页都预存储下来,并且提取各种特征值进行分析计算,从站点目录,到站点栏目,以及每个抓取目标页面都会标记不同的特性参数。 <br><br>
  40. - siteFeatures<br>
  41. 最后将整体分析演算的结果,还原成这个网站的抓取画像和特性,以便于机器将会知道采用哪种抓取策略自动去匹配这个网站的特性抓取,基于这样的设计可以实现大规模数据采集无人值守的效果,也就是百度、谷歌 这些大型搜索引擎实现的数据效果。<br>
  42. 用“探头机器人”对整个网站预抓取一遍,相当于一个先头部队,把抓取网站的情况搞清楚以后,很快机器就知道采取哪种采集策略,大量需要采集的网站,只有极小的部分需要人工干预采集,而且更不需要编写一行爬虫采集代码,完全是自动化及低代码化大规模数据采集。
  43. ## 数据抓取
  44. - 自动抓取 <br>
  45. 有了网站的画像属性,就知道匹配那种采集抓取策略了,大部分网站就能自动抓取就自动识别抓取数据,无需人工干预。<br>
  46. - 人工配置 <br>
  47. 有的网站抓取难度大,采用可视化技术将整个站点的标签提取出来给开发工程师,他们将可以快速的对网站的抓取进行配置。
  48. 我们在采集任何一个网站的时候将会有各种“探头”对网站的结构,广告位,关键性内容,导航栏,分页,列表,站点特性,站点数据量,抓取难易度,站点更新频率,等等。
  49. <br>
  50. - 采集模板 <br>
  51. 为了简化人工操作,提高工作效率,我们还提供了爬虫模板。爬虫模板的意义在于,用户遇到一个配置繁琐的站点,不用从头开始,只需要到爬虫模板库里面找类似的模板即可,如图所示:
  52. ![输入图片说明](ProIMG/spider-factory-templeta.png)
  53. <br>
  54. ## 数据暂存
  55. - 暂存 <br>
  56. 如果把数据直接储存到系统大数据库里,一旦有大量采集的脏数据下来就是浪费时间和精力,所有数据都会预演储存一遍,储存完成后会有程序对此核对监测,以免数据字段漏存,错存。
  57. - 预警 <br>
  58. 如果在暂存环节发现储存错误,将会及时通过邮件发送对研发工程师提醒,告知错误内容,让其对此修正。
  59. <br>
  60. ## 低代码开发
  61. - 配置<br>
  62. 目前的爬虫工厂已经一个低代码化开发的平台了,更准确的说,我们不是在上面开发,而且在上面进行爬虫配置对数据采集抓取。如图所示:
  63. ![输入图片说明](ProIMG/spider-factory-4.png)
  64. - 维护 <br>
  65. 通过低代码的方式的开发,我们对爬虫的维护更加方便,只需要在web管理界面中,修改爬虫抓取配置即可,同时还可以在线调试,查看具体的抓取错误日志。否则某一个站点抓取出现问题,都不知道是哪台服务器上的哪个爬虫抓取错误。各种站点爬虫的量一旦大起来,维护成本极高。
  66. ![输入图片说明](ProIMG/spider-work-err.png)
  67. <br>
  68. ## 分布式采集
  69. - 控制器(master)
  70. - 分发器(dispatch)
  71. - 执行器 (downloader)
  72. <br>
  73. ## 爬虫管理
  74. - 爬虫状态
  75. - 采集状态
  76. <br>
  77. ## 反爬策略
  78. - 模拟请求头
  79. - 代理IP池
  80. <br>
  81. ## 采集分类
  82. ##### 网站采集
  83. x
  84. ##### app 采集
  85. x
  86. ##### 公众号采集
  87. x
  88. ##### 小程序采集
  89. x
  90. ##### (短)视频采集
  91. x
  92. <br>
  93. ## 采集日志
  94. - 日志跟踪ID
  95. - 数据生命周期
  96. <br><br>
  97. ## 数据解析
  98. - 自动解析
  99. - 手动解析
  100. <br>
  101. ## 数据储存
  102. ##### 异步调用
  103. 通过kafka中间件将数据通过消息的形式发送给储存端子系统。
  104. <br><br>
  105. ##### 更多内容
  106. [【数据处理】技术架构说明文档](https://gitee.com/stonedtx/yuqing/blob/master/dataProcessing.md)
  107. <br><br><br><br>

一款开源免费的舆情系统。 支持本地化部署,支持在线体验。 支持对海量舆情数据分析和挖掘。