You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

dataProcessing.md 2.8 kB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106
  1. # 开源舆情 【数据处理】部分技术架构说明文档
  2. (待续,未完...)
  3. ## 简述
  4. 经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。
  5. ## 开源技术栈
  6. (开源技术清单)
  7. ## 技术架构
  8. ![输入图片说明](ProIMG/Im0bekTbfnilPyHVt1rWJA.png)
  9. (这是最早期系统架构图)
  10. ## 数据处理流程
  11. ![输入图片说明](ProIMG/20220219-234818.png)
  12. ## 数据总线
  13. 通过SmarterAPI与Elasticsearch对接,将内部整套数据处理流程完成后对外输出。
  14. ## 数据去重
  15. - URL去重
  16. 采用了redis集群
  17. - 内容去重
  18. 采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。
  19. ## 数据清洗
  20. 自动提取字段,标题、正文、时间、作者、来源 等。
  21. ## 数据标记
  22. ### 实体识别
  23. - 在HaNLP的基础上进行训练和二次开发,在实战的过程中收集数据样本以及对数据样本标注是最痛苦的事情,为此,我们还开发了一款可以辅助人工标记的工具。
  24. ### 情感分析
  25. 百度飞桨
  26. ### 高频词分词
  27. - 自研算法
  28. ### 文本分类
  29. - 由清华大学自然语言处理实验室推出的 [THUCTC(THU Chinese Text Classification)](http://http://thuctc.thunlp.org/)
  30. ### 相似文章
  31. 将文章通过“海明距离”算法生成加密串码存储在clickhouse集群中,通过clickhouse距离查询方法实现,文章相似度聚类。
  32. ### 事件分类
  33. - 自研算法
  34. ### 行业分类
  35. - 自研算法
  36. ## 数据存储
  37. 为了储存海量的数据,同时还能保证系统的性能和运行效率,我们将一条数据储存了多份,用储存空间换取查询时间。
  38. - MySQL
  39. 在系统中储存两部分相关的信息内容,系统配置和临时脏数据储存。
  40. - redis
  41. 在系统中除了作为系统缓存,还作为站点数据采集的index索引库。
  42. - kafak
  43. 由于数据处理的过程比较多,而且数据量很大,因此采用分布式以及异步的方式对海量数据加工处理。
  44. - Elasticsearch
  45. 储存加工好的数据,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。
  46. - MongoDB
  47. 带样式的文章正文原始网页储存在MongoDB中。
  48. - Clickhouse
  49. 将每篇文章指纹及海明距离储存在clickhouse中,以便于对相似度和文章主题聚类的计算。
  50. ## 数据运维
  51. ### 数据清理
  52. 需要定期对 Elasticsearch、Mongodb 中存储的数据删除,同时还要将Mongodb中的表删除,否则磁盘空间容量不会减少。
  53. ### 数据备份

一款开源免费的舆情系统。 支持本地化部署,支持在线体验。 支持对海量舆情数据分析和挖掘。