You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

dataProcessing.md 2.7 kB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105
  1. # 开源舆情 【数据处理】部分技术架构说明文档
  2. (待续,未完...)
  3. ## 简述
  4. 经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。
  5. ## 开源技术栈
  6. (开源技术清单)
  7. ## 技术架构
  8. (思维导图)
  9. ## 数据处理流程
  10. ![输入图片说明](ProIMG/20220219-234818.png)
  11. ## 数据总线
  12. 通过SmarterAPI与Elasticsearch对接,将内部整套数据处理流程完成后对外输出。
  13. ## 数据去重
  14. - URL去重
  15. 采用了redis集群
  16. - 内容去重
  17. 采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。
  18. ## 数据清洗
  19. 自动提取字段,标题、正文、时间、作者、来源 等。
  20. ## 数据标记
  21. ### 实体识别
  22. - 在HaNLP的基础上进行训练和二次开发,在实战的过程中收集数据样本以及对数据样本标注是最痛苦的事情,为此,我们还开发了一款可以辅助人工标记的工具。
  23. ### 情感分析
  24. 百度飞桨
  25. ### 高频词分词
  26. - 自研算法
  27. ### 文本分类
  28. - 由清华大学自然语言处理实验室推出的 [THUCTC(THU Chinese Text Classification)](http://http://thuctc.thunlp.org/)
  29. ### 相似文章
  30. 将文章通过“海明距离”算法生成加密串码存储在clickhouse集群中,通过clickhouse距离查询方法实现,文章相似度聚类。
  31. ### 事件分类
  32. - 自研算法
  33. ### 行业分类
  34. - 自研算法
  35. ## 数据存储
  36. 为了储存海量的数据,同时还能保证系统的性能和运行效率,我们将一条数据储存了多份,用储存空间换取查询时间。
  37. - MySQL
  38. 在系统中储存两部分相关的信息内容,系统配置和临时脏数据储存。
  39. - redis
  40. 在系统中除了作为系统缓存,还作为站点数据采集的index索引库。
  41. - kafak
  42. 由于数据处理的过程比较多,而且数据量很大,因此采用分布式以及异步的方式对海量数据加工处理。
  43. - Elasticsearch
  44. 储存加工好的数据,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。
  45. - MongoDB
  46. 带样式的文章正文原始网页储存在MongoDB中。
  47. - Clickhouse
  48. 将每篇文章指纹及海明距离储存在clickhouse中,以便于对相似度和文章主题聚类的计算。
  49. ## 数据运维
  50. ### 数据清理
  51. 需要定期对 Elasticsearch、Mongodb 中存储的数据删除,同时还要将Mongodb中的表删除,否则磁盘空间容量不会减少。
  52. ### 数据备份

一款开源免费的舆情系统。 支持本地化部署,支持在线体验。 支持对海量舆情数据分析和挖掘。