You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

dataProcessing.md 1.6 kB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475
  1. # 开源舆情 【数据处理】部分技术架构说明文档
  2. (待续,未完...)
  3. ## 简述
  4. 经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。
  5. ## 开源技术栈
  6. (开源技术清单)
  7. ## 总体技术架构
  8. (思维导图)
  9. ## 数据总线
  10. 通过SmarterAPI与Elasticsearch对接,将内部整套数据处理流程完成后对外输出。
  11. ## 数据去重
  12. - URL去重
  13. 采用了redis集群
  14. - 内容去重
  15. 采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。
  16. ## 数据清洗
  17. 自动提取字段,标题、正文、时间、作者、来源 等。
  18. ## 数据标记
  19. ### 实体识别
  20. HaNLP
  21. ### 情感分析
  22. 百度飞桨
  23. ### 高频词分词
  24. - 自研算法
  25. ### 文本分类
  26. - 由清华大学自然语言处理实验室推出的 [THUCTC(THU Chinese Text Classification)](http://http://thuctc.thunlp.org/)
  27. ### 相似文章
  28. 将文章通过“海明距离”算法生成加密串码存储在clickhouse集群中,通过clickhouse距离查询方法实现,文章相似度聚类。
  29. ### 事件分类
  30. 自研算法
  31. ### 行业分类
  32. 自研算法
  33. ## 数据存储
  34. 分为多个部分存储,MySQL、redis、kafak、Elasticsearch、Mongodb、clickhouse
  35. ## 数据运维
  36. ### 数据清理
  37. 需要定期对 Elasticsearch、Mongodb 中存储的数据删除,同时还要将Mongodb中的表删除,否则磁盘空间容量不会减少。
  38. ### 数据备份

一款开源免费的舆情系统。 支持本地化部署,支持在线体验。 支持对海量舆情数据分析和挖掘。