# 开源舆情 【数据处理】部分技术架构说明文档 (待续,未完...) ## 简述 经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。 ## 开源技术栈 (开源技术清单) ## 总体技术架构 (思维导图) ## 数据总线 ## 数据去重 采用了redis集群 ## 数据清洗 自动提取字段,标题、正文、时间、作者、来源 等。 ## 数据标记 ### 实体识别 HaNLP ### 情感分析 百度飞桨 ### 高频词分词 - 自研算法 ### 文本分类 ### 相似文章 ### 事件分类 自研算法 ### 行业分类 自研算法 ## 数据存储 分为多个部分存储,MySQL、redis、kafak、ES、mongodb、clickhouse ## 数据运维 ### 数据清理 ### 数据归档