| @@ -10,11 +10,16 @@ | |||||
| (开源技术清单) | (开源技术清单) | ||||
| ## 总体技术架构 | |||||
| ## 技术架构 | |||||
| (思维导图) | (思维导图) | ||||
| ## 数据处理流程 | |||||
|  | |||||
| ## 数据总线 | ## 数据总线 | ||||
| 通过SmarterAPI与Elasticsearch对接,将内部整套数据处理流程完成后对外输出。 | 通过SmarterAPI与Elasticsearch对接,将内部整套数据处理流程完成后对外输出。 | ||||
| @@ -35,7 +40,7 @@ | |||||
| ## 数据标记 | ## 数据标记 | ||||
| ### 实体识别 | ### 实体识别 | ||||
| HaNLP | |||||
| - 在HaNLP的基础上进行训练和二次开发,在实战的过程中收集数据样本以及对数据样本标注是最痛苦的事情,为此,我们还开发了一款可以辅助人工标记的工具。 | |||||
| ### 情感分析 | ### 情感分析 | ||||
| 百度飞桨 | 百度飞桨 | ||||
| @@ -53,15 +58,34 @@ | |||||
| ### 事件分类 | ### 事件分类 | ||||
| 自研算法 | |||||
| - 自研算法 | |||||
| ### 行业分类 | ### 行业分类 | ||||
| 自研算法 | |||||
| - 自研算法 | |||||
| ## 数据存储 | ## 数据存储 | ||||
| 分为多个部分存储,MySQL、redis、kafak、Elasticsearch、Mongodb、clickhouse | |||||
| 分为多个部分存储,MySQL、redis、kafak、Elasticsearch、MongoDB、clickhouse。 | |||||
| - MySQL | |||||
| 在系统中储存两部分相关的信息内容,系统配置和临时脏数据储存。 | |||||
| - redis | |||||
| 在系统中除了作为系统缓存,还作为站点数据采集的index索引库。 | |||||
| - kafak | |||||
| 由于数据处理的过程比较多,而且数据量很大,因此采用分布式以及异步的方式对海量数据加工处理。 | |||||
| - Elasticsearch | |||||
| 储存加工好的数据,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。 | |||||
| - MongoDB | |||||
| 带样式的文章正文原始网页储存在MongoDB中。 | |||||
| - Clickhouse | |||||
| 将每篇文章指纹及海明距离储存在clickhouse中,以便于对相似度和文章主题聚类的计算。 | |||||
| ## 数据运维 | ## 数据运维 | ||||
| ### 数据清理 | ### 数据清理 | ||||