You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

Readme.md 3.4 kB

3 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778
  1. ## ideaseg
  2. `ideaseg` 是一个基于最新的 [HanLP](https://github.com/hankcs/HanLP/tree/1.x) 自然语言处理工具包实现的中文分词器,
  3. 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 [NeuralNetworkParser](https://github.com/hankcs/HanLP/issues/644) 相关代码和数据。
  4. `HanLP` 相比其他诸如 `IK`、`jcseg` 等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。
  5. 通过对 `HanLP` 进行优化配置,`ideaseg` 在准确度和分词速度上取得了最佳的平衡。
  6. 与其他基于 `HanLP` 的插件相比,`ideaseg` 同步了最新 `HanLP` 的代码和数据,去除了无法商用的相关内容;实现了自动配置;
  7. 包含了模型数据,无需自行下载,使用简单方便。
  8. `ideaseg` 提供三个模块包括:
  9. 1. `core` ~ 核心分词器模块
  10. 2. `elasticsearch` ~ ElasticSearch 的 ideaseg 分词插件 (默认版本 7.10.2)
  11. 3. `opensearch` ~ OpenSearch 的 ideaseg 分词插件 (默认版本 2.4.1)
  12. 此外 `data` 包含 `HanLP` 的模型数据。
  13. 由于 `ElasticSearch` 的插件机制严格绑定引擎本身的版本,而且版本众多,因此本项目不提供预编译的二进制版本,你需要执行下载源码进行构建。
  14. ### 构建
  15. 以下是插件的构建过程,在开始之前请先安装好 `git`、`java`、`maven` 等相关工具。
  16. 首先确定你的 `ElasticSearch` 或者 `OpenSearch` 的具体版本,假设你使用的是 `ElasticSearch` 7.10.2 版本,
  17. 请使用文本编辑器打开 `ideaseg/elasticsearch/pom.xml` 文件,修改 `elasticsearch.version` 对应的值为 `7.10.2`
  18. (如果是 `OpenSearch` 请修改 `opensearch/pom.xml`)。
  19. 保存文件并打开命令行窗口,执行如下命令开始构建:
  20. ```shell
  21. $ git clone https://gitee.com/indexea/ideaseg
  22. $ cd ideaseg
  23. $ mvn install
  24. ```
  25. 构建完成后,将在 `elasticsearch/target` 和 `opensearch/target` 各生成两个插件文件为 `ideaseg.zip` 。
  26. ### 安装
  27. 构建完成后,我们可以利用 `ElasticSearch` 或 `OpenSearch` 提供的插件管理工具进行安装。
  28. `ElasticSearch` 对应的插件管理工具为 `<elasticsearch>/bin/elasticsearch-plugin` ,
  29. 而 `OpenSearch` 对应的管理工具为 `<opensearch>/bin/opensearch-plugin`。
  30. 其中 `<elasticsearch>` 和 `<opensearch>` 为两个服务安装后所在的目录。
  31. #### ElasticSearch 安装 ideaseg 插件
  32. ```shell
  33. $ bin/elasticsearch-plugin install file:///<ideaseg>/elasticsearch/target/ideaseg.zip
  34. ```
  35. #### OpenSearch 安装 ideaseg 插件
  36. ```shell
  37. $ bin/opensearch-plugin install file:///<ideaseg>/opensearch/target/ideaseg.zip
  38. ```
  39. 其中 `<ideaseg>` 为 `ideaseg` 源码所在的路径。要特别注意到是路径前必须有 `file://` 。
  40. 安装过程会询问插件所需的权限,回车确认即可完成安装,安装完毕需要重启服务才能让插件生效。
  41. 接下来你可以使用分词测试工具来对插件进行测试,如下所示:
  42. ```
  43. POST _analyze
  44. {
  45. "analyzer": "ideaseg",
  46. "text": "你好,我用的是 ideaseg 分词插件。"
  47. }
  48. ```
  49. 关于分词测试的详情请参考 [ElasticSearch 官方文档](https://www.elastic.co/guide/en/elasticsearch/reference/7.10/test-analyzer.html)。
  50. ### 反馈问题
  51. 如果你在使用 `ideaseg` 过程中有任何问题,请通过 [Issues](https://gitee.com/indexea/ideaseg/issues) 提出。

No Description

Contributors (1)