You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

README.md 9.0 kB

3 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899
  1. # 如何在启智平台上进行模型训练 - NPU版本
  2. - **启智集群和智算网络集群的单数据集训练,多数据集训练,训练使用方式不同,请按需求选择一种训练方式即可,注意区别(以下环境默认是训练环境)**:
  3. - 启智集群单数据集单卡或多卡的训练示例请参考示例中[train.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/train.py)的代码注释
  4. - 启智集群单数据集单卡的推理示例请参考示例中[inference.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/inference.py)的代码注释
  5. - 启智集群多数据集单卡或多卡的训练示例请参考示例中[train_for_multidataset.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/train_for_multidataset.py)的代码注释
  6. - 智算网络集群单数据集单卡或多卡训练示例请参考示例中[train_for_c2net.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/train_for_c2net.py)的代码注释
  7. - 更多关于分布式训练的教程可参考mindspore官网教程[mindspore分布式训练教程](https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/advanced_use/distributed_training_ascend.html)
  8. - **NPU启智集群中单数据集和多数据集的区别**:
  9. - 超参数不同:
  10. 单数据集的超参数通过--data_url传递
  11. 多数据集的超参数通过--multi_data_url传递,并且需要保留--data_url
  12. - 数据集使用方式不同:
  13. 如本示例中单数据集MNISTData.zip的使用方式是:数据集位于/cache/data下
  14. 多数据集时MNISTData.zip的使用方式是:数据集位于/cache/data/MNISTData/下
  15. - **NPU启智集群和智算网络集群的区别**:
  16. - 启智集群需要使用moxing拷贝数据到obs
  17. - 智算网络集群不需要moxing拷贝数据到obs
  18. - **NPU启智集群调试镜像和训练镜像的环境的区别**:
  19. - 若想要使用调试环境的多卡并行训练,可参考示例[调试环境多卡并行示例](https://git.openi.org.cn/OpenIOSSG/MNIST_Example_NPU_Debug)
  20. ## 1 概述
  21. - 本项目以LeNet-MNIST为例,简要介绍如何在启智AI协同平台上使用MindSpore完成训练任务,并提供单数据集的训练,多数据集的训练,智算网络的训练,单数据集推理等训练代码示例,旨在为AI开发者提供启智npu训练示例。对于示例代码有任何问题,欢迎在本项目中提issue。
  22. - 用户可以直接使用本项目提供的数据集和代码文件创建自己的训练任务。
  23. - 启智平台对接ModelArts和OBS,将数据集,代码,训练资源池等整合在启智AI协同平台上供开发者使用。
  24. - ModelArts是华为云提供的面向开发者的一站式AI开发平台,集成了昇腾AI处理器资源池,用户可以在ModelArts下体验MindSpore。
  25. - OBS是华为云提供的存储方式。
  26. ## 2 准备工作
  27. - 启智平台使用准备,本项目需要用户创建启智平台账户,克隆代码到自己的账户,上传数据集,具体操作方法可以通过访问[OpenI_Learning](https://git.openi.org.cn/zeizei/OpenI_Learning)项目学习小白训练营系列课程进行学习。
  28. ### 2.1 数据准备
  29. #### 数据集下载
  30. - 数据集可从本项目的数据集目录中下载,[数据集下载](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/datasets?type=1)
  31. - 数据文件说明
  32. - MNISTData数据集是由10类28∗28的灰度图片组成,训练数据集包含60000张图片,测试数据集包含10000张图片。
  33. - 数据集压缩包的目录结构如下:
  34. > MNIST_Data.zip
  35. > ├── test
  36. > │ ├── t10k-images-idx3-ubyte
  37. > │ └── t10k-labels-idx1-ubyte
  38. > └── train
  39. > ├── train-images-idx3-ubyte
  40. > └── train-labels-idx1-ubyte
  41. > checkpoint_lenet-1_1875.zip
  42. > ├── checkpoint_lenet-1_1875.ckpt
  43. #### 数据集上传
  44. - 由于本示例使用的是Mindspore开发,需要在NPU芯片运行,所以上传的数据集需要传到NPU界面。\
  45. 【注意:如果你需要试运行本示例,则无需再次上传数据集,因为本示例中的数据集MNIST_Example已经设置为公开数据集,可以直接引用或点赞收藏后使用】
  46. - 如下所示:
  47. - ![avatar](Example_Picture/数据集上传位置.png)
  48. ### 2.2 执行脚本准备
  49. #### 示例代码
  50. - 示例代码可从本仓库中下载,[代码下载](https://git.openi.org.cn/OpenIOSSG/MNIST_Example)
  51. - 代码文件说明
  52. - [train.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/train.py),启智集群单数据集训练的脚本文件,包括将数据集从obs拷贝到训练镜像中、指定迭代次数、把训练后的模型数据拷贝回obs等。具体说明请参考[train.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/train.py)的代码注释
  53. - [train_for_c2net.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/train_for_c2net.py),智算网络训练的脚本文件,包括指定迭代次数等。具体说明请参考[train_for_c2net.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/train_for_c2net.py)的代码注释
  54. - [train_for_multidataset.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/train_for_multidataset.py),启智集群包括多数据集训练的脚本文件,将多数据集从obs拷贝到训练镜像中、指定迭代次数、把训练后的模型数据拷贝回obs等。具体说明请参考[train_for_multidataset.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/train_for_multidataset.py)的代码注释
  55. - [inference.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/inference.py),启智集群用于推理的脚本文件,包括将数据集从obs拷贝到训练镜像中、指定迭代次数、把训练后的模型数据拷贝回obs等。具体说明请参考[inference.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/inference.py)的代码注释
  56. - [config.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/config.py),网络配置信息,在单数据集训练,多数据集训练,智算网络训练等训练脚本中会使用到。
  57. - [dataset.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/dataset.py),对原始数据集进行预处理,产生可用于网络训练的数据集,在单数据集的训练,多数据集的训练,智算网络的训练等训练脚本中会使用到。
  58. - [lenet.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/lenet.py),使用的训练网络,在单数据集训练,多数据集训练,智算网络训练等训练脚本中会使用到。
  59. - [dataset_distributes.py](https://git.openi.org.cn/OpenIOSSG/MNIST_Example/src/branch/master/dataset_distributes.py),对原始数据集进行预处理,产生可用于单机多卡训练的数据集。
  60. ## 3 创建训练任务
  61. - 准备好数据和执行脚本以后,需要创建训练任务将MindSpore脚本真正运行起来。首次使用的用户可参考本示例代码。
  62. ### 使用MindSpore作为训练框架创建训练作业,界面截图如下图所示。
  63. ![avatar](Example_Picture/新建训练任务页面.png)
  64. 表1 创建训练作业界面参数说明
  65. | 参数名称 | 说明 |
  66. | ----------------- | ----------- |
  67. | 代码分支 | 选择仓库代码中要使用的代码分支,默认可选择master分支。 |
  68. | AI引擎 | AI引擎选择[Ascend-Powered-Engine]和所需的MindSpore版本(本示例图片为 [Mindspore-1.3.0-python3.7-aarch64],请注意使用与所选版本对应的脚本)。 |
  69. | 启动文件 | 启动文件选择代码目录下的启动脚本。 |
  70. | 数据集 | 数据集选择已上传到启智平台的数据集。 |
  71. | 运行参数 | 单数据集数据存储位置和训练输出位置分别对应运行参数data_url和train_url,注意多数据集需要增加参数multi_data_url并在代码中声明,选择增加运行参数可以向脚本中其他参数传值,如epoch_size。在这里只需填入其他参数传值,data_url和train_url已默认加入运行参数,用户无需重复指定,只需在代码中指定。 |
  72. | 资源池 | 规格选择[Ascend: 1 * Ascend 910 CPU:24 核 256GiB],表示单机单卡 |
  73. <!-- 注:若要在启智平台上使用CPU,需要在启智平台训练界面上加上运行参数device_target=CPU,否则默认是Ascend,如下图所示
  74. ![avatar](Example_Picture/运行参数界面.png) -->
  75. ## 4 查看运行结果
  76. ### 4.1 在训练作业界面可以查看运行日志
  77. ![avatar](Example_Picture/查看日志页面.png)
  78. ### 4.2 训练结束后可以下载模型文件
  79. ![avatar](Example_Picture/模型下载页面.png)
  80. ## 对于示例代码有任何问题,欢迎在本项目中提issue。