You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

README_CN.md 12 kB

4 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298
  1. # 目录
  2. <!-- TOC -->
  3. - [目录](#目录)
  4. - [VGG描述](#vgg描述)
  5. - [模型架构](#模型架构)
  6. - [数据集](#数据集)
  7. - [特性](#特性)
  8. - [混合精度](#混合精度)
  9. - [环境要求](#环境要求)
  10. - [快速入门](#快速入门)
  11. - [脚本说明](#脚本说明)
  12. - [脚本及样例代码](#脚本及样例代码)
  13. - [脚本参数](#脚本参数)
  14. - [训练](#训练)
  15. - [评估](#评估)
  16. - [参数配置](#参数配置)
  17. - [训练过程](#训练过程)
  18. - [训练](#训练-1)
  19. - [GPU处理器环境运行VGG19](#gpu处理器环境运行vgg19)
  20. - [评估过程](#评估过程)
  21. - [评估](#评估-1)
  22. - [模型描述](#模型描述)
  23. - [性能](#性能)
  24. - [训练性能](#训练性能)
  25. - [评估性能](#评估性能)
  26. - [随机情况说明](#随机情况说明)
  27. - [ModelZoo主页](#modelzoo主页)
  28. <!-- /TOC -->
  29. # VGG描述
  30. 于2014年提出的VGG是用于大规模图像识别的非常深的卷积网络。它在ImageNet大型视觉识别大赛2014(ILSVRC14)中获得了目标定位第一名和图像分类第二名。
  31. [论文](https://arxiv.org/abs/1409.1556): Simonyan K, zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
  32. # 模型架构
  33. VGG 19网络主要由几个基本模块(包括卷积层和池化层)和三个连续密集层组成。
  34. 这里的基本模块主要包括以下基本操作: **3×3卷积**和**2×2最大池化**。
  35. # 数据集
  36. ## 使用的数据集:[ImageNet2012](http://www.image-net.org/)
  37. - 数据集大小:约146 GB,共1000个类、128万张彩色图像
  38. - 训练集:140 GB,1,281,167张图像
  39. - 测试集:6.4 GB,50, 000张图像
  40. - 数据格式:RGB图像。
  41. - 注:数据在src/dataset.py中处理。
  42. ## 数据集组织方式
  43. ImageNet2012
  44. > 将ImageNet2012数据集解压到任意路径,文件夹结构应包含训练数据集和评估数据集,如下所示:
  45. >
  46. > ```bash
  47. > .
  48. > └─dataset
  49. > ├─ilsvrc # 训练数据集
  50. > └─validation_preprocess # 评估数据集
  51. > ```
  52. # 特性
  53. ## 混合精度
  54. 采用[混合精度](https://www.mindspore.cn/tutorial/training/zh-CN/master/advanced_use/enable_mixed_precision.html)的训练方法使用支持单精度和半精度数据来提高深度学习神经网络的训练速度,同时保持单精度训练所能达到的网络精度。混合精度训练提高计算速度、减少内存使用的同时,支持在特定硬件上训练更大的模型或实现更大批次的训练。
  55. 以FP16算子为例,如果输入数据类型为FP32,MindSpore后台会自动降低精度来处理数据。用户可打开INFO日志,搜索“reduce precision”查看精度降低的算子。
  56. # 环境要求
  57. - 硬件(Ascend或GPU)
  58. - 准备Ascend或GPU处理器搭建硬件环境。如需试用昇腾处理器,请发送[申请表](https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/file/other/Ascend%20Model%20Zoo%E4%BD%93%E9%AA%8C%E8%B5%84%E6%BA%90%E7%94%B3%E8%AF%B7%E8%A1%A8.docx)至ascend@huawei.com,审核通过即可获得资源。
  59. - 框架
  60. - [MindSpore](https://www.mindspore.cn/install)
  61. - 如需查看详情,请参见如下资源:
  62. - [MindSpore教程](https://www.mindspore.cn/tutorial/training/zh-CN/master/index.html)
  63. - [MindSpore Python API](https://www.mindspore.cn/doc/api_python/zh-CN/master/index.html)
  64. # 快速入门
  65. 通过官方网站安装MindSpore后,您可以按照如下步骤进行训练和评估:
  66. - Ascend处理器环境运行
  67. ```python
  68. # 训练示例
  69. python train.py --data_path=[DATA_PATH] --device_id=[DEVICE_ID] > output.train.log 2>&1 &
  70. # 分布式训练示例
  71. sh run_distribute_train.sh [RANL_TABLE_JSON] [DATA_PATH]
  72. # 评估示例
  73. python eval.py --data_path=[DATA_PATH] --pre_trained=[PRE_TRAINED] > output.eval.log 2>&1 &
  74. ```
  75. 分布式训练需要提前创建JSON格式的HCCL配置文件。
  76. 具体操作,参见:
  77. <https://gitee.com/mindspore/mindspore/tree/master/model_zoo/utils/hccl_tools>
  78. - GPU处理器环境运行
  79. ```python
  80. # 训练示例
  81. python train.py --device_target="GPU" --device_id=[DEVICE_ID] --dataset=[DATASET_TYPE] --data_path=[DATA_PATH] > output.train.log 2>&1 &
  82. # 分布式训练示例
  83. sh run_distribute_train_gpu.sh [DATA_PATH]
  84. # 评估示例
  85. python eval.py --device_target="GPU" --device_id=[DEVICE_ID] --dataset=[DATASET_TYPE] --data_path=[DATA_PATH] --pre_trained=[PRE_TRAINED] > output.eval.log 2>&1 &
  86. ```
  87. # 脚本说明
  88. ## 脚本及样例代码
  89. ```bash
  90. ├── model_zoo
  91. ├── README.md // 所有模型相关说明
  92. ├── vgg19
  93. ├── README.md // GoogLeNet相关说明
  94. ├── scripts
  95. │ ├── run_distribute_train.sh // Ascend分布式训练shell脚本
  96. │ ├── run_distribute_train_gpu.sh // GPU分布式训练shell脚本
  97. ├── src
  98. │ ├── utils
  99. │ │ ├── logging.py // 日志格式设置
  100. │ │ ├── sampler.py // 为数据集创建采样器
  101. │ │ ├── util.py // 工具函数
  102. │ │ ├── var_init.py // 网络参数init方法
  103. │ ├── config.py // 参数配置
  104. │ ├── crossentropy.py // 损失计算
  105. │ ├── dataset.py // 创建数据集
  106. │ ├── linear_warmup.py // 线性学习率
  107. │ ├── warmup_cosine_annealing_lr.py // 余弦退火学习率
  108. │ ├── warmup_step_lr.py // 单次或多次迭代学习率
  109. │ ├──vgg.py // VGG架构
  110. ├── train.py // 训练脚本
  111. ├── eval.py // 评估脚本
  112. ```
  113. ## 脚本参数
  114. ### 训练
  115. ```bash
  116. 用法:train.py [--device_target TARGET][--data_path DATA_PATH]
  117. [--dataset DATASET_TYPE][--is_distributed VALUE]
  118. [--device_id DEVICE_ID][--pre_trained PRE_TRAINED]
  119. [--ckpt_path CHECKPOINT_PATH][--ckpt_interval INTERVAL_STEP]
  120. 选项:
  121. --device_target 训练后端类型,Ascend或GPU,默认为Ascend。
  122. --dataset 数据集类型,cifar10或imagenet2012。
  123. --is_distributed 训练方式,是否为分布式训练,值可以是0或1。
  124. --data_path 数据集存储路径
  125. --device_id 用于训练模型的设备。
  126. --pre_trained 预训练检查点文件路径。
  127. --ckpt_path 存放检查点的路径。
  128. --ckpt_interval 保存检查点的轮次间隔。
  129. ```
  130. ### 评估
  131. ```bash
  132. 用法:eval.py [--device_target TARGET][--data_path DATA_PATH]
  133. [--dataset DATASET_TYPE][--pre_trained PRE_TRAINED]
  134. [--device_id DEVICE_ID]
  135. 选项:
  136. --device_target 评估后端类型,Ascend或GPU,默认为Ascend。
  137. --dataset 数据集类型,cifar10或imagenet2012。
  138. --data_path 数据集存储路径。
  139. --device_id 用于评估模型的设备。
  140. --pre_trained 用于评估模型的检查点文件路径。
  141. ```
  142. ## 参数配置
  143. 在config.py中可以同时配置训练参数和评估参数。
  144. - VGG19配置,ImageNet2012数据集
  145. ```bash
  146. "num_classes": 1000, # 数据集类数
  147. "lr": 0.01, # 学习率
  148. "lr_init": 0.01, # 初始学习率
  149. "lr_max": 0.1, # 最大学习率
  150. "lr_epochs": '30,60,90,120', # 基于变化lr的轮次
  151. "lr_scheduler": "cosine_annealing", # 学习率模式
  152. "warmup_epochs": 0, # 热身轮次数
  153. "batch_size": 32, # 输入张量的批次大小
  154. "max_epoch": 150, # 只对训练有效,推理固定值为1
  155. "momentum": 0.9, # 动量
  156. "weight_decay": 1e-4, # 权重衰减
  157. "loss_scale": 1024, # 损失放大
  158. "label_smooth": 1, # 标签平滑
  159. "label_smooth_factor": 0.1, # 标签平滑因子
  160. "buffer_size": 10, # 混洗缓冲区大小
  161. "image_size": '224,224', # 图像大小
  162. "pad_mode": 'pad', # conv2d的填充方式
  163. "padding": 1, # conv2d的填充值
  164. "has_bias": True, # conv2d是否有偏差
  165. "batch_norm": False, # 在conv2d中是否有batch_norm
  166. "keep_checkpoint_max": 10, # 只保留最后一个keep_checkpoint_max检查点
  167. "initialize_mode": "KaimingNormal", # conv2d init模式
  168. "has_dropout": True # 是否使用Dropout层
  169. ```
  170. ## 训练过程
  171. ### 训练
  172. #### GPU处理器环境运行VGG19
  173. - 单设备训练(1p)
  174. ```bash
  175. python train.py --device_target="GPU" --dataset="imagenet2012" --is_distributed=0 --data_path=$DATA_PATH > output.train.log 2>&1 &
  176. ```
  177. - 分布式训练
  178. ```bash
  179. # 分布式训练(8p)
  180. bash scripts/run_distribute_train_gpu.sh /path/ImageNet2012/train"
  181. ```
  182. ## 评估过程
  183. ### 评估
  184. - 评估过程如下,需要指定数据集类型为“cifar10”或“imagenet2012”。
  185. ```bash
  186. # 使用ImageNet2012数据集
  187. python eval.py --data_path=your_data_path --dataset="imagenet2012" --device_target="GPU" --pre_trained=./*-150-5004.ckpt > output.eval.log 2>&1 &
  188. ```
  189. - 上述python命令在后台运行,可通过`output.eval.log`文件查看结果。准确率如下:
  190. ```bash
  191. # 使用ImageNet2012数据集
  192. after allreduce eval: top1_correct=37101, tot=49984,acc=74.23%
  193. after allreduce eval: top5_correct=46007, tot=49984,acc=92.04%
  194. ```
  195. # 模型描述
  196. ## 性能
  197. ### 训练性能
  198. | 参数 | VGG19(Ascend) |
  199. | -------------------------- | ---------------------------------------------- |
  200. | 模型版本 | VGG19 |
  201. | 资源 | Ascend 910;CPU:2.60GHz,192核;内存:755 GB |
  202. | 上传日期 | 2021-03-18 |
  203. | MindSpore版本 | 1.1.1-alpha |
  204. | 数据集 |ImageNet2012 |
  205. | 训练参数 |epoch=90, steps=2502, batch_size = 64, lr=0.1 |
  206. | 优化器 | Momentum |
  207. | 损失函数 | SoftmaxCrossEntropy |
  208. | 输出 | 概率 |
  209. | 损失 |1.5~2.0 |
  210. | 速度 | 8卡:97.4毫秒/步 |
  211. | 总时长 | 8卡:6.1小时 |
  212. | 调优检查点 | 1.1 GB(.ckpt 文件) |
  213. | 脚本 |[VGG19](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/vgg19) | |
  214. ### 评估性能
  215. | 参数 | VGG19(Ascend) |
  216. | ------------------- | --------------------------- |
  217. | 模型版本 | VGG19 |
  218. | 资源 | Ascend 910 |
  219. | 上传日期 | 2021-03-18 |
  220. | MindSpore版本 | 1.1.1-alpha |
  221. | 数据集 | ImageNet2012,5000张图像 |
  222. | batch_size | 64 |
  223. | 输出 | 概率 |
  224. | 准确率 | 8卡:top1_correct 74.23%,top5_correct 92.04%; |
  225. # 随机情况说明
  226. dataset.py中设置了“create_dataset”函数内的种子,同时还使用了train.py中的随机种子。
  227. # ModelZoo主页
  228. 请浏览官网[主页](https://gitee.com/mindspore/mindspore/tree/master/model_zoo)。