You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

README_CN.md 29 kB

4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581
  1. # 目录
  2. <!-- TOC -->
  3. - [ResNet描述](#ResNet描述)
  4. - [模型架构](#模型架构)
  5. - [数据集](#数据集)
  6. - [特性](#特性)
  7. - [混合精度](#混合精度)
  8. - [环境要求](#环境要求)
  9. - [快速入门](#快速入门)
  10. - [脚本说明](#脚本说明)
  11. - [脚本及样例代码](#脚本及样例代码)
  12. - [脚本参数](#脚本参数)
  13. - [训练过程](#训练过程)
  14. - [评估过程](#评估过程)
  15. - [模型描述](#模型描述)
  16. - [性能](#性能)
  17. - [评估性能](#评估性能)
  18. - [随机情况说明](#随机情况说明)
  19. - [ModelZoo主页](#ModelZoo主页)
  20. <!-- /TOC -->
  21. # ResNet描述
  22. ## 概述
  23. 残差神经网络(ResNet)由微软研究院何凯明等五位华人提出,通过ResNet单元,成功训练152层神经网络,赢得了ILSVRC2015冠军。ResNet前五项的误差率为3.57%,参数量低于VGGNet,因此效果非常显著。传统的卷积网络或全连接网络或多或少存在信息丢失的问题,还会造成梯度消失或爆炸,导致深度网络训练失败,ResNet则在一定程度上解决了这个问题。通过将输入信息传递给输出,确保信息完整性。整个网络只需要学习输入和输出的差异部分,简化了学习目标和难度。ResNet的结构大幅提高了神经网络训练的速度,并且大大提高了模型的准确率。正因如此,ResNet十分受欢迎,甚至可以直接用于ConceptNet网络。
  24. 如下为MindSpore使用CIFAR-10/ImageNet2012数据集对ResNet18/ResNet50/ResNet101/SE-ResNet50进行训练的示例。ResNet50和ResNet101可参考[论文1](https://arxiv.org/pdf/1512.03385.pdf),SE-ResNet50是ResNet50的一个变体,可参考[论文2](https://arxiv.org/abs/1709.01507)和[论文3](https://arxiv.org/abs/1812.01187)。使用8卡Ascend 910训练SE-ResNet50,仅需24个周期,TOP1准确率就达到了75.9%(暂不支持用CIFAR-10数据集训练ResNet101以及用用CIFAR-10数据集训练SE-ResNet50)。
  25. ## 论文
  26. 1. [论文](https://arxiv.org/pdf/1512.03385.pdf):Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun."Deep Residual Learning for Image Recognition"
  27. 2. [论文](https://arxiv.org/abs/1709.01507):Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu."Squeeze-and-Excitation Networks"
  28. 3. [论文](https://arxiv.org/abs/1812.01187):Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, Junyuan Xie, Mu Li."Bag of Tricks for Image Classification with Convolutional Neural Networks"
  29. # 模型架构
  30. ResNet的总体网络架构如下:
  31. [链接](https://arxiv.org/pdf/1512.03385.pdf)
  32. # 数据集
  33. 使用的数据集:[CIFAR-10](<http://www.cs.toronto.edu/~kriz/cifar.html>)
  34. - 数据集大小:共10个类、60,000个32*32彩色图像
  35. - 训练集:50,000个图像
  36. - 测试集:10,000个图像
  37. - 数据格式:二进制文件
  38. - 注:数据在dataset.py中处理。
  39. - 下载数据集。目录结构如下:
  40. ```text
  41. ├─cifar-10-batches-bin
  42. └─cifar-10-verify-bin
  43. ```
  44. 使用的数据集:[ImageNet2012](http://www.image-net.org/)
  45. - 数据集大小:共1000个类、224*224彩色图像
  46. - 训练集:共1,281,167张图像
  47. - 测试集:共50,000张图像
  48. - 数据格式:JPEG
  49. - 注:数据在dataset.py中处理。
  50. - 下载数据集,目录结构如下:
  51. ```text
  52. └─dataset
  53. ├─ilsvrc # 训练数据集
  54. └─validation_preprocess # 评估数据集
  55. ```
  56. # 特性
  57. ## 混合精度
  58. 采用[混合精度](https://www.mindspore.cn/tutorial/training/en/master/advanced_use/enable_mixed_precision.html)的训练方法使用支持单精度和半精度数据来提高深度学习神经网络的训练速度,同时保持单精度训练所能达到的网络精度。混合精度训练提高计算速度、减少内存使用的同时,支持在特定硬件上训练更大的模型或实现更大批次的训练。
  59. 以FP16算子为例,如果输入数据类型为FP32,MindSpore后台会自动降低精度来处理数据。用户可打开INFO日志,搜索“reduce precision”查看精度降低的算子。
  60. # 环境要求
  61. - 硬件(Ascend/GPU)
  62. - 准备Ascend或GPU处理器搭建硬件环境。
  63. - 框架
  64. - [MindSpore](https://www.mindspore.cn/install/en)
  65. - 如需查看详情,请参见如下资源:
  66. - [MindSpore教程](https://www.mindspore.cn/tutorial/training/zh-CN/master/index.html)
  67. - [MindSpore Python API](https://www.mindspore.cn/doc/api_python/zh-CN/master/index.html)
  68. # 快速入门
  69. 通过官方网站安装MindSpore后,您可以按照如下步骤进行训练和评估:
  70. - Ascend处理器环境运行
  71. ```text
  72. # 分布式训练
  73. 用法:bash run_distribute_train.sh [resnet18|resnet50|resnet101|se-resnet50] [cifar10|imagenet2012] [RANK_TABLE_FILE] [DATASET_PATH] [PRETRAINED_CKPT_PATH](可选)
  74. # 单机训练
  75. 用法:bash run_standalone_train.sh [resnet18|resnet50|resnet101|se-resnet50] [cifar10|imagenet2012] [DATASET_PATH]
  76. [PRETRAINED_CKPT_PATH](可选)
  77. # 运行评估示例
  78. 用法:bash run_eval.sh [resnet18|resnet50|resnet101|se-resnet50] [cifar10|imagenet2012] [DATASET_PATH] [CHECKPOINT_PATH]
  79. ```
  80. - GPU处理器环境运行
  81. ```text
  82. # 分布式训练示例
  83. bash run_distribute_train_gpu.sh [resnet50|resnet101] [cifar10|imagenet2012] [DATASET_PATH] [PRETRAINED_CKPT_PATH](可选)
  84. # 单机训练示例
  85. bash run_standalone_train_gpu.sh [resnet50|resnet101] [cifar10|imagenet2012] [DATASET_PATH] [PRETRAINED_CKPT_PATH](可选)
  86. # 推理示例
  87. bash run_eval_gpu.sh [resnet50|resnet101] [cifar10|imagenet2012] [DATASET_PATH] [CHECKPOINT_PATH]
  88. ```
  89. # 脚本说明
  90. ## 脚本及样例代码
  91. ```shell
  92. .
  93. └──resnet
  94. ├── README.md
  95. ├── scripts
  96. ├── run_distribute_train.sh # 启动Ascend分布式训练(8卡)
  97. ├── run_parameter_server_train.sh # 启动Ascend参数服务器训练(8卡)
  98. ├── run_eval.sh # 启动Ascend评估
  99. ├── run_standalone_train.sh # 启动Ascend单机训练(单卡)
  100. ├── run_distribute_train_gpu.sh # 启动GPU分布式训练(8卡)
  101. ├── run_parameter_server_train_gpu.sh # 启动GPU参数服务器训练(8卡)
  102. ├── run_eval_gpu.sh # 启动GPU评估
  103. └── run_standalone_train_gpu.sh # 启动GPU单机训练(单卡)
  104. ├── src
  105. ├── config.py # 参数配置
  106. ├── dataset.py # 数据预处理
  107. ├─ eval_callback.py # 训练时推理回调函数
  108. ├── CrossEntropySmooth.py # ImageNet2012数据集的损失定义
  109. ├── lr_generator.py # 生成每个步骤的学习率
  110. └── resnet.py # ResNet骨干网络,包括ResNet50、ResNet101和SE-ResNet50
  111. ├── eval.py # 评估网络
  112. └── train.py # 训练网络
  113. ```
  114. ## 脚本参数
  115. 在config.py中可以同时配置训练参数和评估参数。
  116. - 配置ResNet18、ResNet50和CIFAR-10数据集。
  117. ```text
  118. "class_num":10, # 数据集类数
  119. "batch_size":32, # 输入张量的批次大小
  120. "loss_scale":1024, # 损失等级
  121. "momentum":0.9, # 动量
  122. "weight_decay":1e-4, # 权重衰减
  123. "epoch_size":90, # 此值仅适用于训练;应用于推理时固定为1
  124. "pretrain_epoch_size":0, # 加载预训练检查点之前已经训练好的模型的周期大小;实际训练周期大小等于epoch_size减去pretrain_epoch_size
  125. "save_checkpoint":True, # 是否保存检查点
  126. "save_checkpoint_epochs":5, # 两个检查点之间的周期间隔;默认情况下,最后一个检查点将在最后一步完成后保存
  127. "keep_checkpoint_max":10, # 只保留最后一个keep_checkpoint_max检查点
  128. "save_checkpoint_path":"./", # 检查点保存路径
  129. "warmup_epochs":5, # 热身周期数
  130. "lr_decay_mode":"poly” # 衰减模式可为步骤、策略和默认
  131. "lr_init":0.01, # 初始学习率
  132. "lr_end":0.0001, # 最终学习率
  133. "lr_max":0.1, # 最大学习率
  134. ```
  135. - 配置ResNet18、ResNet50和ImageNet2012数据集。
  136. ```text
  137. "class_num":1001, # 数据集类数
  138. "batch_size":256, # 输入张量的批次大小
  139. "loss_scale":1024, # 损失等级
  140. "momentum":0.9, # 动量优化器
  141. "weight_decay":1e-4, # 权重衰减
  142. "epoch_size":90, # 此值仅适用于训练;应用于推理时固定为1
  143. "pretrain_epoch_size":0, # 加载预训练检查点之前已经训练好的模型的周期大小;实际训练周期大小等于epoch_size减去pretrain_epoch_size
  144. "save_checkpoint":True, # 是否保存检查点
  145. "save_checkpoint_epochs":5, # 两个检查点之间的周期间隔;默认情况下,最后一个检查点将在最后一个周期完成后保存
  146. "keep_checkpoint_max":10, # 只保存最后一个keep_checkpoint_max检查点
  147. "save_checkpoint_path":"./", # 检查点相对于执行路径的保存路径
  148. "warmup_epochs":0, # 热身周期数
  149. "lr_decay_mode":"Linear", # 用于生成学习率的衰减模式
  150. "use_label_smooth":True, # 标签平滑
  151. "label_smooth_factor":0.1, # 标签平滑因子
  152. "lr_init":0, # 初始学习率
  153. "lr_max":0.8, # 最大学习率
  154. "lr_end":0.0, # 最小学习率
  155. ```
  156. - 配置ResNet101和ImageNet2012数据集。
  157. ```text
  158. "class_num":1001, # 数据集类数
  159. "batch_size":32, # 输入张量的批次大小
  160. "loss_scale":1024, # 损失等级
  161. "momentum":0.9, # 动量优化器
  162. "weight_decay":1e-4, # 权重衰减
  163. "epoch_size":120, # 训练周期大小
  164. "pretrain_epoch_size":0, # 加载预训练检查点之前已经训练好的模型的周期大小;实际训练周期大小等于epoch_size减去pretrain_epoch_size
  165. "save_checkpoint":True, # 是否保存检查点
  166. "save_checkpoint_epochs":5, # 两个检查点之间的周期间隔;默认情况下,最后一个检查点将在最后一个周期完成后保存
  167. "keep_checkpoint_max":10, # 只保存最后一个keep_checkpoint_max检查点
  168. "save_checkpoint_path":"./", # 检查点相对于执行路径的保存路径
  169. "warmup_epochs":0, # 热身周期数
  170. "lr_decay_mode":"cosine” # 用于生成学习率的衰减模式
  171. "use_label_smooth":True, # 标签平滑
  172. "label_smooth_factor":0.1, # 标签平滑因子
  173. "lr":0.1 # 基础学习率
  174. ```
  175. - 配置SE-ResNet50和ImageNet2012数据集。
  176. ```text
  177. "class_num":1001, # 数据集类数
  178. "batch_size":32, # 输入张量的批次大小
  179. "loss_scale":1024, # 损失等级
  180. "momentum":0.9, # 动量优化器
  181. "weight_decay":1e-4, # 权重衰减
  182. "epoch_size":28, # 创建学习率的周期大小
  183. "train_epoch_size":24 # 实际训练周期大小
  184. "pretrain_epoch_size":0, # 加载预训练检查点之前已经训练好的模型的周期大小;实际训练周期大小等于epoch_size减去pretrain_epoch_size
  185. "save_checkpoint":True, # 是否保存检查点
  186. "save_checkpoint_epochs":4, # 两个检查点之间的周期间隔;默认情况下,最后一个检查点将在最后一个周期完成后保存
  187. "keep_checkpoint_max":10, # 只保存最后一个keep_checkpoint_max检查点
  188. "save_checkpoint_path":"./", # checkpoint相对于执行路径的保存路径
  189. "warmup_epochs":3, # 热身周期数
  190. "lr_decay_mode":"cosine” # 用于生成学习率的衰减模式
  191. "use_label_smooth":True, # 标签平滑
  192. "label_smooth_factor":0.1, # 标签平滑因子
  193. "lr_init":0.0, # 初始学习率
  194. "lr_max":0.3, # 最大学习率
  195. "lr_end":0.0001, # 最终学习率
  196. ```
  197. ## 训练过程
  198. ### 用法
  199. #### Ascend处理器环境运行
  200. ```text
  201. # 分布式训练
  202. 用法:bash run_distribute_train.sh [resnet18|resnet50|resnet101|se-resnet50] [cifar10|imagenet2012] [RANK_TABLE_FILE] [DATASET_PATH] [PRETRAINED_CKPT_PATH](可选)
  203. # 单机训练
  204. 用法:bash run_standalone_train.sh [resnet18|resnet50|resnet101|se-resnet50] [cifar10|imagenet2012] [DATASET_PATH]
  205. [PRETRAINED_CKPT_PATH](可选)
  206. # 运行评估示例
  207. 用法:bash run_eval.sh [resnet18|resnet50|resnet101|se-resnet50] [cifar10|imagenet2012] [DATASET_PATH] [CHECKPOINT_PATH]
  208. ```
  209. 分布式训练需要提前创建JSON格式的HCCL配置文件。
  210. 具体操作,参见[hccn_tools](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/utils/hccl_tools)中的说明。
  211. 训练结果保存在示例路径中,文件夹名称以“train”或“train_parallel”开头。您可在此路径下的日志中找到检查点文件以及结果,如下所示。
  212. 运行单卡用例时如果想更换运行卡号,可以通过设置环境变量 `export DEVICE_ID=x` 或者在context中设置 `device_id=x`指定相应的卡号。
  213. #### GPU处理器环境运行
  214. ```text
  215. # 分布式训练示例
  216. bash run_distribute_train_gpu.sh [resnet50|resnet101] [cifar10|imagenet2012] [DATASET_PATH] [PRETRAINED_CKPT_PATH](可选)
  217. # 单机训练示例
  218. bash run_standalone_train_gpu.sh [resnet50|resnet101] [cifar10|imagenet2012] [DATASET_PATH] [PRETRAINED_CKPT_PATH](可选)
  219. # 推理示例
  220. bash run_eval_gpu.sh [resnet50|resnet101] [cifar10|imagenet2012] [DATASET_PATH] [CHECKPOINT_PATH]
  221. ```
  222. #### 运行参数服务器模式训练
  223. - Ascend参数服务器训练示例
  224. ```text
  225. bash run_parameter_server_train.sh [resnet18|resnet50|resnet101] [cifar10|imagenet2012] [RANK_TABLE_FILE] [DATASET_PATH] [PRETRAINED_CKPT_PATH](可选)
  226. ```
  227. - GPU参数服务器训练示例
  228. ```text
  229. bash run_parameter_server_train_gpu.sh [resnet50|resnet101] [cifar10|imagenet2012] [DATASET_PATH] [PRETRAINED_CKPT_PATH](可选)
  230. ```
  231. #### 训练时推理
  232. 训练时推理需要在启动文件中添加`run_eval` 并设置为True。与此同时需要设置: `eval_dataset_path`, `save_best_ckpt`, `eval_start_epoch`, `eval_interval` 。
  233. ### 结果
  234. - 使用CIFAR-10数据集训练ResNet18
  235. ```text
  236. # 分布式训练结果(8P)
  237. epoch: 1 step: 195, loss is 1.5783054
  238. epoch: 2 step: 195, loss is 1.0682616
  239. epoch: 3 step: 195, loss is 0.8836588
  240. epoch: 4 step: 195, loss is 0.36090446
  241. epoch: 5 step: 195, loss is 0.80853784
  242. ...
  243. ```
  244. - 使用ImageNet2012数据集训练ResNet18
  245. ```text
  246. # 分布式训练结果(8P)
  247. epoch: 1 step: 625, loss is 4.757934
  248. epoch: 2 step: 625, loss is 4.0891967
  249. epoch: 3 step: 625, loss is 3.9131956
  250. epoch: 4 step: 625, loss is 3.5302577
  251. epoch: 5 step: 625, loss is 3.597817
  252. ...
  253. ```
  254. - 使用CIFAR-10数据集训练ResNet50
  255. ```text
  256. # 分布式训练结果(8P)
  257. epoch:1 step:195, loss is 1.9601055
  258. epoch:2 step:195, loss is 1.8555021
  259. epoch:3 step:195, loss is 1.6707983
  260. epoch:4 step:195, loss is 1.8162166
  261. epoch:5 step:195, loss is 1.393667
  262. ...
  263. ```
  264. - 使用ImageNet2012数据集训练ResNet50
  265. ```text
  266. # 分布式训练结果(8P)
  267. epoch:1 step:5004, loss is 4.8995576
  268. epoch:2 step:5004, loss is 3.9235563
  269. epoch:3 step:5004, loss is 3.833077
  270. epoch:4 step:5004, loss is 3.2795618
  271. epoch:5 step:5004, loss is 3.1978393
  272. ...
  273. ```
  274. - 使用ImageNet2012数据集训练ResNet101
  275. ```text
  276. # 分布式训练结果(8P)
  277. epoch:1 step:5004, loss is 4.805483
  278. epoch:2 step:5004, loss is 3.2121816
  279. epoch:3 step:5004, loss is 3.429647
  280. epoch:4 step:5004, loss is 3.3667371
  281. epoch:5 step:5004, loss is 3.1718972
  282. ...
  283. epoch:67 step:5004, loss is 2.2768745
  284. epoch:68 step:5004, loss is 1.7223864
  285. epoch:69 step:5004, loss is 2.0665488
  286. epoch:70 step:5004, loss is 1.8717369
  287. ...
  288. ```
  289. - 使用ImageNet2012数据集训练SE-ResNet50
  290. ```text
  291. # 分布式训练结果(8P)
  292. epoch:1 step:5004, loss is 5.1779146
  293. epoch:2 step:5004, loss is 4.139395
  294. epoch:3 step:5004, loss is 3.9240637
  295. epoch:4 step:5004, loss is 3.5011306
  296. epoch:5 step:5004, loss is 3.3501816
  297. ...
  298. ```
  299. ## 评估过程
  300. ### 用法
  301. #### Ascend处理器环境运行
  302. ```bash
  303. # 评估
  304. Usage: bash run_eval.sh [resnet18|resnet50|resnet101|se-resnet50] [cifar10|imagenet2012] [DATASET_PATH] [CHECKPOINT_PATH]
  305. ```
  306. ```bash
  307. # 评估示例
  308. bash run_eval.sh resnet50 cifar10 ~/cifar10-10-verify-bin ~/resnet50_cifar10/train_parallel0/resnet-90_195.ckpt
  309. ```
  310. > 训练过程中可以生成检查点。
  311. #### GPU处理器环境运行
  312. ```bash
  313. bash run_eval_gpu.sh [resnet50|resnet101] [cifar10|imagenet2012] [DATASET_PATH] [CHECKPOINT_PATH]
  314. ```
  315. ### 结果
  316. 评估结果保存在示例路径中,文件夹名为“eval”。您可在此路径下的日志找到如下结果:
  317. - 使用CIFAR-10数据集评估ResNet18
  318. ```bash
  319. result: {'acc': 0.9402043269230769} ckpt=~/resnet50_cifar10/train_parallel0/resnet-90_195.ckpt
  320. ```
  321. - 使用ImageNet2012数据集评估ResNet18
  322. ```bash
  323. result: {'acc': 0.7053685897435897} ckpt=train_parallel0/resnet-90_5004.ckpt
  324. ```
  325. - 使用CIFAR-10数据集评估ResNet50
  326. ```text
  327. result:{'acc':0.91446314102564111} ckpt=~/resnet50_cifar10/train_parallel0/resnet-90_195.ckpt
  328. ```
  329. - 使用ImageNet2012数据集评估ResNet50
  330. ```text
  331. result:{'acc':0.7671054737516005} ckpt=train_parallel0/resnet-90_5004.ckpt
  332. ```
  333. - 使用ImageNet2012数据集评估ResNet101
  334. ```text
  335. result:{'top_5_accuracy':0.9429417413572343, 'top_1_accuracy':0.7853513124199744} ckpt=train_parallel0/resnet-120_5004.ckpt
  336. ```
  337. - 使用ImageNet2012数据集评估SE-ResNet50
  338. ```text
  339. result:{'top_5_accuracy':0.9342589628681178, 'top_1_accuracy':0.768065781049936} ckpt=train_parallel0/resnet-24_5004.ckpt
  340. ```
  341. # 模型描述
  342. ## 性能
  343. ### 评估性能
  344. #### CIFAR-10上的ResNet18
  345. | 参数 | Ascend 910 |
  346. | -------------------------- | -------------------------------------- |
  347. | 模型版本 | ResNet18 |
  348. | 资源 | Ascend 910;CPU:2.60GHz,192核;内存:755G |
  349. | 上传日期 | 2021-02-25 |
  350. | MindSpore版本 | 1.1.1-alpha |
  351. | 数据集 | CIFAR-10 |
  352. | 训练参数 | epoch=90, steps per epoch=195, batch_size = 32 |
  353. | 优化器 | Momentum |
  354. | 损失函数 | Softmax交叉熵 |
  355. | 输出 | 概率 |
  356. | 损失 | 0.0002519517 |
  357. | 速度 | 13毫秒/步(8卡) |
  358. | 总时长 | 4分钟 |
  359. | 参数(M) | 11.2 |
  360. | 微调检查点 | 86(.ckpt文件) |
  361. | 脚本 | [链接](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet) |
  362. #### ImageNet2012上的ResNet18
  363. | 参数 | Ascend 910 |
  364. | -------------------------- | -------------------------------------- |
  365. | 模型版本 | ResNet18 |
  366. | 资源 | Ascend 910;CPU:2.60GHz,192核;内存:755G |
  367. | 上传日期 | 2020-04-01 ; |
  368. | MindSpore版本 | 1.1.1-alpha |
  369. | 数据集 | ImageNet2012 |
  370. | 训练参数 | epoch=90, steps per epoch=626, batch_size = 256 |
  371. | 优化器 | Momentum |
  372. | 损失函数 | Softmax交叉熵 |
  373. | 输出 | 概率 |
  374. | 损失 | 2.15702 |
  375. | 速度 | 110毫秒/步(8卡) (可能需要在datasetpy中增加set_numa_enbale绑核操作) |
  376. | 总时长 | 110分钟 |
  377. | 参数(M) | 11.7 |
  378. | 微调检查点| 90M(.ckpt文件) |
  379. | 脚本 | [链接](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet) |
  380. #### CIFAR-10上的ResNet50
  381. | 参数 | Ascend 910 | GPU |
  382. | -------------------------- | -------------------------------------- |---------------------------------- |
  383. | 模型版本 | ResNet50-v1.5 |ResNet50-v1.5|
  384. | 资源 | Ascend 910;CPU:2.60GHz,192核;内存:755G | GPU(Tesla V100 SXM2);CPU:2.1GHz,24核;内存:128G
  385. | 上传日期 | 2020-04-01 | 2020-08-01
  386. | MindSpore版本 | 0.1.0-alpha |0.6.0-alpha |
  387. | 数据集 | CIFAR-10 | CIFAR-10
  388. | 训练参数 | epoch=90, steps per epoch=195, batch_size = 32 |epoch=90, steps per epoch=195, batch_size = 32 |
  389. | 优化器 | Momentum |Momentum|
  390. | 损失函数 | Softmax交叉熵 | Softmax交叉熵 |
  391. | 输出 | 概率 | 概率 |
  392. | 损失 | 0.000356 | 0.000716 |
  393. | 速度 | 18.4毫秒/步(8卡) |69毫秒/步(8卡)|
  394. | 总时长 | 6分钟 | 20.2分钟|
  395. | 参数(M) | 25.5 | 25.5 |
  396. | 微调检查点 | 179.7M(.ckpt文件) | 179.7M(.ckpt文件) |
  397. | 脚本 | [链接](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet) | [链接](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet) |
  398. #### ImageNet2012上的ResNet50
  399. | 参数 | Ascend 910 | GPU |
  400. | -------------------------- | -------------------------------------- |---------------------------------- |
  401. | 模型版本 | ResNet50-v1.5 |ResNet50-v1.5|
  402. | 资源 | Ascend 910;CPU:2.60GHz,192核;内存:755G | GPU(Tesla V100 SXM2);CPU:2.1GHz,24核;内存:128G
  403. | 上传日期 | 2020-04-01 ; | 2020-08-01
  404. | MindSpore版本 | 0.1.0-alpha |0.6.0-alpha |
  405. | 数据集 | ImageNet2012 | ImageNet2012|
  406. | 训练参数 | epoch=90, steps per epoch=626, batch_size = 256 |epoch=90, steps per epoch=5004, batch_size = 32 |
  407. | 优化器 | Momentum |Momentum|
  408. | 损失函数 | Softmax交叉熵 | Softmax交叉熵 |
  409. | 输出 | 概率 | 概率 |
  410. | 损失 | 1.8464266 | 1.9023 |
  411. | 速度 | 118毫秒/步(8卡) |67.1毫秒/步(8卡)|
  412. | 总时长 | 114分钟 | 500分钟|
  413. | 参数(M) | 25.5 | 25.5 |
  414. | 微调检查点| 197M(.ckpt文件) | 197M(.ckpt文件) |
  415. | 脚本 | [链接](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet) | [链接](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet) |
  416. #### ImageNet2012上的ResNet101
  417. | 参数 | Ascend 910 | GPU |
  418. | -------------------------- | -------------------------------------- |---------------------------------- |
  419. | 模型版本 | ResNet101 |ResNet101|
  420. | 资源 | Ascend 910;CPU:2.60GHz,192核;内存:755G GPU(Tesla V100 SXM2);CPU:2.1GHz,24核;内存:128G
  421. | 上传日期 | 2020-04-01 ; | 2020-08-01
  422. | MindSpore版本 | 0.1.0-alpha |0.6.0-alpha |
  423. | 数据集 | ImageNet2012 | ImageNet2012|
  424. | 训练参数 | epoch=120, steps per epoch=5004, batch_size = 32 |epoch=120, steps per epoch=5004, batch_size = 32 |
  425. | 优化器 | Momentum |Momentum|
  426. | 损失函数 | Softmax交叉熵 | Softmax交叉熵 |
  427. | 输出 |概率 | 概率 |
  428. | 损失 | 1.6453942 | 1.7023412 |
  429. | 速度 | 30.3毫秒/步(8卡) |108.6毫秒/步(8卡)|
  430. | 总时长 | 301分钟 | 1100分钟|
  431. | 参数(M) | 44.6 | 44.6 |
  432. | 微调检查点| 343M(.ckpt文件) | 343M(.ckpt文件) |
  433. |脚本 | [链接](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet) | [链接](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet) |
  434. #### ImageNet2012上的SE-ResNet50
  435. | 参数 | Ascend 910
  436. | -------------------------- | ------------------------------------------------------------------------ |
  437. | 模型版本 | SE-ResNet50 |
  438. | 资源 | Ascend 910;CPU:2.60GHz,192核;内存:755G |
  439. | 上传日期 | 2020-08-16 ; |
  440. | MindSpore版本 | 0.7.0-alpha |
  441. | 数据集 | ImageNet2012 |
  442. | 训练参数 | epoch=24, steps per epoch=5004, batch_size = 32 |
  443. | 优化器 | Momentum |
  444. | 损失函数 | Softmax交叉熵 |
  445. | 输出 | 概率 |
  446. | 损失 | 1.754404 |
  447. | 速度 | 24.6毫秒/步(8卡) |
  448. | 总时长 | 49.3分钟 |
  449. | 参数(M) | 25.5 |
  450. | 微调检查点 | 215.9M (.ckpt文件) |
  451. |脚本 | [链接](https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet) |
  452. # 随机情况说明
  453. `dataset.py`中设置了“create_dataset”函数内的种子,同时还使用了train.py中的随机种子。
  454. # ModelZoo主页
  455. 请浏览官网[主页](https://gitee.com/mindspore/mindspore/tree/master/model_zoo)。