|
|
|
@@ -1,8 +1,8 @@ |
|
|
|
# 如何在启智平台上进行模型训练 - GCU版本 |
|
|
|
|
|
|
|
- 启智集群单数据集的训练,启智集群多数据集的训练,智算集群的单数据集训练,这3个的训练使用方式不同,请注意区分。数据加载方式、模型定义逻辑大致同[手写数字识别GPU版本_PytorchExample](https://openi.pcl.ac.cn/OpenIOSSG/MNIST_PytorchExample_GPU)项目: |
|
|
|
- 启智集群单数据集的训练,启智集群多数据集的训练,智算集群的单数据集训练,这3个的训练使用方式不同,请注意区分。数据加载方式、模型定义逻辑大致同[手写数字识别GPU版本_PytorchExample](../gpu_mnist_example)项目: |
|
|
|
|
|
|
|
- 智算集群单数据集的训练示例请参考示例中[train_for_c2net.py](https://openi.pcl.ac.cn/OpenIOSSG/MNIST_PytorchExample_GCU/src/branch/master/train_for_c2net.py)的代码注释 |
|
|
|
- 智算集群的训练示例请参考示例中[train.py](./train.py)的代码注释 |
|
|
|
- 智算集群中单/多数据集使用方式: |
|
|
|
|
|
|
|
如本示例中数据集MNISTDataset_torch.zip的使用方式是:数据集位于/tmp/dataset/下 |
|
|
|
@@ -33,11 +33,10 @@ |
|
|
|
|
|
|
|
#### 示例代码 |
|
|
|
|
|
|
|
- 示例代码可从本仓库中下载,[代码下载](https://openi.pcl.ac.cn/OpenIOSSG/MNIST_PytorchExample_GCU) |
|
|
|
- 代码文件说明 |
|
|
|
|
|
|
|
- [train_for_c2net.py](https://openi.pcl.ac.cn/OpenIOSSG/MNIST_PytorchExample_GCU/src/branch/master/train_for_c2net.py),用于智算网络训练的脚本文件。 |
|
|
|
- [model.py](https://openi.pcl.ac.cn/OpenIOSSG/MNIST_PytorchExample_GCU/src/branch/master/model.py),使用的训练网络,在单/多数据集训练,智算网络训练中使用到。 |
|
|
|
- [train.py](./train.py),用于智算网络训练的脚本文件。 |
|
|
|
- [model.py](./model.py),使用的训练网络,在单/多数据集训练,智算网络训练中使用到。 |
|
|
|
|
|
|
|
#### 【重点】GCU-Pytorch代码适配 |
|
|
|
|
|
|
|
@@ -107,13 +106,13 @@ |
|
|
|
|
|
|
|
准备好数据和执行脚本以后,需要创建训练任务将GCU-Pytorch脚本运行。首次使用的用户可参考本示例代码。 |
|
|
|
|
|
|
|
启动脚本选择train_for_c2net.py |
|
|
|
启动脚本选择train.py |
|
|
|
|
|
|
|
## 4 查看运行结果 |
|
|
|
|
|
|
|
### 4.1 在训练作业界面可以查看运行日志 |
|
|
|
|
|
|
|
目前训练任务的日志在代码中print输出,参考示例train_for_c2net.py代码相关print |
|
|
|
目前训练任务的日志在代码中print输出,参考示例train.py代码相关print |
|
|
|
|
|
|
|
### 4.2 训练结束后可以下载模型文件 |
|
|
|
|
|
|
|
|