You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

mindspore.boost.rst 18 kB

4 years ago
3 years ago
3 years ago
4 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509
  1. mindspore.boost
  2. ==============================
  3. Boost能够自动加速网络,如减少BN/梯度冻结/累积梯度等。
  4. 注:此特性为测试版本,我们仍在改进其功能。
  5. .. py:class:: mindspore.boost.AutoBoost(level="O0", boost_config_dict="")
  6. MindSpore自动优化算法库。
  7. **参数:**
  8. - **level** (str) – Boost的配置级别,默认值:"O0"。
  9. - "O0": 不变化。
  10. - "O1": 启用boost模式, 性能将提升约20%, 准确率保持不变。
  11. - "O2": 启用boost模式, 性能将提升约30%, 准确率下降小于3%。
  12. - **boost_config_dict** (dict) – 用户可配置的超参字典,建议的格式如下:
  13. .. code-block::
  14. {
  15. "boost": {
  16. "mode": "auto",
  17. "less_bn": False,
  18. "grad_freeze": False,
  19. "adasum": False,
  20. "grad_accumulation": False,
  21. "dim_reduce": False},
  22. "common": {
  23. "gradient_split_groups": [50, 100],
  24. "device_number": 8},
  25. "less_bn": {
  26. "fn_flag": True,
  27. "gc_flag": True},
  28. "grad_freeze": {
  29. "param_groups": 10,
  30. "freeze_type": 1,
  31. "freeze_p": 0.7,
  32. "total_steps": 65536},
  33. "grad_accumulation": {
  34. "grad_accumulation_step": 1},
  35. "dim_reduce": {
  36. "rho": 0.55,
  37. "gamma": 0.9,
  38. "alpha": 0.001,
  39. "sigma": 0.4,
  40. "n_components": 32,
  41. "pca_mat_path": None,
  42. "weight_load_dir": None,
  43. "timeout": 1800}
  44. }
  45. - boost:
  46. - mode (str): Boost配置模式,支持 ["auto", "manual", "enable_all", "disable_all"]。默认值: "auto"。
  47. - auto: 自动配置,取决于Model类中的 `boost_level` 参数配置。
  48. - manual: 在 `boost_config_dict` 中人工配置。
  49. - enable_all: 开启所有boost算法。
  50. - disable_all: 关闭所有boost算法。
  51. - less_bn (bool): 是否开启LessBN算法,默认:False
  52. - grad_freeze (bool): 是否开启梯度冻结算法,默认:False。
  53. - adasum (bool): 是否开启自适应求和算法,默认:False。
  54. - grad_accumulation (bool): 是否开启梯度累加算法,默认:False。
  55. - dim_reduce (bool): 是否开启降维训练算法,默认:False。
  56. 如果开启dim_reduce算法,其他算法会失效。
  57. 如果开启grad_freeze算法,同时关闭dim_reduce,其他算法会失效。
  58. - common:
  59. - gradient_split_groups (list): 网络的梯度分割点,默认: [50, 100]。
  60. - device_number (int): 设备数,默认: 8。
  61. - less_bn:
  62. - fn_flag (bool): 是否采用fn替换fc,默认: 替换。
  63. - gc_flag (bool): 是否启用gc,默认: 启用gc。
  64. - grad_freeze:
  65. - param_groups (int): 参数分组数量,默认值: 10。
  66. - freeze_type (int): 梯度冻结策略,参数选择[0, 1],默认值: 1。
  67. - freeze_p (float): 梯度冻结概率,默认值: 0.7。
  68. - total_steps (int): 总训练步数,默认值: 65536。
  69. - grad_accumulation:
  70. - grad_accumulation_step (int): 累加梯度的步数,默认值: 1。
  71. - dim_reduce:
  72. dim_reduce主要原理:
  73. .. math::
  74. \begin{align}
  75. grad\_k &= pca\_mat \cdot grad\\
  76. dk &= - bk \cdot grad\_k\\
  77. sk &= rho ^ m \cdot dk\\
  78. delta\_loss &= sigma \cdot grad\_k.T \cdot sk
  79. \end{align}
  80. 其中:
  81. - pca_mat (array): 维度(k*n),k是 *n_components* 的大小,n是权重的大小。
  82. - bk (array): 维度(k*k),bk是拟牛顿法中的对称正定矩阵。
  83. 我们需要找到满足以下条件的m:
  84. .. math::
  85. new\_loss < old\_loss + delta\_loss
  86. 然后使用 *delta_grad* 去更新模型的权重:
  87. .. math::
  88. \begin{align}
  89. grad\_k\_proj &= pca\_mat.T \cdot grad\_k\\
  90. new\_grad\_momentum &= gamma \cdot old\_grad\_momentum + grad - grad\_k\_proj\\
  91. delta\_grad &= alpha \cdot new\_grad\_momentum - pca\_mat.T \cdot sk
  92. \end{align}
  93. - rho (float): 超参,一般无需调整,默认值: 0.55。
  94. - gamma (float): 超参,一般无需调整,默认值: 0.9。
  95. - alpha (float): 超参,一般无需调整,默认值: 0.001。
  96. - sigma (float): 超参,一般无需调整,默认值: 0.4。
  97. - n_components (int): PCA后的维度,默认值: 32。
  98. - pca_mat_path (str): PCA矩阵的加载路径,使用绝对路径,默认值: None。
  99. - weight_load_dir (str): 以checkpoint形式保存的权重加载路径,用于计算PCA矩阵,默认值: None。
  100. - timeout (int): 加载PCA矩阵的最长等待时间,默认值: 1800(s)。
  101. 用户可以通过加载JSON文件或者直接使用字典来配置 *boost_config_dict*。
  102. 未配置的参数会使用默认值。
  103. **异常:**
  104. - **ValueError** – Boost的模式不在["auto", "manual", "enable_all", "disable_all"]这个列表中。
  105. .. py:method:: network_auto_process_eval(network)
  106. 使用Boost算法推理。
  107. **参数:**
  108. **network** (Cell) - 推理网络。
  109. .. py:method:: network_auto_process_train(network, optimizer)
  110. 使用Boost算法训练。
  111. **参数:**
  112. - **network** (Cell) - 训练网络。
  113. - **optimizer** (Union[Cell]) - 用于更新权重的优化器。
  114. .. py:class:: mindspore.boost.OptimizerProcess(opt)
  115. 处理Boost的优化器,目前支持给优化器添加梯度中心化和创建新的优化器。
  116. **参数:**
  117. - **opt** (Cell) – 使用的优化器。
  118. .. py:method:: add_grad_centralization(network)
  119. 添加梯度中心化。
  120. **参数:**
  121. - **network** (Cell) – 训练网络。
  122. .. py:method:: build_gc_params_group(params_dict, parameters)
  123. 构建梯度中心化的分组权重。
  124. **参数:**
  125. - **params_dict** (dict) – 训练权重的字典。
  126. - **parameters** (list) – 训练权重的列表。
  127. .. py:method:: build_params_dict(network)
  128. 构建网络权重的字典。
  129. **参数:**
  130. - **network** (Cell) – 训练网络。
  131. .. py:method:: generate_new_optimizer()
  132. 生成新的优化器。
  133. .. py:class:: mindspore.boost.ParameterProcess()
  134. 处理Boost网络的权重。当前支持创建分组参数和自动设置网络梯度切分点。
  135. .. py:method:: assign_parameter_group(parameters, split_point=None)
  136. 设置分组权重。
  137. **参数:**
  138. - **parameters** (list) – 训练网络的权重。
  139. - **split_point** (list) – 网络梯度切分点。默认为None。
  140. .. py:method:: generate_group_params(parameters, origin_params)
  141. 创建分组权重。
  142. **参数:**
  143. - **parameters** (list) – 训练网络的新权重。
  144. - **origin_params** (list) – 训练网络的初始权重。
  145. .. py:class:: mindspore.boost.BoostTrainOneStepCell(network, optimizer, sens=1.0)
  146. Boost网络训练封装类。
  147. 用优化器封装网络,使用输入训练网络来获取结果。反向图在 *construct* 函数中自动创建,并且支持多种不同的并行模式。
  148. **参数:**
  149. - **network** (Cell) – 训练网络,当前网络只支持单个输出。
  150. - **optimizer** (Union[Cell]) – 用于更新网络参数的优化器。
  151. - **sens** (numbers.Number) – 作为反向传播输入要填充的缩放数,默认值为1.0。
  152. **输入:**
  153. - **(*inputs)** (Tuple(Tensor)) – 网络的所有输入组成的元组。
  154. **输出:**
  155. Tuple,包含三个Tensor,分别为损失函数值、溢出状态和当前损失缩放系数。
  156. - loss(Tensor),标量Tensor。
  157. - overflow(Tensor),标量Tensor,类型为bool。
  158. - loss scaling value(Tensor),标量Tensor。
  159. **异常:**
  160. - **TypeError** – 如果 `sens` 不是一个数字。
  161. .. py:method:: adasum_process(loss, grads)
  162. 使用Adasum算法训练。
  163. **参数:**
  164. - **loss** (Tensor) – 网络训练的loss值。
  165. - **grads** (Tuple(Tensor)) – 网络训练过程中的梯度。
  166. **返回:**
  167. Tensor,网络训练过程中得到的loss值。
  168. .. py:method:: check_adasum_enable()
  169. Adasum算法仅在多卡或者多机场景生效,并且要求卡数符合2的n次方,该函数用来判断adasum算法能否生效。
  170. **返回:**
  171. enable_adasum (bool),Adasum算法是否生效。
  172. .. py:method:: check_dim_reduce_enable()
  173. 获取当前是否使用降维二阶训练算法训练。
  174. **返回:**
  175. enable_dim_reduce (bool),降维二阶训练算法是否生效。
  176. .. py:method:: gradient_accumulation_process(loss, grads, sens, *inputs)
  177. 使用梯度累积算法训练。
  178. **参数:**
  179. - **loss** (Tensor) – 网络训练的loss值。
  180. - **grads** (Tuple(Tensor)) – 网络训练过程中的梯度。
  181. - **sens** (Tensor) – 作为反向传播输入要填充的缩放数。
  182. - **inputs** (Tuple(Tensor)) – 网络训练的输入。
  183. **返回:**
  184. Tensor,网络训练过程中得到的loss值。
  185. .. py:method:: gradient_freeze_process(*inputs)
  186. 使用梯度冻结算法训练。
  187. **参数:**
  188. - **inputs** (Tuple(Tensor)) – 网络训练的输入。
  189. **返回:**
  190. Tensor,网络训练过程中得到的loss值。
  191. .. py:class:: mindspore.boost.BoostTrainOneStepWithLossScaleCell(network, optimizer, scale_sense)
  192. 使用混合精度功能的Boost训练网络。
  193. 实现了包含损失缩放(loss scale)的单次训练。它使用网络、优化器和用于更新损失缩放系数(loss scale)的Cell(或一个Tensor)作为参数。可在host侧或device侧更新损失缩放系数。
  194. 如果需要在host侧更新,使用Tensor作为 `scale_sense` ,否则,使用可更新损失缩放系数的Cell实例作为 `scale_sense` 。
  195. **参数:**
  196. - **network** (Cell) – 训练网络,当前网络只支持单个输出。
  197. - **optimizer** (Union[Cell]) – 用于更新网络参数的优化器。
  198. - **scale_sense** (Union[Tensor, Cell]) - 如果此值为Cell类型,`BoostTrainOneStepWithLossScaleCell` 会调用它来更新损失缩放系数。如果此值为Tensor类型,可调用 `set_sense_scale` 来更新损失缩放系数,shape为 :math:`()` 或 :math:`(1,)` 。
  199. **输入:**
  200. - **(*inputs)** (Tuple(Tensor)) - 网络的所有输入组成的元组。
  201. **输出:**
  202. Tuple,包含三个Tensor,分别为损失函数值、溢出状态和当前损失缩放系数。
  203. - loss(Tensor),标量Tensor。
  204. - overflow(Tensor),标量Tensor,类型为bool。
  205. - loss scaling value(Tensor),标量Tensor。
  206. **异常:**
  207. - **TypeError** - `scale_sense` 既不是Cell,也不是Tensor。
  208. - **ValueError** - `scale_sense` 的shape既不是(1,)也不是()。
  209. .. py:class:: mindspore.boost.LessBN(network, fn_flag=False)
  210. LessBN算法,可以在不损失网络精度的前提下,自动减少网络中批归一化(Batch Normalization)的数量,来提升网络性能。
  211. **参数:**
  212. - **network** (Cell) – 待训练的网络模型。
  213. - **fn_flag** (bool) – 是否将网络中最后一个全连接层替换为全归一化层。默认值:False。
  214. .. py:class:: mindspore.boost.GradientFreeze(param_groups, freeze_type, freeze_p, total_steps)
  215. 梯度冻结算法,根据指定策略随机冻结某些层的梯度,来提升网络训练性能。
  216. 冻结的层数和冻结的概率均可由用户配置。
  217. **参数:**
  218. - **param_groups** (Union[tuple, list]) – 梯度冻结训练的权重。
  219. - **freeze_type** (int) – 梯度冻结训练的策略。
  220. - **freeze_p** (float) – 梯度冻结训练的概率。
  221. - **total_steps** (int) – 整个训练过程的总的步数。
  222. .. py:method:: freeze_generate(network, optimizer)
  223. 生成梯度冻结的网络与优化器。
  224. **参数:**
  225. - **network** (Cell) – 训练网络。
  226. - **optimizer** (Union[Cell]) – 用于更新权重的优化器。
  227. .. py:method:: generate_freeze_index_sequence(parameter_groups_number, freeze_strategy, freeze_p, total_steps)
  228. 生成梯度冻结每一步需要冻结的层数。
  229. **参数:**
  230. - **parameter_groups_number** (numbers.Number) – 梯度冻结训练的权重个数。
  231. - **freeze_strategy** (int) – 梯度冻结训练的策略。
  232. - **freeze_p** (float) – 梯度冻结训练的概率。
  233. - **total_steps** (numbers.Number) – 整个训练过程的总的步数。
  234. .. py:method:: split_parameters_groups(net, freeze_para_groups_number)
  235. 拆分用于梯度冻结训练的权重。
  236. **参数:**
  237. - **net** (Cell) – 训练网络。
  238. - **freeze_para_groups_number** (int) – 梯度冻结训练的权重个数。
  239. .. py:class:: mindspore.boost.FreezeOpt(opt, train_parameter_groups=None, train_strategy=None)
  240. 支持梯度冻结训练的优化器。
  241. **参数:**
  242. - **opt** (Cell) – 非冻结优化器实例,如 *Momentum*,*SGD*。
  243. - **train_parameter_groups** (Union[tuple, list]) – 梯度冻结训练的权重。
  244. - **train_strategy** (Union[tuple(int), list(int), Tensor]) – 梯度冻结训练的策略。
  245. .. py:function:: mindspore.boost.freeze_cell(reducer_flag, network, optimizer, sens, grad, use_grad_accumulation, mean=None, degree=None, max_accumulation_step=1)
  246. 提供带梯度冻结的网络Cell。
  247. **参数:**
  248. - **reducer_flag** (bool): 是否分布式训练。
  249. - **network** (Cell): 训练网络。
  250. - **optimizer** (Cell): 优化器。
  251. - **sens** (numbers.Number): 损失缩放系数。
  252. - **grad** (tuple(Tensor)): 网络梯度。
  253. - **use_grad_accumulation** (bool): 是否使用梯度累积。
  254. - **mean** (bool): 可选参数,梯度是否求平均,仅分布式训练时生效。默认值为None。
  255. - **degree** (int): 可选参数,device卡数,仅分布式训练时生效。默认值为None。
  256. - **max_accumulation_step** (int): 可选参数,梯度累积步数。默认值为1。
  257. .. py:class:: mindspore.boost.GradientAccumulation(max_accumulation_step, optimizer)
  258. 梯度累积算法,在累积多个step的梯度之后,再用来更新网络权重,可以提高训练效率。
  259. **参数:**
  260. - **max_accumulation_step** (int) – 累积梯度的步数。
  261. - **optimizer** (Cell) – 网络训练使用的优化器。
  262. .. py:class:: mindspore.boost.AdaSum(rank, device_number, group_number, parameter_tuple)
  263. Adaptive Summation(AdaSum)是一种优化深度学习模型并行训练的算法,它可以提升不同规模集群训练的精度,减小不同规模集群调参难度。
  264. **参数:**
  265. - **rank** (int) – 总的训练的卡数。
  266. - **device_number** (int) – 单机的卡数。
  267. - **group_number** (int) – 分组的数量。
  268. - **parameter_tuple** (Tuple(Parameter)) – 网络训练权重组成的元组。
  269. **输入:**
  270. - **delta_weights** (Tuple(Tensor)) – 梯度tuple。
  271. - **parameters** (Tuple(Parameter)) – 当前权重组成的元组。
  272. - **old_parameters** (Tuple(Parameter)) – 旧的权重组成的元组。
  273. **输出:**
  274. - **adasum_parameters** (Tuple(Tensor)) - adasum处理后更新的权重。
  275. .. py:class:: mindspore.boost.DimReduce(network, optimizer, weight, pca_mat_local, n_components, rho, gamma, alpha, sigma, rank, rank_size)
  276. 降维训练(dimension reduce training)是一种优化深度学习模型训练的算法,它可以加速模型的收敛。
  277. 算法主要原理:
  278. .. math::
  279. \begin{align}
  280. grad\_k &= pca\_mat \cdot grad\\
  281. dk &= - bk \cdot grad\_k\\
  282. sk &= rho ^ m \cdot dk\\
  283. delta\_loss &= sigma \cdot grad\_k.T \cdot sk
  284. \end{align}
  285. 其中:
  286. - pca_mat (array): PCA矩阵,维度(k*n),k是 `n_components` 的大小,n是权重的大小。
  287. - bk (array): 维度(k*k),bk是拟牛顿法中的对称正定矩阵。
  288. 我们需要找到满足以下条件的m:
  289. .. math::
  290. new\_loss < old\_loss + delta\_loss
  291. 然后使用delta_grad去更新模型的权重:
  292. .. math::
  293. \begin{align}
  294. grad\_k\_proj &= pca\_mat.T \cdot grad\_k\\
  295. new\_grad\_momentum &= gamma \cdot old\_grad\_momentum + grad - grad\_k\_proj\\
  296. delta\_grad &= alpha \cdot new\_grad\_momentum - pca\_mat.T \cdot sk
  297. \end{align}
  298. **参数:**
  299. - **network** (Cell) - 训练网络,只支持单输出。
  300. - **optimizer** (Union[Cell]) - 更新权重的优化器。
  301. - **weight** (Tuple(Parameter)) - 网络权重组成的元组。
  302. - **pca_mat_local** (numpy.ndarray) - 用于PCA操作的,经过切分的PCA转换矩阵,维度为k*n,k是切分的 `n_components` 的大小,n是权重的大小。
  303. - **n_components** (int) - PCA的主成分维度(components)。
  304. - **rho** (float) - 超参。
  305. - **gamma** (float) - 超参。
  306. - **alpha** (float) - 超参。
  307. - **sigma** (float) - 超参。
  308. - **rank** (int) - Rank编号。
  309. - **rank_size** (int) - Rank总数。
  310. **输入:**
  311. - **loss** (Tensor) - 网络loss,标量Tensor。
  312. - **old_grad** (Tuple(Tensor)) - 网络权重提取组成的元组。
  313. - **weight** (Tuple(Tensor)) - 网络权重组成的元组。
  314. - **weight_clone** (Tuple(Tensor)) - 网络权重的副本。
  315. - **(\*inputs)** (Tuple(Tensor)) - 网络的所有输入组成的元组。
  316. **输出:**
  317. - **loss** (Tensor) - 网络loss,标量Tensor。
  318. .. automodule:: mindspore.boost
  319. :members: