You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

mindspore.dataset.config.rst 9.3 kB

4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276
  1. mindspore.dataset.config
  2. =========================
  3. config模块能够设置或获取数据处理的全局配置参数。
  4. API示例所需模块的导入代码如下:
  5. .. code-block::
  6. import mindspore.dataset as ds
  7. .. py:function:: mindspore.dataset.config.get_auto_num_workers()
  8. 获取当前是否开启自动线程调整。
  9. **返回:**
  10. bool,表示是否开启自动线程调整。
  11. .. py:function:: mindspore.dataset.config.get_callback_timeout()
  12. 获取DSWaitedCallback的默认超时时间。
  13. 如果出现死锁,等待的函数将在超时时间结束后退出。
  14. **返回:**
  15. int,表示在出现死锁情况下,用于结束DSWaitedCallback中的等待函数的超时时间(秒)。
  16. .. py:function:: mindspore.dataset.config.get_enable_shared_mem()
  17. 获取当前是否开启共享内存。
  18. .. note::
  19. Windows和MacOS平台尚不支持 `get_enable_shared_mem` 。
  20. **返回:**
  21. bool,表示是否启用共享内存。
  22. .. py:function:: mindspore.dataset.config.get_monitor_sampling_interval()
  23. 获取性能监控采样时间间隔的全局配置。
  24. **返回:**
  25. int,表示性能监控采样间隔时间(毫秒)。
  26. .. py:function:: mindspore.dataset.config.get_numa_enable()
  27. 获取NUMA的启动状态。
  28. 该状态将用于所有进程。
  29. **返回:**
  30. bool,表示NUMA的启动状态。
  31. .. py:function:: mindspore.dataset.config.get_num_parallel_workers()
  32. 获取并行工作线程数量的全局配置。
  33. 这是并行工作线程数量的值,用于每个操作。
  34. **返回:**
  35. int,表示每个操作中默认的并行工作进程的数量。
  36. .. py:function:: mindspore.dataset.config.get_prefetch_size()
  37. 获取数据处理管道的输出缓存队列长度。
  38. **返回:**
  39. int,表示预取的总行数。
  40. .. py:function:: mindspore.dataset.config.get_seed()
  41. 获取随机数的种子。如果随机数的种子已设置,则返回设置的值,否则将返回std::mt19937::default_seed这个默认种子值。
  42. **返回:**
  43. int,表示种子的随机数量。
  44. .. py:function:: mindspore.dataset.config.load(file)
  45. 从文件格式中加载项目配置。
  46. **参数:**
  47. - **file** (str) - 表示待加载的配置文件的路径。
  48. **异常:**
  49. - **RuntimeError** - 文件无效,解析失败。
  50. .. py:function:: mindspore.dataset.config.set_auto_num_workers(enable)
  51. 自动为每个数据集操作设置并行线程数量(默认情况下,此功能关闭)。
  52. 如果启用该功能,将自动调整每个数据集操作中的并行线程数量,这可能会覆盖用户传入的并行线程数量或通过ds.config.set_num_parallel_workers()设置的默认值(如果用户未传递任何内容)。
  53. 目前,此函数仅针对具有per_batch_map(batch中的运行映射)的YOLOv3数据集进行了优化。
  54. 此功能旨在为每个操作的优化线程数量分配提供基线。
  55. 并行线程数有所调整的数据集操作将会被记录。
  56. **参数:**
  57. - **enable** (bool) - 表示是否启用自动设置线程数量的特性。
  58. **异常:**
  59. - **TypeError** - enable不是布尔类型。
  60. .. py:function:: mindspore.dataset.config.set_callback_timeout(timeout)
  61. 为DSWaitedCallback设置的默认超时时间(秒)。
  62. 如果出现死锁,等待函数将在超时时间结束后退出。
  63. **参数:**
  64. - **timeout** (int) - 表示在出现死锁情况下,用于结束DSWaitedCallback中等待的超时时间(秒)。
  65. **异常:**
  66. - **ValueError** - `timeout` 小于等于0或 `timeout` 大于MAX_INT_32时 `timeout` 无效。
  67. .. py:function:: mindspore.dataset.config.set_enable_shared_mem(enable)
  68. 设置共享内存标志的是否启用。如果 `shared_mem_enable` 为True,则使用共享内存队列将数据传递给为数据集操作而创建的进程,而这些数据集操作将设置 `python_multiprocessing` 为True。
  69. .. note::
  70. Windows和MacOS平台尚不支持 `set_enable_shared_mem` 。
  71. **参数:**
  72. - **enable** (bool) - 表示当 `python_multiprocessing` 为True时,是否在数据集操作中使用共享内存。
  73. **异常:**
  74. - **TypeError** - `enable` 不是布尔数据类型。
  75. .. py:function:: mindspore.dataset.config.set_monitor_sampling_interval(interval)
  76. 设置监测采样的默认间隔时间(毫秒)。
  77. **参数:**
  78. - **interval** (int) - 表示用于性能监测采样的间隔时间(毫秒)。
  79. **异常:**
  80. - **ValueError** - `interval` 小于等于0或 `interval` 大于MAX_INT_32时, `interval` 无效。
  81. .. py:function:: mindspore.dataset.config.set_numa_enable(numa_enable)
  82. 设置NUMA的默认状态为启动状态。如果 `numa_enable` 为True,则需要确保安装了NUMA库。
  83. **参数:**
  84. - **numa_enable** (bool) - 表示是否使用NUMA绑定功能。
  85. **异常:**
  86. - **TypeError** - `numa_enable` 不是布尔数据类型。
  87. .. py:function:: mindspore.dataset.config.set_num_parallel_workers(num)
  88. 为并行工作线程数量设置新的全局配置默认值。
  89. 此设置会影响所有数据集操作的并行性。
  90. **参数:**
  91. - **num** (int) - 表示并行工作线程的数量,用作为每个操作的默认值。
  92. **异常:**
  93. - **ValueError** - `num` 小于等于0或 `num` 大于MAX_INT_32时,并行工作线程数量设置无效。
  94. .. py:function:: mindspore.dataset.config.set_prefetch_size(size)
  95. 设置管道中线程的队列容量。
  96. **参数:**
  97. - **size** (int) - 表示缓存队列的长度。
  98. **异常:**
  99. - **ValueError** - 当 `size` 小于等于0或 `size` 大于 `MAX_INT_32` 时,线程的队列容量无效。
  100. .. note::
  101. 用于预取的总内存可能会随着工作线程数量的增加而快速增长,所以当工作线程数量大于4时,每个工作线程的预取大小将减少。
  102. 每个工作线程在运行时预取大小将是 `prefetchsize` * (4 / `num_parallel_workers` )。
  103. .. py:function:: mindspore.dataset.config.set_seed(seed)
  104. 如果设置了种子,生成的随机数将被固定,这有助于产生确定性结果。
  105. .. note::
  106. 此函数在Python随机库和numpy.random库中设置种子,以便随机进行确定性Python增强。此函数应与创建的每个迭代器一起调用,以重置随机种子。在管道中,这并不保证 `num_parallel_workers` 大于1。
  107. **参数:**
  108. - **seed** (int) - 表示随机数量的种子。该参数用于生成确定性随机数。
  109. **异常:**
  110. - **ValueError** - `seed` 小于0或 `seed` 大于MAX_UINT_32时, `seed` 无效。
  111. .. py:function:: mindspore.dataset.config.set_sending_batches(batch_num)
  112. 在昇腾设备中使用sink_mode=True进行训练时,设置默认的发送批次。
  113. **参数:**
  114. - **batch_num** (int) - 表示总的发送批次。当设置了 `batch_num` 时,它将会等待,除非增加发送批次。默认值为0,表示将发送数据集中的所有批次。
  115. **异常:**
  116. - **TypeError** - `batch_num` 不是int类型。
  117. .. py:function:: mindspore.dataset.config.set_enable_autotune(enable, json_filepath=None)
  118. 设置是否开启自动数据加速。
  119. 自动数据加速用于在训练过程中根据环境资源的负载,自动调整数据处理管道全局配置,提高数据处理的速度。
  120. 可以通过设置 `json_filepath` 将优化后的全局配置保存为JSON文件,以便后续复用。
  121. **参数:**
  122. - **enable** (bool) - 是否开启自动数据加速。
  123. - **json_filepath** (str,可选) - 优化后的全局配置的保存路径,当路径存在同名文件时会自动覆盖。默认值:None,表示不保存配置文件。
  124. **异常:**
  125. - **TypeError** - 当 `enable` 的类型不为布尔型。
  126. - **TypeError** - 当 `json_filepath` 的类型不为字符串。
  127. - **RuntimeError** - 当 `json_filepath` 为空字符串。
  128. - **RuntimeError** - 当 `json_filepath` 为目录。
  129. - **RuntimeError** - 当 `json_filepath` 路径不存在。
  130. - **RuntimeError** - 当 `json_filepath` 没有写入权限。
  131. .. note:: 当 `enable` 为 False 时,`json_filepath` 值将会被忽略。
  132. .. py:function:: mindspore.dataset.config.get_enable_autotune()
  133. 获取当前是否开启自动数据加速。
  134. **返回:**
  135. bool,表示是否开启自动数据加速。
  136. .. py:function:: mindspore.dataset.config.set_autotune_interval(interval)
  137. 设置自动数据加速的配置调整step间隔。
  138. 默认设置为0,将在每个epoch结束后调整配置;否则,将每隔 `interval` 个step调整一次配置。
  139. **参数:**
  140. - **interval** (int) - 配置调整的step间隔。
  141. **异常:**
  142. - **TypeError** - 当 `interval` 类型不为整型。
  143. - **ValueError** - 当 `interval` 不为非负数。
  144. .. py:function:: mindspore.dataset.config.get_autotune_interval()
  145. 获取当前自动数据加速的配置调整step间隔。
  146. **返回:**
  147. int,自动数据加速的配置调整step间隔。
  148. .. automodule:: mindspore.dataset.config
  149. :members: