You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

mindspore.dataset.config.rst 7.2 kB

4 years ago
4 years ago
4 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233
  1. mindspore.dataset.config
  2. =========================
  3. config模块能够设置或获取数据处理的全局配置参数。
  4. API示例所需模块的导入代码如下:
  5. .. code-block::
  6. import mindspore.dataset as ds
  7. .. py:function:: mindspore.dataset.config.get_auto_num_workers()
  8. 获取当前是否开启自动线程调整。
  9. **返回:**
  10. bool,表示是否开启自动线程调整。
  11. .. py:function:: mindspore.dataset.config.get_callback_timeout()
  12. 获取DSWaitedCallback的默认超时时间。
  13. 如果出现死锁,等待的函数将在超时时间结束后退出。
  14. **返回:**
  15. int,表示在出现死锁情况下,用于结束DSWaitedCallback中的等待函数的超时时间(秒)。
  16. .. py:function:: mindspore.dataset.config.get_enable_shared_mem()
  17. 获取当前是否开启共享内存。
  18. **返回:**
  19. bool,表示是否启用共享内存。
  20. .. py:function:: mindspore.dataset.config.get_monitor_sampling_interval()
  21. 获取性能监控采样时间间隔的全局配置。
  22. **返回:**
  23. int,表示性能监控采样间隔时间(毫秒)。
  24. .. py:function:: mindspore.dataset.config.get_numa_enable()
  25. 获取NUMA的启动状态。
  26. 该状态将用于所有进程。
  27. **返回:**
  28. bool,表示NUMA的启动状态。
  29. .. py:function:: mindspore.dataset.config.get_num_parallel_workers()
  30. 获取并行工作线程数量的全局配置。
  31. 这是并行工作线程数量的值,用于每个操作。
  32. **返回:**
  33. int,表示每个操作中默认的并行工作进程的数量。
  34. .. py:function:: mindspore.dataset.config.get_prefetch_size()
  35. 获取数据处理管道的输出缓存队列长度。
  36. **返回:**
  37. int,表示预取的总行数。
  38. .. py:function:: mindspore.dataset.config.get_seed()
  39. 获取随机数的种子。如果随机数的种子已设置,则返回设置的值,否则将返回std::mt19937::default_seed这个默认种子值。
  40. **返回:**
  41. int,表示种子的随机数量。
  42. .. py:function:: mindspore.dataset.config.load(file)
  43. 从文件格式中加载项目配置。
  44. **参数:**
  45. - **file** (str) - 表示待加载的配置文件的路径。
  46. **异常:**
  47. - **RuntimeError** - 文件无效,解析失败。
  48. .. py:function:: mindspore.dataset.config.set_auto_num_workers(enable)
  49. 自动为每个数据集操作设置并行线程数量(默认情况下,此功能关闭)。
  50. 如果启用该功能,将自动调整每个数据集操作中的并行线程数量,这可能会覆盖用户传入的并行线程数量或通过ds.config.set_num_parallel_workers()设置的默认值(如果用户未传递任何内容)。
  51. 目前,此函数仅针对具有per_batch_map(batch中的运行映射)的YOLOv3数据集进行了优化。
  52. 此功能旨在为每个操作的优化线程数量分配提供基线。
  53. 并行线程数有所调整的数据集操作将会被记录。
  54. **参数:**
  55. - **enable** (bool) - 表示是否启用自动设置线程数量的特性。
  56. **异常:**
  57. - **TypeError** - enable不是布尔类型。
  58. .. py:function:: mindspore.dataset.config.set_callback_timeout(timeout)
  59. 为DSWaitedCallback设置的默认超时时间(秒)。
  60. 如果出现死锁,等待函数将在超时时间结束后退出。
  61. **参数:**
  62. - **timeout** (int) - 表示在出现死锁情况下,用于结束DSWaitedCallback中等待的超时时间(秒)。
  63. **异常:**
  64. - **ValueError** - `timeout` 小于等于0或 `timeout` 大于MAX_INT_32时 `timeout` 无效。
  65. .. py:function:: mindspore.dataset.config.set_enable_shared_mem(enable)
  66. 设置共享内存标志的是否启用。如果 `shared_mem_enable` 为True,则使用共享内存队列将数据传递给为数据集操作而创建的进程,而这些数据集操作将设置`python_multiprocessing`为True。
  67. **参数:**
  68. - **enable** (bool) - 表示当 `python_multiprocessing` 为True时,是否在数据集操作中使用共享内存。
  69. **异常:**
  70. - **TypeError** - `enable` 不是布尔数据类型。
  71. .. py:function:: mindspore.dataset.config.set_monitor_sampling_interval(interval)
  72. 设置监测采样的默认间隔时间(毫秒)。
  73. **参数:**
  74. - **interval** (int) - 表示用于性能监测采样的间隔时间(毫秒)。
  75. **异常:**
  76. - **ValueError** - `interval` 小于等于0或 `interval` 大于MAX_INT_32时, `interval` 无效。
  77. .. py:function:: mindspore.dataset.config.set_numa_enable(numa_enable)
  78. 设置NUMA的默认状态为启动状态。如果`numa_enable`为True,则需要确保安装了NUMA库。
  79. **参数:**
  80. - **numa_enable** (bool) - 表示是否使用NUMA绑定功能。
  81. **异常:**
  82. - **TypeError** - `numa_enable` 不是布尔数据类型。
  83. .. py:function:: mindspore.dataset.config.set_num_parallel_workers(num)
  84. 为并行工作线程数量设置新的全局配置默认值。
  85. 此设置会影响所有数据集操作的并行性。
  86. **参数:**
  87. - **num** (int) - 表示并行工作线程的数量,用作为每个操作的默认值。
  88. **异常:**
  89. - **ValueError** - `num` 小于等于0或 `num` 大于MAX_INT_32时,并行工作线程数量设置无效。
  90. .. py:function:: mindspore.dataset.config.set_prefetch_size(size)
  91. 设置管道中线程的队列容量。
  92. **参数:**
  93. - **size** (int) - 表示缓存队列的长度。
  94. **异常:**
  95. - **ValueError** - 当`size`小于等于0或`size`大于`MAX_INT_32`时,线程的队列容量无效。
  96. .. note::
  97. 用于预取的总内存可能会随着工作线程数量的增加而快速增长,所以当工作线程数量大于4时,每个工作线程的预取大小将减少。
  98. 每个工作线程在运行时预取大小将是`prefetchsize` * (4 / `num_parallel_workers`)。
  99. .. py:function:: mindspore.dataset.config.set_seed(seed)
  100. 如果设置了种子,生成的随机数将被固定,这有助于产生确定性结果。
  101. .. note::
  102. 此函数在Python随机库和numpy.random库中设置种子,以便随机进行确定性Python增强。此函数应与创建的每个迭代器一起调用,以重置随机种子。在管道中,这并不保证`num_parallel_workers`大于1。
  103. **参数:**
  104. - **seed** (int) - 表示随机数量的种子。该参数用于生成确定性随机数。
  105. **异常:**
  106. - **ValueError** - `seed` 小于0或 `seed` 大于MAX_UINT_32时,`seed` 无效。
  107. .. py:function:: mindspore.dataset.config.set_sending_batches(batch_num)
  108. 在昇腾设备中使用sink_mode=True进行训练时,设置默认的发送批次。
  109. **参数:**
  110. - **batch_num** (int) - 表示总的发送批次。当设置了`batch_num`时,它将会等待,除非增加发送批次。默认值为0,表示将发送数据集中的所有批次。
  111. **异常:**
  112. - **TypeError** - `batch_num` 不是int类型。
  113. .. automodule:: mindspore.dataset.config
  114. :members: