| @@ -1,204 +0,0 @@ | |||
| mindspore.dataset.config | |||
| ========================= | |||
| config模块能够设置或获取数据处理的全局配置参数。 | |||
| API示例所需模块的导入代码如下: | |||
| .. code-block:: | |||
| import mindspore.dataset as ds | |||
| .. py:method:: get_auto_num_workers() | |||
| 获取当前是否开启自动线程调整。 | |||
| **返回:** | |||
| bool,表示是否开启自动线程调整。 | |||
| .. py:method:: get_callback_timeout() | |||
| 获取DSWaitedCallback的默认超时时间。 | |||
| 如果出现死锁,等待的函数将在超时时间结束后退出。 | |||
| **返回:** | |||
| int,表示在出现死锁情况下,用于结束DSWaitedCallback中的等待函数的超时时间(秒)。 | |||
| .. py:method:: get_enable_shared_mem() | |||
| 获取当前是否开启共享内存。 | |||
| **返回:** | |||
| bool,表示是否启用共享内存。 | |||
| .. py:method:: get_monitor_sampling_interval() | |||
| 获取性能监控采样时间间隔的全局配置。 | |||
| **返回:** | |||
| int,表示性能监控采样间隔时间(毫秒)。 | |||
| .. py:method:: get_numa_enable() | |||
| 获取NUMA的启动状态。 | |||
| 该状态将用于所有进程。 | |||
| **返回:** | |||
| bool,表示NUMA的启动状态。 | |||
| .. py:method:: get_num_parallel_workers() | |||
| 获取并行工作线程数量的全局配置。 | |||
| 这是并行工作线程数量的值,用于每个操作。 | |||
| **返回:** | |||
| int,表示每个操作中默认的并行工作进程的数量。 | |||
| .. py:method:: get_prefetch_size() | |||
| 获取数据处理管道的输出缓存队列长度。 | |||
| **返回:** | |||
| int,表示预取的总行数。 | |||
| .. py:method:: get_seed() | |||
| 获取随机数的种子。如果随机数的种子已设置,则返回设置的值,否则将返回std::mt19937::default_seed这个默认种子值。 | |||
| **返回:** | |||
| int,表示种子的随机数量。 | |||
| .. py:method:: load(file) | |||
| 从文件格式中加载项目配置。 | |||
| **参数:** | |||
| - **file** (str) - 表示待加载的配置文件的路径。 | |||
| **异常:** | |||
| - **RuntimeError** - 文件无效,解析失败。 | |||
| .. py:method:: set_auto_num_workers(enable) | |||
| 自动为每个数据集操作设置并行线程数量(默认情况下,此功能关闭)。 | |||
| 如果启用该功能,将自动调整每个数据集操作中的并行线程数量,这可能会覆盖用户传入的并行线程数量或通过ds.config.set_num_parallel_workers()设置的默认值(如果用户未传递任何内容)。 | |||
| 目前,此函数仅针对具有per_batch_map(batch中的运行映射)的YOLOv3数据集进行了优化。 | |||
| 此功能旨在为每个操作的优化线程数量分配提供基线。 | |||
| 并行线程数有所调整的数据集操作将会被记录。 | |||
| **参数:** | |||
| - **enable** (bool) - 表示是否启用自动设置线程数量的特性。 | |||
| **异常:** | |||
| - **TypeError** - enable不是布尔类型。 | |||
| .. py:method:: set_callback_timeout(timeout) | |||
| 为DSWaitedCallback设置的默认超时时间(秒)。 | |||
| 如果出现死锁,等待函数将在超时时间结束后退出。 | |||
| **参数:** | |||
| - **timeout** (int) - 表示在出现死锁情况下,用于结束DSWaitedCallback中等待的超时时间(秒)。 | |||
| **异常:** | |||
| - **ValueError** - `timeout` 小于等于0或 `timeout` 大于MAX_INT_32时 `timeout` 无效。 | |||
| .. py:method:: set_enable_shared_mem(enable) | |||
| 设置共享内存标志的是否启用。如果 `shared_mem_enable` 为True,则使用共享内存队列将数据传递给为数据集操作而创建的进程,而这些数据集操作将设置`python_multiprocessing`为True。 | |||
| **参数:** | |||
| - **enable** (bool) - 表示当 `python_multiprocessing` 为True时,是否在数据集操作中使用共享内存。 | |||
| **异常:** | |||
| - **TypeError** - `enable` 不是布尔数据类型。 | |||
| .. py:method:: set_monitor_sampling_interval(interval) | |||
| 设置监测采样的默认间隔时间(毫秒)。 | |||
| **参数:** | |||
| - **interval** (int) - 表示用于性能监测采样的间隔时间(毫秒)。 | |||
| **异常:** | |||
| - **ValueError** - `interval` 小于等于0或 `interval` 大于MAX_INT_32时, `interval` 无效。 | |||
| .. py:method:: set_numa_enable(numa_enable) | |||
| 设置NUMA的默认状态为启动状态。如果`numa_enable`为True,则需要确保安装了NUMA库。 | |||
| **参数:** | |||
| - **numa_enable** (bool) - 表示是否使用NUMA绑定功能。 | |||
| **异常:** | |||
| - **TypeError** - `numa_enable` 不是布尔数据类型。 | |||
| .. py:method:: set_num_parallel_workers(num) | |||
| 为并行工作线程数量设置新的全局配置默认值。 | |||
| 此设置会影响所有数据集操作的并行性。 | |||
| **参数:** | |||
| - **num** (int) - 表示并行工作线程的数量,用作为每个操作的默认值。 | |||
| **异常:** | |||
| - **ValueError** - `num` 小于等于0或 `num` 大于MAX_INT_32时,并行工作线程数量设置无效。 | |||
| .. py:method:: set_prefetch_size(size) | |||
| 设置管道中线程的队列容量。 | |||
| **参数:** | |||
| - **size** (int) - 表示缓存队列的长度。 | |||
| **异常:** | |||
| - **ValueError** - 当`size`小于等于0或`size`大于`MAX_INT_32`时,线程的队列容量无效。 | |||
| **注:** | |||
| 用于预取的总内存可能会随着工作线程数量的增加而快速增长,所以当工作线程数量大于4时,每个工作线程的预取大小将减少。 | |||
| 每个工作线程在运行时预取大小将是`prefetchsize` * (4 / `num_parallel_workers`)。 | |||
| .. py:method:: set_seed(seed) | |||
| 如果设置了种子,生成的随机数将被固定,这有助于产生确定性结果。 | |||
| **注:** | |||
| 此函数在Python随机库和numpy.random库中设置种子,以便随机进行确定性Python增强。此函数应与创建的每个迭代器一起调用,以重置随机种子。在管道中,这并不保证`num_parallel_workers`大于1。 | |||
| **参数:** | |||
| - **seed** (int) - 表示随机数量的种子。该参数用于生成确定性随机数。 | |||
| **异常:** | |||
| - **ValueError** - `seed` 小于0或 `seed` 大于MAX_UINT_32时,`seed` 无效。 | |||
| .. py:method:: set_sending_batches(batch_num) | |||
| 在昇腾设备中使用sink_mode=True进行训练时,设置默认的发送批次。 | |||
| **参数:** | |||
| - **batch_num** (int) - 表示总的发送批次。当设置了`batch_num`时,它将会等待,除非增加发送批次。默认值为0,表示将发送数据集中的所有批次。 | |||
| **异常:** | |||
| - **TypeError** - `batch_num` 不是int类型。 | |||
| @@ -1,13 +1,13 @@ | |||
| mindspore.dataset.text.JiebaMode | |||
| ================================= | |||
| .. py::class:: mindspore.dataset.text.JiebaMode(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| :class:`JiebaTokenizer` 的枚举值。 | |||
| 可选的枚举值包括:`JiebaMode.MIX`、`JiebaMode.MP`和`JiebaMode.HMM`。 | |||
| - **JiebaMode.MIX** - 使用最大概率法和隐马尔可夫模型算法混合进行分词。 | |||
| - **JiebaMode.MP** - 使用最大概率法算法进行分词。 | |||
| - **JiebaMode.HMM** - 使用隐马尔可夫模型算法进行分词。 | |||
| mindspore.dataset.text.JiebaMode | |||
| ================================= | |||
| .. py::class:: mindspore.dataset.text.JiebaMode(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| :class:`JiebaTokenizer` 的枚举值。 | |||
| 可选的枚举值包括:`JiebaMode.MIX`、`JiebaMode.MP`和`JiebaMode.HMM`。 | |||
| - **JiebaMode.MIX** - 使用最大概率法和隐马尔可夫模型算法混合进行分词。 | |||
| - **JiebaMode.MP** - 使用最大概率法算法进行分词。 | |||
| - **JiebaMode.HMM** - 使用隐马尔可夫模型算法进行分词。 | |||
| @@ -1,15 +1,15 @@ | |||
| mindspore.dataset.text.NormalizeForm | |||
| ===================================== | |||
| .. py::class:: mindspore.dataset.text.NormalizeForm(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| :class:`NormalizeUTF8` 的枚举值。 | |||
| 可选的枚举值包括:`NormalizeForm.NONE`、`NormalizeForm.NFC`、`NormalizeForm.NFKC`、`NormalizeForm.NFD`和`NormalizeForm.NFKD`。 | |||
| - **NormalizeForm.NONE** - 对输入字符串不做任何处理。 | |||
| - **NormalizeForm.NFC** - 对输入字符串进行C形式规范化。 | |||
| - **NormalizeForm.NFKC** - 对输入字符串进行KC形式规范化。 | |||
| - **NormalizeForm.NFD** - 对输入字符串进行D形式规范化。 | |||
| - **NormalizeForm.NFKD** - 对输入字符串进行KD形式规范化。 | |||
| mindspore.dataset.text.NormalizeForm | |||
| ===================================== | |||
| .. py::class:: mindspore.dataset.text.NormalizeForm(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| :class:`NormalizeUTF8` 的枚举值。 | |||
| 可选的枚举值包括:`NormalizeForm.NONE`、`NormalizeForm.NFC`、`NormalizeForm.NFKC`、`NormalizeForm.NFD`和`NormalizeForm.NFKD`。 | |||
| - **NormalizeForm.NONE** - 对输入字符串不做任何处理。 | |||
| - **NormalizeForm.NFC** - 对输入字符串进行C形式规范化。 | |||
| - **NormalizeForm.NFKC** - 对输入字符串进行KC形式规范化。 | |||
| - **NormalizeForm.NFD** - 对输入字符串进行D形式规范化。 | |||
| - **NormalizeForm.NFKD** - 对输入字符串进行KD形式规范化。 | |||
| @@ -1,12 +1,12 @@ | |||
| mindspore.dataset.text.SPieceTokenizerLoadType | |||
| =============================================== | |||
| .. py:class:: mindspore.dataset.text.SPieceTokenizerLoadType(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| :class:`SentencePieceTokenizer` 加载类型的枚举值。 | |||
| 可选的枚举值包括:SPieceTokenizerLoadType.FILE和SPieceTokenizerLoadTypeMODEL | |||
| - **SPieceTokenizerLoadType.FILE** - 从本地sentencepiece vocab文件中加载sentencepiece分词器。 | |||
| - **SPieceTokenizerLoadType.MODEL** - 从sentencepiece vocab实例中加载sentencepiece分词器。 | |||
| mindspore.dataset.text.SPieceTokenizerLoadType | |||
| =============================================== | |||
| .. py:class:: mindspore.dataset.text.SPieceTokenizerLoadType(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| :class:`SentencePieceTokenizer` 加载类型的枚举值。 | |||
| 可选的枚举值包括:SPieceTokenizerLoadType.FILE和SPieceTokenizerLoadTypeMODEL | |||
| - **SPieceTokenizerLoadType.FILE** - 从本地sentencepiece vocab文件中加载sentencepiece分词器。 | |||
| - **SPieceTokenizerLoadType.MODEL** - 从sentencepiece vocab实例中加载sentencepiece分词器。 | |||
| @@ -1,12 +1,12 @@ | |||
| mindspore.dataset.text.SPieceTokenizerOutType | |||
| ============================================== | |||
| .. py:class:: mindspore.dataset.text.SPieceTokenizerOutType(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| :class:`SentencePieceTokenizer` 输出类型的枚举值。 | |||
| 可选的枚举值包括:SPieceTokenizerOutType.STRING和SPieceTokenizerOutType.INT | |||
| - **SPieceTokenizerOutType.STRING** - 表示SentencePice分词器的输出类型为string。 | |||
| - **SPieceTokenizerOutType.INT** - 表示SentencePice分词器的输出类型为int。 | |||
| mindspore.dataset.text.SPieceTokenizerOutType | |||
| ============================================== | |||
| .. py:class:: mindspore.dataset.text.SPieceTokenizerOutType(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| :class:`SentencePieceTokenizer` 输出类型的枚举值。 | |||
| 可选的枚举值包括:SPieceTokenizerOutType.STRING和SPieceTokenizerOutType.INT | |||
| - **SPieceTokenizerOutType.STRING** - 表示SentencePice分词器的输出类型为string。 | |||
| - **SPieceTokenizerOutType.INT** - 表示SentencePice分词器的输出类型为int。 | |||
| @@ -1,14 +1,14 @@ | |||
| mindspore.dataset.text.SentencePieceModel | |||
| ========================================== | |||
| .. py::class:: mindspore.dataset.text.SentencePieceModel(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| `SentencePiece` 分词方法的枚举类。 | |||
| 可选的枚举值包括:`SentencePieceModel.UNIGRAM`、`SentencePieceModel.BPE`、`SentencePieceModel.CHAR`和`SentencePieceModel.WORD` | |||
| - **SentencePieceModel.UNIGRAM** - Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。 | |||
| - **SentencePieceModel.BPE** - 指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。 | |||
| - **SentencePieceModel.CHAR** - 引用基于字符的SentencePiece模型类型。 | |||
| - **SentencePieceModel.WORD** - 引用基于单词的SentencePiece模型类型。 | |||
| mindspore.dataset.text.SentencePieceModel | |||
| ========================================== | |||
| .. py::class:: mindspore.dataset.text.SentencePieceModel(value, names=None, *, module=None, qualname=None, type=None, start=1) | |||
| `SentencePiece` 分词方法的枚举类。 | |||
| 可选的枚举值包括:`SentencePieceModel.UNIGRAM`、`SentencePieceModel.BPE`、`SentencePieceModel.CHAR`和`SentencePieceModel.WORD` | |||
| - **SentencePieceModel.UNIGRAM** - Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。 | |||
| - **SentencePieceModel.BPE** - 指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。 | |||
| - **SentencePieceModel.CHAR** - 引用基于字符的SentencePiece模型类型。 | |||
| - **SentencePieceModel.WORD** - 引用基于单词的SentencePiece模型类型。 | |||
| @@ -1,64 +1,64 @@ | |||
| mindspore.dataset.text.SentencePieceVocab | |||
| ========================================== | |||
| .. py:class:: mindspore.dataset.text.SentencePieceVocab(cde.SentencePieceVocab) | |||
| 用于执行分词的SentencePiece对象。 | |||
| .. py:method:: from_dataset(dataset, col_names, vocab_size, character_coverage, model_type, params) | |||
| 从数据集构建SentencePiece。 | |||
| **参数:** | |||
| - **dataset** (Dataset) - 表示用于构建SentencePiece对象的数据集。 | |||
| - **col_names** (list) - 表示列名称的列表。 | |||
| - **vocab_size** (int) - 表示词汇大小。 | |||
| - **character_coverage** (float) - 表示模型涵盖的字符数。推荐的默认值为:0.9995,适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。 | |||
| - **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值:SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。 | |||
| - SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。 | |||
| - SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。 | |||
| - SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。 | |||
| - SentencePieceModel.WORD:引用基于单词的SentencePiece型类型。 | |||
| - **params** (dict):表示没有传入参数的字典。 | |||
| **返回:** | |||
| SentencePieceVocab,从数据集构建的vocab。 | |||
| .. py:method:: from_file(file_path, vocab_size, character_coverage, model_type, params) | |||
| 从单词列表中构建一个SentencePiece对象。 | |||
| **参数:** | |||
| - **file_path** (list) - 表示包含SentencePiece列表的文件的路径。 | |||
| - **vocab_size** (int) - 表示词汇大小。 | |||
| - **character_coverage** (float) - 表示模型涵盖的字符数。推荐的默认值为:0.9995适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。 | |||
| - **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值为SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。 | |||
| - SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。 | |||
| - SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。 | |||
| - SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。 | |||
| - SentencePieceModel.WORD:引用基于单词的SentencePiece型类型。 | |||
| - **params** (dict):表示没有传入参数的字典(参数派生自SentencePiece库)。 | |||
| .. code-block:: | |||
| input_sentence_size 0 | |||
| max_sentencepiece_length 16 | |||
| **返回:** | |||
| SentencePieceVocab,表示从文件中构建的vocab。 | |||
| .. py:method:: save_model(vocab, path, filename) | |||
| 将模型保存到给定的文件路径。 | |||
| **参数:** | |||
| - **vocab** (SentencePieceVocab) - 表示一个SentencePiece对象。 | |||
| - **path** (str) - 表示存储模型的路径。 | |||
| - **filename** (str) - 表示文件名称。 | |||
| mindspore.dataset.text.SentencePieceVocab | |||
| ========================================== | |||
| .. py:class:: mindspore.dataset.text.SentencePieceVocab(cde.SentencePieceVocab) | |||
| 用于执行分词的SentencePiece对象。 | |||
| .. py:method:: from_dataset(dataset, col_names, vocab_size, character_coverage, model_type, params) | |||
| 从数据集构建SentencePiece。 | |||
| **参数:** | |||
| - **dataset** (Dataset) - 表示用于构建SentencePiece对象的数据集。 | |||
| - **col_names** (list) - 表示列名称的列表。 | |||
| - **vocab_size** (int) - 表示词汇大小。 | |||
| - **character_coverage** (float) - 表示模型涵盖的字符数。推荐的默认值为:0.9995,适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。 | |||
| - **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值:SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。 | |||
| - SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。 | |||
| - SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。 | |||
| - SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。 | |||
| - SentencePieceModel.WORD:引用基于单词的SentencePiece型类型。 | |||
| - **params** (dict):表示没有传入参数的字典。 | |||
| **返回:** | |||
| SentencePieceVocab,从数据集构建的vocab。 | |||
| .. py:method:: from_file(file_path, vocab_size, character_coverage, model_type, params) | |||
| 从单词列表中构建一个SentencePiece对象。 | |||
| **参数:** | |||
| - **file_path** (list) - 表示包含SentencePiece列表的文件的路径。 | |||
| - **vocab_size** (int) - 表示词汇大小。 | |||
| - **character_coverage** (float) - 表示模型涵盖的字符数。推荐的默认值为:0.9995适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。 | |||
| - **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值为SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。 | |||
| - SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。 | |||
| - SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。 | |||
| - SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。 | |||
| - SentencePieceModel.WORD:引用基于单词的SentencePiece型类型。 | |||
| - **params** (dict):表示没有传入参数的字典(参数派生自SentencePiece库)。 | |||
| .. code-block:: | |||
| input_sentence_size 0 | |||
| max_sentencepiece_length 16 | |||
| **返回:** | |||
| SentencePieceVocab,表示从文件中构建的vocab。 | |||
| .. py:method:: save_model(vocab, path, filename) | |||
| 将模型保存到给定的文件路径。 | |||
| **参数:** | |||
| - **vocab** (SentencePieceVocab) - 表示一个SentencePiece对象。 | |||
| - **path** (str) - 表示存储模型的路径。 | |||
| - **filename** (str) - 表示文件名称。 | |||
| @@ -1,66 +1,66 @@ | |||
| mindspore.dataset.text.Vocab | |||
| ============================= | |||
| .. py:class:: mindspore.dataset.text.Vocab | |||
| 用于查找单词的vocab对象。 | |||
| 它包含一个映射,将每个单词(str)映射到一个ID(int)。 | |||
| .. py:method:: from_dataset(dataset, columns=None, freq_range=None, top_k=None, special_tokens=None, special_first=True) | |||
| 通过数据集构建vocab对象。 | |||
| 这将收集数据集中的所有唯一单词,并在freq_range中用户指定的频率范围内返回一个vocab。如果没有单词在该频率上,用户将收到预警信息。 | |||
| vocab中的单词按最高频率到最低频率的顺序进行排列。具有相同频率的单词将按词典顺序进行排列。 | |||
| **参数:** | |||
| - **dataset** (Dataset) - 表示要从中构建vocab的数据集。 | |||
| - **columns** (list[str],可选) - 表示要从中获取单词的列名。它可以是列名的列表,默认值:None。如果没有列是string类型,将返回错误。 | |||
| - **freq_range** (tuple,可选) - 表示整数元组(min_frequency,max_frequency)。频率范围内的单词将被保留。0 <= min_frequency <= max_frequency <= total_words。min_frequency=0等同于min_frequency=1。max_frequency > total_words等同于max_frequency = total_words。min_frequency和max_frequency可以为None,分别对应于0和total_words,默认值:None。 | |||
| - **top_k** (int,可选) - `top_k` 大于0。要在vocab中 `top_k` 建立的单词数量表示取用最频繁的单词。 `top_k` 在 `freq_range` 之后取用。如果没有足够的 `top_k` ,所有单词都将被取用,默认值:None。 | |||
| - **special_tokens** (list,可选) - 表示字符串列表。每个字符串都是一个特殊的标记。例如,special_tokens=["<pad>","<unk>"],默认值:None,表示不添加特殊标记。 | |||
| - **Special_first** (bool,可选) - 表示是否添加 `special_tokens` 到vocab。如果指定了 `special_tokens` 并将 `special_first` 设置为True,则添加special_tokens,默认值:True。 | |||
| **返回:** | |||
| 表示从数据集构建的vocab。 | |||
| .. py:method:: from_dict(word_dict) | |||
| 从dict中构建vocab对象。 | |||
| **参数:** | |||
| - **word_dict** (dict) - 字典包含word和ID对,其中 `word` 应是string类型, `ID` 应是int类型。至于 `ID` ,建议从0开始并且不断续。如果 `ID` 为负数,将引发ValueError。 | |||
| **返回:** | |||
| Vocab,表示从 `dict` 构建的vocab对象。 | |||
| .. py:method:: from_file(file_path, delimiter='', vocab_size=None, special_tokens=None, special_first=True) | |||
| 从单词列表构建一个vocab对象。 | |||
| **参数:** | |||
| - **file_path** (str) - 表示包含vocab列表的文件的路径。 | |||
| - **delimiter** (str,可选) - 表示用来分隔文件中每一行的分隔符。第一个元素被视为单词,默认值:""。 | |||
| - **vocab_size** (int,可选) - 表示要从 `file_path` 读取的字数,默认值:None,表示读取所有的字。 | |||
| - **special_tokens** (list,可选) - 表示字符串的列表。每个字符串都是一个特殊标记,例如special_tokens=["<pad>","<unk>"],默认值:None,表示不添加特殊标记)。 | |||
| - **special_first** (list,可选) - 表示是否添加 `special_tokens` 到vocab。如果指定了 `special_tokens` 并将 `special_first` 设置为True,则添加 `special_tokens` ,默认值:True。 | |||
| **返回:** | |||
| Vocab,表示从文件构建的vocab。 | |||
| .. py:method:: from_list(word_list, special_tokens=None, special_first=True) | |||
| 从单词列表构建一个vocab对象。 | |||
| **参数:** | |||
| - **word_list** (list) - 表示字符串列表,其中每个元素都是type类型的单词。 | |||
| - **special_tokens** (list,可选) - 表示字符串的列表。每个字符串都是一个特殊标记,例如special_tokens=["<pad>","<unk>"],默认值:None,表示不添加特殊标记。 | |||
| - **Special_first** (bool,可选) - 表示是否添加 `special_tokens` 到vocab。如果指定了 `special_tokens` 并将 `special_first` 设置为True,则添加 `special_tokens` ,默认值:True。 | |||
| **返回:** | |||
| Vocab,表示从 `list` 构建的vocab。 | |||
| mindspore.dataset.text.Vocab | |||
| ============================= | |||
| .. py:class:: mindspore.dataset.text.Vocab | |||
| 用于查找单词的vocab对象。 | |||
| 它包含一个映射,将每个单词(str)映射到一个ID(int)。 | |||
| .. py:method:: from_dataset(dataset, columns=None, freq_range=None, top_k=None, special_tokens=None, special_first=True) | |||
| 通过数据集构建vocab对象。 | |||
| 这将收集数据集中的所有唯一单词,并在freq_range中用户指定的频率范围内返回一个vocab。如果没有单词在该频率上,用户将收到预警信息。 | |||
| vocab中的单词按最高频率到最低频率的顺序进行排列。具有相同频率的单词将按词典顺序进行排列。 | |||
| **参数:** | |||
| - **dataset** (Dataset) - 表示要从中构建vocab的数据集。 | |||
| - **columns** (list[str],可选) - 表示要从中获取单词的列名。它可以是列名的列表,默认值:None。如果没有列是string类型,将返回错误。 | |||
| - **freq_range** (tuple,可选) - 表示整数元组(min_frequency,max_frequency)。频率范围内的单词将被保留。0 <= min_frequency <= max_frequency <= total_words。min_frequency=0等同于min_frequency=1。max_frequency > total_words等同于max_frequency = total_words。min_frequency和max_frequency可以为None,分别对应于0和total_words,默认值:None。 | |||
| - **top_k** (int,可选) - `top_k` 大于0。要在vocab中 `top_k` 建立的单词数量表示取用最频繁的单词。 `top_k` 在 `freq_range` 之后取用。如果没有足够的 `top_k` ,所有单词都将被取用,默认值:None。 | |||
| - **special_tokens** (list,可选) - 表示字符串列表。每个字符串都是一个特殊的标记。例如,special_tokens=["<pad>","<unk>"],默认值:None,表示不添加特殊标记。 | |||
| - **Special_first** (bool,可选) - 表示是否添加 `special_tokens` 到vocab。如果指定了 `special_tokens` 并将 `special_first` 设置为True,则添加special_tokens,默认值:True。 | |||
| **返回:** | |||
| 表示从数据集构建的vocab。 | |||
| .. py:method:: from_dict(word_dict) | |||
| 从dict中构建vocab对象。 | |||
| **参数:** | |||
| - **word_dict** (dict) - 字典包含word和ID对,其中 `word` 应是string类型, `ID` 应是int类型。至于 `ID` ,建议从0开始并且不断续。如果 `ID` 为负数,将引发ValueError。 | |||
| **返回:** | |||
| Vocab,表示从 `dict` 构建的vocab对象。 | |||
| .. py:method:: from_file(file_path, delimiter='', vocab_size=None, special_tokens=None, special_first=True) | |||
| 从单词列表构建一个vocab对象。 | |||
| **参数:** | |||
| - **file_path** (str) - 表示包含vocab列表的文件的路径。 | |||
| - **delimiter** (str,可选) - 表示用来分隔文件中每一行的分隔符。第一个元素被视为单词,默认值:""。 | |||
| - **vocab_size** (int,可选) - 表示要从 `file_path` 读取的字数,默认值:None,表示读取所有的字。 | |||
| - **special_tokens** (list,可选) - 表示字符串的列表。每个字符串都是一个特殊标记,例如special_tokens=["<pad>","<unk>"],默认值:None,表示不添加特殊标记)。 | |||
| - **special_first** (list,可选) - 表示是否添加 `special_tokens` 到vocab。如果指定了 `special_tokens` 并将 `special_first` 设置为True,则添加 `special_tokens` ,默认值:True。 | |||
| **返回:** | |||
| Vocab,表示从文件构建的vocab。 | |||
| .. py:method:: from_list(word_list, special_tokens=None, special_first=True) | |||
| 从单词列表构建一个vocab对象。 | |||
| **参数:** | |||
| - **word_list** (list) - 表示字符串列表,其中每个元素都是type类型的单词。 | |||
| - **special_tokens** (list,可选) - 表示字符串的列表。每个字符串都是一个特殊标记,例如special_tokens=["<pad>","<unk>"],默认值:None,表示不添加特殊标记。 | |||
| - **Special_first** (bool,可选) - 表示是否添加 `special_tokens` 到vocab。如果指定了 `special_tokens` 并将 `special_first` 设置为True,则添加 `special_tokens` ,默认值:True。 | |||
| **返回:** | |||
| Vocab,表示从 `list` 构建的vocab。 | |||
| @@ -1,11 +1,14 @@ | |||
| .. py:method:: mindspore.dataset.text.to_bytes(array, encoding='utf8') | |||
| 基于 `encoding` 字符集对每个元素进行编码,将 `string` 的NumPy数组转换为 `bytes` 的数组。 | |||
| **参数:** | |||
| - **array** (numpy.ndarray) - 表示 `string` 类型的数组,代表字符串。 | |||
| - **encoding** (str) - 表示用于编码的字符集。 | |||
| **返回:** | |||
| numpy.ndarray,表示 `bytes` 的NumPy数组。 | |||
| mindspore.dataset.text.to_bytes | |||
| ================================ | |||
| .. py:function:: mindspore.dataset.text.to_bytes(array, encoding='utf8') | |||
| 基于 `encoding` 字符集对每个元素进行编码,将 `string` 的NumPy数组转换为 `bytes` 的数组。 | |||
| **参数:** | |||
| - **array** (numpy.ndarray) - 表示 `string` 类型的数组,代表字符串。 | |||
| - **encoding** (str) - 表示用于编码的字符集。 | |||
| **返回:** | |||
| numpy.ndarray,表示 `bytes` 的NumPy数组。 | |||
| @@ -1,11 +1,14 @@ | |||
| .. py:method:: mindspore.dataset.text.to_str(array, encoding='utf8') | |||
| 基于 `encoding` 字符集对每个元素进行解码,借此将 `bytes` 的NumPy数组转换为 `string` 的数组。 | |||
| **参数:** | |||
| - **array** (numpy.ndarray) - 表示 `bytes` 类型的数组,代表字符串。 | |||
| - **encoding** (str) - 表示用于解码的字符集。 | |||
| **返回:** | |||
| numpy.ndarray,表示 `str` 的NumPy数组。 | |||
| mindspore.dataset.text.to_str | |||
| ============================== | |||
| .. py:function:: mindspore.dataset.text.to_str(array, encoding='utf8') | |||
| 基于 `encoding` 字符集对每个元素进行解码,借此将 `bytes` 的NumPy数组转换为 `string` 的数组。 | |||
| **参数:** | |||
| - **array** (numpy.ndarray) - 表示 `bytes` 类型的数组,代表字符串。 | |||
| - **encoding** (str) - 表示用于解码的字符集。 | |||
| **返回:** | |||
| numpy.ndarray,表示 `str` 的NumPy数组。 | |||
| @@ -1,23 +1,23 @@ | |||
| mindspore.dataset.text.transforms.BasicTokenizer | |||
| ================================================= | |||
| .. py:class:: mindspore.dataset.text.transforms.BasicTokenizer(lower_case=False, keep_whitespace=False, normalization_form=NormalizeForm.NONE, preserve_unused_token=True, with_offsets=False) | |||
| 通过特定规则标记UTF-8字符串的标量Tensor。 | |||
| **注:** | |||
| Windows平台尚不支持BasicTokenizer。 | |||
| **参数:** | |||
| - **lower_case** (bool,可选) - 如果为True,则在输入文本上应用CaseFold、 `NFD` 模式下的NormalizeUTF8、RegexReplace操作,以将文本折叠到较低的用例并删除重音字符。如果为False,则仅在输入文本上应用指定模式下的NormalizeUTF8操作(默认为False)。 | |||
| - **keep_whitespace** (bool,可选) - 如果为True,则把空白字符保留在输出标记中,默认值:False。 | |||
| - **normalization_form** (NormalizeForm,可选) - 用于指定归一化模式,默认值:NormalizeForm.NONE。这仅在 `lower_case` 为False时有效。可选值为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD和NormalizeForm.NFKD。 | |||
| - NormalizeForm.NONE:对输入字符串不做任何处理。 | |||
| - NormalizeForm.NFC:对输入字符串进行C形式规范化。 | |||
| - NormalizeForm.NFKC:对输入字符串进行KC形式规范化。 | |||
| - NormalizeForm.NFD:对输入字符串进行D形式规范化。 | |||
| - NormalizeForm.NFKD:对输入字符串进行KD形式规范化。 | |||
| - **preserve_unused_token** (bool,可选) - 如果为True,则不要拆分特殊标记,如'[CLS]'、'[SEP]'、'[UNK]'、'[PAD]'和'[MASK]',默认值:True。 | |||
| mindspore.dataset.text.transforms.BasicTokenizer | |||
| ================================================= | |||
| .. py:class:: mindspore.dataset.text.transforms.BasicTokenizer(lower_case=False, keep_whitespace=False, normalization_form=NormalizeForm.NONE, preserve_unused_token=True, with_offsets=False) | |||
| 通过特定规则标记UTF-8字符串的标量Tensor。 | |||
| .. note:: | |||
| Windows平台尚不支持BasicTokenizer。 | |||
| **参数:** | |||
| - **lower_case** (bool,可选) - 如果为True,则在输入文本上应用CaseFold、 `NFD` 模式下的NormalizeUTF8、RegexReplace操作,以将文本折叠到较低的用例并删除重音字符。如果为False,则仅在输入文本上应用指定模式下的NormalizeUTF8操作(默认为False)。 | |||
| - **keep_whitespace** (bool,可选) - 如果为True,则把空白字符保留在输出标记中,默认值:False。 | |||
| - **normalization_form** (NormalizeForm,可选) - 用于指定归一化模式,默认值:NormalizeForm.NONE。这仅在 `lower_case` 为False时有效。可选值为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD和NormalizeForm.NFKD。 | |||
| - NormalizeForm.NONE:对输入字符串不做任何处理。 | |||
| - NormalizeForm.NFC:对输入字符串进行C形式规范化。 | |||
| - NormalizeForm.NFKC:对输入字符串进行KC形式规范化。 | |||
| - NormalizeForm.NFD:对输入字符串进行D形式规范化。 | |||
| - NormalizeForm.NFKD:对输入字符串进行KD形式规范化。 | |||
| - **preserve_unused_token** (bool,可选) - 如果为True,则不要拆分特殊标记,如'[CLS]'、'[SEP]'、'[UNK]'、'[PAD]'和'[MASK]',默认值:True。 | |||
| - **with_offsets** (bool,可选) - 表示是否输出标记的偏移量,默认值:False。 | |||
| @@ -2,7 +2,7 @@ mindspore.dataset.vision.SliceMode | |||
| ================================== | |||
| .. py:class:: mindspore.dataset.vision.SliceMode | |||
| Tensor切片方式枚举类。 | |||
| 可选枚举值为:SliceMode.PAD、SliceMode.DROP。 | |||
| @@ -1,13 +1,233 @@ | |||
| mindspore.dataset.config | |||
| ======================== | |||
| ========================= | |||
| The configuration module provides various functions to set and get the supported configuration parameters, and read a configuration file. | |||
| config模块能够设置或获取数据处理的全局配置参数。 | |||
| Common imported modules in corresponding API examples are as follows: | |||
| API示例所需模块的导入代码如下: | |||
| .. code-block:: | |||
| import mindspore.dataset as ds | |||
| .. py:function:: mindspore.dataset.config.get_auto_num_workers() | |||
| 获取当前是否开启自动线程调整。 | |||
| **返回:** | |||
| bool,表示是否开启自动线程调整。 | |||
| .. py:function:: mindspore.dataset.config.get_callback_timeout() | |||
| 获取DSWaitedCallback的默认超时时间。 | |||
| 如果出现死锁,等待的函数将在超时时间结束后退出。 | |||
| **返回:** | |||
| int,表示在出现死锁情况下,用于结束DSWaitedCallback中的等待函数的超时时间(秒)。 | |||
| .. py:function:: mindspore.dataset.config.get_enable_shared_mem() | |||
| 获取当前是否开启共享内存。 | |||
| **返回:** | |||
| bool,表示是否启用共享内存。 | |||
| .. py:function:: mindspore.dataset.config.get_monitor_sampling_interval() | |||
| 获取性能监控采样时间间隔的全局配置。 | |||
| **返回:** | |||
| int,表示性能监控采样间隔时间(毫秒)。 | |||
| .. py:function:: mindspore.dataset.config.get_numa_enable() | |||
| 获取NUMA的启动状态。 | |||
| 该状态将用于所有进程。 | |||
| **返回:** | |||
| bool,表示NUMA的启动状态。 | |||
| .. py:function:: mindspore.dataset.config.get_num_parallel_workers() | |||
| 获取并行工作线程数量的全局配置。 | |||
| 这是并行工作线程数量的值,用于每个操作。 | |||
| **返回:** | |||
| int,表示每个操作中默认的并行工作进程的数量。 | |||
| .. py:function:: mindspore.dataset.config.get_prefetch_size() | |||
| 获取数据处理管道的输出缓存队列长度。 | |||
| **返回:** | |||
| int,表示预取的总行数。 | |||
| .. py:function:: mindspore.dataset.config.get_seed() | |||
| 获取随机数的种子。如果随机数的种子已设置,则返回设置的值,否则将返回std::mt19937::default_seed这个默认种子值。 | |||
| **返回:** | |||
| int,表示种子的随机数量。 | |||
| .. py:function:: mindspore.dataset.config.load(file) | |||
| 从文件格式中加载项目配置。 | |||
| **参数:** | |||
| - **file** (str) - 表示待加载的配置文件的路径。 | |||
| **异常:** | |||
| - **RuntimeError** - 文件无效,解析失败。 | |||
| .. py:function:: mindspore.dataset.config.set_auto_num_workers(enable) | |||
| 自动为每个数据集操作设置并行线程数量(默认情况下,此功能关闭)。 | |||
| 如果启用该功能,将自动调整每个数据集操作中的并行线程数量,这可能会覆盖用户传入的并行线程数量或通过ds.config.set_num_parallel_workers()设置的默认值(如果用户未传递任何内容)。 | |||
| 目前,此函数仅针对具有per_batch_map(batch中的运行映射)的YOLOv3数据集进行了优化。 | |||
| 此功能旨在为每个操作的优化线程数量分配提供基线。 | |||
| 并行线程数有所调整的数据集操作将会被记录。 | |||
| **参数:** | |||
| - **enable** (bool) - 表示是否启用自动设置线程数量的特性。 | |||
| **异常:** | |||
| - **TypeError** - enable不是布尔类型。 | |||
| .. py:function:: mindspore.dataset.config.set_callback_timeout(timeout) | |||
| 为DSWaitedCallback设置的默认超时时间(秒)。 | |||
| 如果出现死锁,等待函数将在超时时间结束后退出。 | |||
| **参数:** | |||
| - **timeout** (int) - 表示在出现死锁情况下,用于结束DSWaitedCallback中等待的超时时间(秒)。 | |||
| **异常:** | |||
| - **ValueError** - `timeout` 小于等于0或 `timeout` 大于MAX_INT_32时 `timeout` 无效。 | |||
| .. py:function:: mindspore.dataset.config.set_enable_shared_mem(enable) | |||
| 设置共享内存标志的是否启用。如果 `shared_mem_enable` 为True,则使用共享内存队列将数据传递给为数据集操作而创建的进程,而这些数据集操作将设置`python_multiprocessing`为True。 | |||
| **参数:** | |||
| - **enable** (bool) - 表示当 `python_multiprocessing` 为True时,是否在数据集操作中使用共享内存。 | |||
| **异常:** | |||
| - **TypeError** - `enable` 不是布尔数据类型。 | |||
| .. py:function:: mindspore.dataset.config.set_monitor_sampling_interval(interval) | |||
| 设置监测采样的默认间隔时间(毫秒)。 | |||
| **参数:** | |||
| - **interval** (int) - 表示用于性能监测采样的间隔时间(毫秒)。 | |||
| **异常:** | |||
| - **ValueError** - `interval` 小于等于0或 `interval` 大于MAX_INT_32时, `interval` 无效。 | |||
| .. py:function:: mindspore.dataset.config.set_numa_enable(numa_enable) | |||
| 设置NUMA的默认状态为启动状态。如果`numa_enable`为True,则需要确保安装了NUMA库。 | |||
| **参数:** | |||
| - **numa_enable** (bool) - 表示是否使用NUMA绑定功能。 | |||
| **异常:** | |||
| - **TypeError** - `numa_enable` 不是布尔数据类型。 | |||
| .. py:function:: mindspore.dataset.config.set_num_parallel_workers(num) | |||
| 为并行工作线程数量设置新的全局配置默认值。 | |||
| 此设置会影响所有数据集操作的并行性。 | |||
| **参数:** | |||
| - **num** (int) - 表示并行工作线程的数量,用作为每个操作的默认值。 | |||
| **异常:** | |||
| - **ValueError** - `num` 小于等于0或 `num` 大于MAX_INT_32时,并行工作线程数量设置无效。 | |||
| .. py:function:: mindspore.dataset.config.set_prefetch_size(size) | |||
| 设置管道中线程的队列容量。 | |||
| **参数:** | |||
| - **size** (int) - 表示缓存队列的长度。 | |||
| **异常:** | |||
| - **ValueError** - 当`size`小于等于0或`size`大于`MAX_INT_32`时,线程的队列容量无效。 | |||
| .. note:: | |||
| 用于预取的总内存可能会随着工作线程数量的增加而快速增长,所以当工作线程数量大于4时,每个工作线程的预取大小将减少。 | |||
| 每个工作线程在运行时预取大小将是`prefetchsize` * (4 / `num_parallel_workers`)。 | |||
| .. py:function:: mindspore.dataset.config.set_seed(seed) | |||
| 如果设置了种子,生成的随机数将被固定,这有助于产生确定性结果。 | |||
| .. note:: | |||
| 此函数在Python随机库和numpy.random库中设置种子,以便随机进行确定性Python增强。此函数应与创建的每个迭代器一起调用,以重置随机种子。在管道中,这并不保证`num_parallel_workers`大于1。 | |||
| **参数:** | |||
| - **seed** (int) - 表示随机数量的种子。该参数用于生成确定性随机数。 | |||
| **异常:** | |||
| - **ValueError** - `seed` 小于0或 `seed` 大于MAX_UINT_32时,`seed` 无效。 | |||
| .. py:function:: mindspore.dataset.config.set_sending_batches(batch_num) | |||
| 在昇腾设备中使用sink_mode=True进行训练时,设置默认的发送批次。 | |||
| **参数:** | |||
| - **batch_num** (int) - 表示总的发送批次。当设置了`batch_num`时,它将会等待,除非增加发送批次。默认值为0,表示将发送数据集中的所有批次。 | |||
| **异常:** | |||
| - **TypeError** - `batch_num` 不是int类型。 | |||
| .. automodule:: mindspore.dataset.config | |||
| :members: | |||
| @@ -365,7 +365,7 @@ Dynamic LR函数 | |||
| net = Net() | |||
| optim = nn.Momentum(net.trainable_params(), learning_rate=lr, momentum=0.9) | |||
| .. mscnautosummary:: | |||
| .. mscnplatformautosummary:: | |||
| :toctree: nn | |||
| mindspore.nn.cosine_decay_lr | |||