Browse Source

!32675 Fix Chinese API

Merge pull request !32675 from shenwei41/code_docs_r1.7
r1.7
i-robot Gitee 4 years ago
parent
commit
c7e7f4e81c
No known key found for this signature in database GPG Key ID: 173E9B9CA92EEF8F
7 changed files with 11 additions and 21 deletions
  1. +1
    -1
      docs/api/api_python/dataset/mindspore.dataset.Dataset.d.rst
  2. +2
    -2
      docs/api/api_python/dataset_text/mindspore.dataset.text.SPieceTokenizerLoadType.rst
  3. +1
    -6
      docs/api/api_python/dataset_text/mindspore.dataset.text.SentencePieceVocab.rst
  4. +2
    -2
      docs/api/api_python/dataset_text/mindspore.dataset.text.Vocab.rst
  5. +3
    -3
      docs/api/api_python/mindspore.dataset.config.rst
  6. +1
    -1
      mindspore/python/mindspore/dataset/engine/datasets.py
  7. +1
    -6
      mindspore/python/mindspore/dataset/text/utils.py

+ 1
- 1
docs/api/api_python/dataset/mindspore.dataset.Dataset.d.rst View File

@@ -154,7 +154,7 @@

**返回:**

tuple,数据集的input index信息。
int,数据集的input index信息。

.. py:method:: map(operations, input_columns=None, output_columns=None, column_order=None, num_parallel_workers=None, python_multiprocessing=False, cache=None, callbacks=None, max_rowsize=16, offload=None)



+ 2
- 2
docs/api/api_python/dataset_text/mindspore.dataset.text.SPieceTokenizerLoadType.rst View File

@@ -7,6 +7,6 @@

可选的枚举值包括:SPieceTokenizerLoadType.FILE和SPieceTokenizerLoadType.MODEL。

- **SPieceTokenizerLoadType.FILE** - 从Vocab文件中加载SentencePiece分词器。
- **SPieceTokenizerLoadType.MODEL** - 从Vocab实例中加载SentencePiece分词器。
- **SPieceTokenizerLoadType.FILE** - 从词典文件中加载SentencePiece分词器。
- **SPieceTokenizerLoadType.MODEL** - 从 :class:`mindspore.dataset.text.SentencePieceVocab` 对象中加载SentencePiece分词器。

+ 1
- 6
docs/api/api_python/dataset_text/mindspore.dataset.text.SentencePieceVocab.rst View File

@@ -36,7 +36,7 @@

- **file_path** (list) - 表示包含SentencePiece文件路径的一个列表。
- **vocab_size** (int) - 表示词汇大小。
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为:0.9995适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为:0.9995适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。
- **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值为SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。

- SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
@@ -46,11 +46,6 @@

- **params** (dict):表示没有传入参数的字典(参数派生自SentencePiece库)。

.. code-block::

input_sentence_size 0
max_sentencepiece_length 16

**返回:**

SentencePieceVocab,表示从文件中构建的Vocab对象。


+ 2
- 2
docs/api/api_python/dataset_text/mindspore.dataset.text.Vocab.rst View File

@@ -71,11 +71,11 @@

.. py:method:: ids_to_tokens(ids)

将输入索引(id)转换为对应的分词(token),支持传入单个id或一个包含多个id的列表。如果id不存在,则返回空字符串。
将输入索引转换为对应的分词,支持传入单个索引或一个包含多个索引的序列。如果索引不存在,则返回空字符串。

**参数:**

- **ids** (Union[int, list[int]]) - 要转换为分词(token)的分词(token)id(或分词(token)ids)。
- **ids** (Union[int, list[int]]) - 要转换为分词的分词索引(或分词的索引序列)。

**返回:**



+ 3
- 3
docs/api/api_python/mindspore.dataset.config.rst View File

@@ -35,7 +35,7 @@ API示例所需模块的导入代码如下:

.. py:function:: mindspore.dataset.config.set_seed(seed)

设置种子,固定产生的随机数达到确定的结果。
设置随机种子,产生固定的随机数达到确定的结果。

.. note::
此函数在Python随机库和numpy.random库中设置种子,以便随机进行确定性Python增强。此函数应与创建的每个迭代器一起调用,以重置随机种子。
@@ -51,7 +51,7 @@ API示例所需模块的导入代码如下:

.. py:function:: mindspore.dataset.config.get_seed()

获取随机数的种子。如果随机数的种子已设置,则返回设置的值,否则将返回std::mt19937::default_seed这个默认种子值。
获取随机数的种子。如果随机数的种子已设置,则返回设置的值,否则将返回 `std::mt19937::default_seed <http://www.cplusplus.com/reference/random/mt19937/>`_ 这个默认种子值。

**返回:**

@@ -108,7 +108,7 @@ API示例所需模块的导入代码如下:

.. py:function:: mindspore.dataset.config.set_numa_enable(numa_enable)

设置NUMA的默认状态为启动状态。如果 `numa_enable` 为True,则需要确保安装了NUMA库。
设置NUMA的默认状态为启动状态。如果 `numa_enable` 为True,则需要确保安装了 `NUMA库 <http://rpmfind.net/linux/rpm2html/search.php?query=libnuma-devel>`_

**参数:**



+ 1
- 1
mindspore/python/mindspore/dataset/engine/datasets.py View File

@@ -1487,7 +1487,7 @@ class Dataset:
Get Input Index Information

Returns:
tuple, tuple of the input index information.
int, tuple of the input index information.

Examples:
>>> # dataset is an instance object of Dataset


+ 1
- 6
mindspore/python/mindspore/dataset/text/utils.py View File

@@ -313,11 +313,6 @@ class SentencePieceVocab:
params (dict): A dictionary with no incoming parameters(The parameters are derived from SentencePiece
library).

.. code-block::

input_sentence_size 0
max_sentencepiece_length 16

Returns:
SentencePieceVocab, vocab built from the file.

@@ -489,7 +484,7 @@ class SPieceTokenizerLoadType(IntEnum):
Possible enumeration values are: SPieceTokenizerLoadType.FILE, SPieceTokenizerLoadType.MODEL.

- SPieceTokenizerLoadType.FILE: Load SentencePiece tokenizer from a Vocab file.
- SPieceTokenizerLoadType.MODEL: Load SentencePiece tokenizer from a Vocab instance.
- SPieceTokenizerLoadType.MODEL: Load SentencePiece tokenizer from a SentencePieceVocab object.
"""

FILE = 0


Loading…
Cancel
Save