!29008 Fix Chinese API docs of Audio

Merge pull request !29008 from xiaotianci/code_docs_fix_chinese_api
4 years ago · ce8f89e88e
--- a/docs/api/api_python/dataset/mindspore.dataset.DSCallback.rst
+++ b/docs/api/api_python/dataset/mindspore.dataset.DSCallback.rst
@@ -3,11 +3,13 @@ mindspore.dataset.DSCallback

 .. py:class:: mindspore.dataset.DSCallback(step_size=1)

    用于自定义数据回调类的抽象基类。
    数据处理回调类的抽象基类，用户可以基于此类实现自己的回调操作。

    用户可通过 `ds_run_context` 获取数据处理管道相关信息，包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。

    **参数：**

    - **step_size** (int, optional) - 调用 `ds_step_begin` 和 `ds_step_end` 之间间隔的step数（默认为1）。
    - **step_size** (int, optional) - 定义相邻的 `ds_step_begin`/`ds_step_end` 调用之间相隔的step数，默认值：1，表示每个step都会调用。

    **样例：**

@@ -47,7 +49,7 @@ mindspore.dataset.DSCallback

    .. py:method:: ds_step_begin(ds_run_context)

        用于定义在每个数据step开始前执行的回调方法。
        用于定义在指定数据step开始前执行的回调方法。

        **参数：**

@@ -55,7 +57,7 @@ mindspore.dataset.DSCallback

    .. py:method:: ds_step_end(ds_run_context)

         用于定义在每个数据step结束后执行的回调方法。
         用于定义在指定数据step结束后执行的回调方法。

        **参数：**

--- a/docs/api/api_python/dataset/mindspore.dataset.WaitedDSCallback.rst
+++ b/docs/api/api_python/dataset/mindspore.dataset.WaitedDSCallback.rst
@@ -3,14 +3,15 @@ mindspore.dataset.WaitedDSCallback

 .. py:class:: mindspore.dataset.WaitedDSCallback(step_size=1)

    数据集自定义回调类的抽象基类，用于与训练回调类(`mindspore.callback <https://mindspore.cn/docs/api/zh-CN/master/api_python/mindspore.train.html#mindspore.train.callback.Callback>`_)的同步。
    阻塞式数据处理回调类的抽象基类，用于与训练回调类(`mindspore.callback <https://mindspore.cn/docs/api/zh-CN/master/api_python/mindspore.train.html#mindspore.train.callback.Callback>`_)的同步。

    可用于在每个step或epoch开始前执行自定义的回调方法，注意，第二个step或epoch开始时才会触发该调用。
    例如在自动数据增强中根据上一个epoch的loss值来更新增强算子参数配置。
    可用于在step或epoch开始前执行自定义的回调方法，例如在自动数据增强中根据上一个epoch的loss值来更新增强算子参数配置。

    用户可通过 `train_run_context` 获取模型相关信息。如 `network` 、 `train_network` 、 `epoch_num` 、 `batch_num` 、 `loss_fn` 、 `optimizer` 、 `parallel_mode` 、 `device_number` 、 `list_callback` 、 `cur_epoch_num` 、 `cur_step_num` 、 `dataset_sink_mode` 、 `net_outputs` 等，详见 `mindspore.callback <https://mindspore.cn/docs/api/zh-CN/master/api_python/mindspore.train.html#mindspore.train.callback.Callback>`_ 。
    注意，第2个step或epoch开始时才会触发该调用。

    用户可通过 `ds_run_context` 获取数据处理管道相关信息。包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。
    用户可通过 `train_run_context` 获取模型相关信息，如 `network` 、 `train_network` 、 `epoch_num` 、 `batch_num` 、 `loss_fn` 、 `optimizer` 、 `parallel_mode` 、 `device_number` 、 `list_callback` 、 `cur_epoch_num` 、 `cur_step_num` 、 `dataset_sink_mode` 、 `net_outputs` 等，详见 `mindspore.callback <https://mindspore.cn/docs/api/zh-CN/master/api_python/mindspore.train.html#mindspore.train.callback.Callback>`_ 。

    用户可通过 `ds_run_context` 获取数据处理管道相关信息，包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。

    **参数：**

@@ -173,7 +174,7 @@ mindspore.dataset.WaitedDSCallback

    .. py:method:: sync_epoch_begin(train_run_context, ds_run_context)

        用于定义在每个数据epoch开始前，训练epoch结束后执行的回调方法。
        用于定义在数据epoch开始前，训练epoch结束后执行的回调方法。

        **参数：**

@@ -182,7 +183,7 @@ mindspore.dataset.WaitedDSCallback

    .. py:method:: sync_step_begin(train_run_context, ds_run_context)

        用于定义在每个数据step开始前，训练step结束后执行的回调方法。
        用于定义在数据step开始前，训练step结束后执行的回调方法。

        **参数：**

--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.AllpassBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.AllpassBiquad.rst
@@ -3,13 +3,22 @@ mindspore.dataset.audio.transforms.AllpassBiquad

 .. py:class:: mindspore.dataset.audio.transforms.AllpassBiquad(sample_rate, central_freq, Q=0.707)

    给形如(..., time)维度的音频波形施加双极全通滤波器。
    给音频波形施加双极点全通滤波器，其中心频率和带宽由入参指定。

    全通滤波器能够改变音频频率与相位的关系，而不改变频率与幅度的关系，其系统函数为：

    .. math::
        H(s) = \frac{s^2 - \frac{s}{Q} + 1}{s^2 + \frac{s}{Q} + 1}

    接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。
    
    .. note:: 待处理音频维度需为(..., time)。

    **参数：**

    - **sample_rate** (int) - 采样率，例如44100 (Hz)，不能为零。
    - **sample_rate** (int) - 采样频率（单位：Hz），不能为零。
    - **central_freq** (float) - 中心频率（单位：Hz）。
    - **Q** (float, optional) - 品质因子，参考 https://en.wikipedia.org/wiki/Q_factor，取值范围(0, 1]（默认值为0.707）。
    - **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ，能够反映带宽与采样频率和中心频率的关系，取值范围为(0, 1]，默认值：0.707。

    **样例：**

--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.AmplitudeToDB.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.AmplitudeToDB.rst
@@ -5,15 +5,17 @@ mindspore.dataset.audio.transforms.AmplitudeToDB

    将输入音频从振幅/功率标度转换为分贝标度。

    .. note:: 待处理音频维度需为(..., freq, time)。

    **参数：**

    - **stype** ( :class:`mindspore.dataset.audio.utils.ScaleType` , optional) - 输入音频的原始标度（默认值为ScaleType.POWER）。取值可为ScaleType.MAGNITUDE或ScaleType.POWER。
    - **ref_value** (float, optional) - 系数参考值，用于计算分贝系数 `db_multiplier` ， 
    - **stype** ( :class:`mindspore.dataset.audio.utils.ScaleType` , 可选) - 输入音频的原始标度，取值可为ScaleType.MAGNITUDE或ScaleType.POWER，默认值：ScaleType.POWER。
    - **ref_value** (float, 可选) - 系数参考值，默认值：1.0，用于计算分贝系数 `db_multiplier` ，公式为 
    
       :math:`db\_multiplier = Log10(max(ref\_value, amin))`。
       
    - **amin** (float, optional) - 波形取值下界，低于该值的波形将会被裁切。取值必须大于0。
    - **top_db** (float, optional) - 最小负截止分贝值，建议的取值为80.0（默认值为80.0）。
    - **amin** (float, 可选) - 波形取值下界，低于该值的波形将会被裁切，取值必须大于0，默认值：1e-10。
    - **top_db** (float, 可选) - 最小负截止分贝值，默认值：80.0。

    **样例：**

--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.Angle.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.Angle.rst
@@ -3,7 +3,9 @@ mindspore.dataset.audio.transforms.Angle

 .. py:class:: mindspore.dataset.audio.transforms.Angle

    计算形如(..., complex=2)维度的复数序列的角度，其中第0维代表实部，第1维代表虚部。
    计算复数序列的角度。

    .. note:: 待处理音频维度需为(..., complex=2)，其中第0维代表实部，第1维代表虚部。

    **样例：**

--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandBiquad.rst
@@ -3,14 +3,20 @@ mindspore.dataset.audio.transforms.BandBiquad

 .. py:class:: mindspore.dataset.audio.transforms.BandBiquad(sample_rate, central_freq, Q=0.707, noise=False)

    给形如(..., time)维度的音频波形施加双极带滤波器。
    给音频波形施加双极点带通滤波器。

    带通滤波器的频率响应在中心频率附近呈对数下降，下降的斜率由带宽决定，频带两端处输出音频的幅度将是原始幅度的一半。

    接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

    .. note:: 待处理音频维度需为(..., time)。

    **参数：**

    - **sample_rate** (int) - 采样率，例如44100 (Hz)，不能为零。
    - **sample_rate** (int) - 采样频率（单位：Hz），不能为零。
    - **central_freq** (float) - 中心频率（单位：Hz）。
    - **Q** (float, optional) - 品质因子，参考 https://en.wikipedia.org/wiki/Q_factor，取值范围(0, 1]（默认值为0.707）。
    - **noise** (bool, optional) - 若为True，则使用非音调音频（如打击乐）模式；若为False，则使用音调音频（如语音、歌曲或器乐）模式（默认为False）。
    - **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ，能够反映带宽与采样频率和中心频率的关系，取值范围为(0, 1]，默认值：0.707。
    - **noise** (bool, 可选) - 若为True，则使用非音调音频（如打击乐）模式；若为False，则使用音调音频（如语音、歌曲或器乐）模式，默认值：False。

    **样例：**

--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandpassBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandpassBiquad.rst
@@ -3,14 +3,28 @@ mindspore.dataset.audio.transforms.BandpassBiquad

 .. py:class:: mindspore.dataset.audio.transforms.BandpassBiquad(sample_rate, central_freq, Q=0.707, const_skirt_gain=False)

    给形如(..., time)维度的音频波形施加双极带通滤波器。实现方式类似于SoX库。
    给音频波形施加双极点巴特沃斯（Butterworth）带通滤波器。

    巴特沃斯滤波器的特点是通频带内的频率响应曲线最大限度平坦，没有纹波，而在阻频带则逐渐下降为零。

    巴特沃斯带通滤波器的系统函数为：

    .. math::
        H(s) = \begin{cases}
            \frac{s}{s^2 + \frac{s}{Q} + 1}, &\text{if const_skirt_gain=True}; \cr
            \frac{\frac{s}{Q}}{s^2 + \frac{s}{Q} + 1}, &\text{if const_skirt_gain=False}.
        \end{cases}

    接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

    .. note:: 待处理音频维度需为(..., time)。

    **参数：**

    - **sample_rate** (int) - 采样率，例如44100 (Hz)，不能为零。
    - **sample_rate** (int) - 采样频率（单位：Hz），不能为零。
    - **central_freq** (float) - 中心频率（单位：Hz）。
    - **Q** (float, optional) - 品质因子，参考 https://en.wikipedia.org/wiki/Q_factor，取值范围(0, 1]（默认值为0.707）。
    - **const_skirt_gain** (bool, optional) - 若为True，则使用恒定裙边增益（峰值增益为Q）。若为False，则使用恒定的0dB峰值增益（默认为False）。
    - **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ，能够反映带宽与采样频率和中心频率的关系，取值范围为(0, 1]，默认值：0.707。
    - **const_skirt_gain** (bool, 可选) - 若为True，则使用恒定裙边增益（峰值增益为Q）；若为False，则使用恒定的0dB峰值增益。默认值：False。

    **样例：**

--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandrejectBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandrejectBiquad.rst
@@ -3,14 +3,25 @@ mindspore.dataset.audio.transforms.BandrejectBiquad

 .. py:class:: mindspore.dataset.audio.transforms.BandrejectBiquad(sample_rate, central_freq, Q=0.707)

    给形如(..., time)维度的音频波形施加双极带阻滤波器。
    给音频波形施加双极点巴特沃斯（Butterworth）带阻滤波器。

    巴特沃斯滤波器的特点是通频带内的频率响应曲线最大限度平坦，没有纹波，而在阻频带则逐渐下降为零。

    巴特沃斯带阻滤波器的系统函数为：

    .. math::
        H(s) = \frac{s^2 + 1}{s^2 + \frac{s}{Q} + 1}

    接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

    .. note:: 待处理音频维度需为(..., time)。

    **参数：**

    - **sample_rate** (int) - 采样率，例如44100 (Hz)，不能为零。
    - **sample_rate** (int) - 采样频率（单位：Hz），不能为零。
    - **central_freq** (float) - 中心频率（单位：Hz）。
    - **Q** (float, optional) - 品质因子，参考 https://en.wikipedia.org/wiki/Q_factor，取值范围(0, 1]（默认值为0.707）。

    - **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ，能够反映带宽与采样频率和中心频率的关系，取值范围为(0, 1]，默认值：0.707。
    
    **样例：**

    >>> import numpy as np
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BassBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BassBiquad.rst
@@ -3,15 +3,24 @@ mindspore.dataset.audio.transforms.BassBiquad

 .. py:class:: mindspore.dataset.audio.transforms.BassBiquad(sample_rate, gain, central_freq=100.0, Q=0.707)

    给形如(..., time)维度的音频波形施加低音控制效果。
    给音频波形施加低音控制效果，即双极点低频搁架滤波器。

    **参数：**
    低频搁架滤波器能够通过所有频率，但将低于搁架的频率提升或衰减指定量，其系统函数为：

    .. math::
        H(s) = A\frac{s^2 + \frac{\sqrt{A}}{Q}s + A}{As^2 + \frac{\sqrt{A}}{Q}s + 1}` 。

    接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

    - **sample_rate** (int) - 采样率，例如44100 (Hz)，不能为零。
    - **gain** (float) - 期望提升（或衰减）的音频增益，单位为dB。
    - **central_freq** (float) - 中心频率（单位：Hz）。
    - **Q** (float, optional) - 品质因子，参考 https://en.wikipedia.org/wiki/Q_factor，取值范围(0, 1]（默认值为0.707）。
    .. note:: 待处理音频维度需为(..., time)。

    **参数：**

    - **sample_rate** (int) - 采样频率（单位：Hz），不能为零。
    - **gain** (float) - 期望提升（或衰减）的音频增益（单位：dB）。
    - **central_freq** (float, 可选) - 中心频率（单位：Hz），默认值：100.0。
    - **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ，能够反映带宽与采样频率和中心频率的关系，取值范围为(0, 1]，默认值：0.707。
    
    **样例：**

    >>> import numpy as np
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.ComplexNorm.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.ComplexNorm.rst
@@ -3,11 +3,13 @@ mindspore.dataset.audio.transforms.ComplexNorm

 .. py:class:: mindspore.dataset.audio.transforms.ComplexNorm(power=1.0)

    计算形如(..., complex=2)维度的复数序列的范数，其中第0维代表实部，第1维代表虚部。
    计算复数序列的范数。

    .. note:: 待处理音频维度需为(..., complex=2)，其中第0维代表实部，第1维代表虚部。

    **参数：**

    - **power** (float, optional) - 范数的幂，取值非负（默认为1.0）。
    - **power** (float, 可选) - 范数的幂，取值必须非负，默认值：1.0。

    **样例：**

--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.Contrast.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.Contrast.rst
@@ -3,11 +3,17 @@ mindspore.dataset.audio.transforms.Contrast

 .. py:class:: mindspore.dataset.audio.transforms.Contrast(enhancement_amount=75.0)

    给形如(..., time)维度的音频波形施加对比度增强效果。实现方式类似于SoX库。与音频压缩相比，该效果通过修改音频信号使其听起来更响亮。
    给音频波形施加对比度增强效果。

    与音频压缩相比，该效果通过修改音频信号使其听起来更响亮。

    接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

    .. note:: 待处理音频维度需为(..., time)。

    **参数：**

    - **enhancement_amount** (float) - 控制音频增益的量。取值范围为[0,100]（默认为75.0）。注意当 `enhancement_amount` 等于0时，对比度增强效果仍然会很显著。
    - **enhancement_amount** (float, 可选) - 控制音频增益的量，取值范围为[0,100]，默认值：75.0。请注意当 `enhancement_amount` 等于0时，对比度增强效果仍然会很显著。

    **样例：**

--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.FrequencyMasking.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.FrequencyMasking.rst
@@ -3,14 +3,16 @@ mindspore.dataset.audio.transforms.FrequencyMasking

 .. py:class:: mindspore.dataset.audio.transforms.FrequencyMasking(iid_masks=False, frequency_mask_param=0, mask_start=0, mask_value=0.0)

    给音频波形添加频域掩码。
    给音频波形施加频域掩码。

    .. note:: 待处理音频维度需为(..., freq, time)。

    **参数：**

    - **iid_masks** (bool, optional) - 是否添加随机掩码（默认为False）。
    - **frequency_mask_param** (int) - 当 `iid_masks` 为True时，掩码长度将从[0, frequency_mask_param]中均匀采样；当 `iid_masks` 为False时，使用该值作为掩码的长度。取值范围为[0, freq_length]，其中 `freq_length` 为波形在频域的长度（默认为0）。
    - **mask_start** (int) - 添加掩码的起始位置，只有当 `iid_masks` 为True时，该值才会生效。取值范围为[0, freq_length - frequency_mask_param]，其中 `freq_length` 为波形在频域的长度（默认为0）。
    - **mask_value** (double) - 添加掩码的取值（默认为0.0）。
    - **iid_masks** (bool, 可选) - 是否施加随机掩码，默认值：False。
    - **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时，掩码长度将从[0, freq_mask_param]中均匀采样；当 `iid_masks` 为False时，直接使用该值作为掩码长度。取值范围为[0, freq_length]，其中 `freq_length` 为音频波形在频域的长度，默认值：0。
    - **mask_start** (int, 可选) - 添加掩码的起始位置，只有当 `iid_masks` 为True时，该值才会生效。取值范围为[0, freq_length - freq_mask_param]，其中 `freq_length` 为音频波形在频域的长度，默认值：0。
    - **mask_value** (float, 可选) - 掩码填充值，默认值：0.0。

    **样例：**

@@ -20,3 +22,8 @@ mindspore.dataset.audio.transforms.FrequencyMasking
    >>> numpy_slices_dataset = ds.NumpySlicesDataset(data=waveform, column_names=["audio"])
    >>> transforms = [audio.FrequencyMasking(frequency_mask_param=1)]
    >>> numpy_slices_dataset = numpy_slices_dataset.map(operations=transforms, input_columns=["audio"])

    .. image:: api_img/dataset/frequency_masking_original.png

    .. image:: api_img/dataset/frequency_masking.png

--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.LowpassBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.LowpassBiquad.rst
@@ -3,14 +3,23 @@ mindspore.dataset.audio.transforms.LowpassBiquad

 .. py:class:: mindspore.dataset.audio.transforms.LowpassBiquad(sample_rate, cutoff_freq, Q=0.707)

    给形如(..., time)维度的音频波形施加双极低通滤波器。实现方式类似于SoX库。
    给音频波形施加双极点低通滤波器。

    **参数：**
    低通滤波器允许低频信号通过，但减弱频率高于截止频率的信号，其系统函数为：

    .. math::
        H(s) = \frac{1}{s^2 + \frac{s}{Q} + 1}

    接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

    - **sample_rate** (int) - 采样率，例如44100 (Hz)，不能为零。
    - **cutoff_freq** (float) - 中心频率（单位：Hz）。
    - **Q** (float, optional) - 品质因子，参考 https://en.wikipedia.org/wiki/Q_factor，取值范围(0, 1]（默认值为0.707）。
    .. note:: 待处理音频维度需为(..., time)。

    **参数：**

    - **sample_rate** (int) - 采样频率（单位：Hz），不能为零。
    - **cutoff_freq** (float) - 滤波器截止频率（单位：Hz）。
    - **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ，能够反映带宽与采样频率和中心频率的关系，取值范围(0, 1]，默认值：0.707。
    
    **样例：**

    >>> import numpy as np
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.TimeMasking.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.TimeMasking.rst
@@ -3,14 +3,16 @@ mindspore.dataset.audio.transforms.TimeMasking

 .. py:class:: mindspore.dataset.audio.transforms.TimeMasking(iid_masks=False, time_mask_param=0, mask_start=0, mask_value=0.0)

    给音频波形添加时域掩码。
    给音频波形施加时域掩码。

    .. note:: 待处理音频维度需为(..., freq, time)。

    **参数：**

    - **iid_masks** (bool, optional) - 是否添加随机掩码（默认为False）。
    - **time_mask_param** (int): 当 `iid_masks` 为True时，掩码长度将从[0, time_mask_param]中均匀采样；当 `iid_masks` 为False时，使用该值作为掩码的长度。取值范围为[0, time_length]，其中 `time_length` 为波形在时域的长度（默认为0）。
    - **mask_start** (int) - 添加掩码的起始位置，只有当 `iid_masks` 为True时，该值才会生效。取值范围为[0, time_length - time_mask_param]，其中 `time_length` 为波形在时域的长度（默认为0）。
    - **mask_value** (double) - 添加掩码的取值（默认为0.0）。
    - **iid_masks** (bool, 可选) - 是否施加随机掩码，默认值：False。
    - **time_mask_param** (int, 可选): 当 `iid_masks` 为True时，掩码长度将从[0, time_mask_param]中均匀采样；当 `iid_masks` 为False时，直接使用该值作为掩码的长度。取值范围为[0, time_length]，其中 `time_length` 为音频波形在时域的长度，默认值：0。
    - **mask_start** (int, 可选) - 添加掩码的起始位置，只有当 `iid_masks` 为True时，该值才会生效。取值范围为[0, time_length - time_mask_param]，其中 `time_length` 为音频波形在时域的长度，默认值：0。
    - **mask_value** (float, 可选) - 掩码填充值，默认值：0.0。

    **样例：**

@@ -20,3 +22,7 @@ mindspore.dataset.audio.transforms.TimeMasking
    >>> numpy_slices_dataset = ds.NumpySlicesDataset(data=waveform, column_names=["audio"])
    >>> transforms = [audio.TimeMasking(time_mask_param=1)]
    >>> numpy_slices_dataset = numpy_slices_dataset.map(operations=transforms, input_columns=["audio"])

    .. image:: api_img/dataset/time_masking_original.png

    .. image:: api_img/dataset/time_masking.png
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.TimeStretch.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.TimeStretch.rst
@@ -3,13 +3,15 @@ mindspore.dataset.audio.transforms.TimeStretch

 .. py:class:: mindspore.dataset.audio.transforms.TimeStretch(hop_length=None, n_freq=201, fixed_rate=None)

    以给定的比例拉伸音频短时傅里叶（STFT）频谱的时域，但不改变音频的音高。
    以给定的比例拉伸音频短时傅里叶（Short Time Fourier Transform, STFT）频谱的时域，但不改变音频的音高。

    .. note:: 待处理音频维度需为(..., freq, time, complex=2)，其中第0维代表实部，第1维代表虚部。

    **参数：**

    - **hop_length** (int, optional) - STFT窗之间每跳的长度，即连续帧之间的样本数（默认为None，取 `n_freq - 1`）。
    - **n_freq** (int, optional) - STFT中的滤波器组数（默认为201）。
    - **fixed_rate** (float, optional) - 频谱在时域加快或减缓的比例（默认为None，取1.0）。
    - **hop_length** (int, 可选) - STFT窗之间每跳的长度，即连续帧之间的样本数，默认值：None，表示取 `n_freq - 1`。
    - **n_freq** (int, 可选) - STFT中的滤波器组数，默认值：201。
    - **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例，默认值：None，表示保持原始速率。

    **样例：**

@@ -19,3 +21,9 @@ mindspore.dataset.audio.transforms.TimeStretch
    >>> numpy_slices_dataset = ds.NumpySlicesDataset(data=waveform, column_names=["audio"])
    >>> transforms = [audio.TimeStretch()]
    >>> numpy_slices_dataset = numpy_slices_dataset.map(operations=transforms, input_columns=["audio"])

    .. image:: api_img/dataset/time_stretch_rate1.5.png

    .. image:: api_img/dataset/time_stretch_original.png

    .. image:: api_img/dataset/time_stretch_rate0.8.png
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.utils.ScaleType.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.utils.ScaleType.rst
@@ -7,5 +7,5 @@ mindspore.dataset.audio.utils.ScaleType

    可选枚举值为：ScaleType.MAGNITUDE和ScaleType.POWER。
    
        - **ScaleType.MAGNITUDE**：代表输入音频的标度为振幅。
        - **ScaleType.POWER**：代表输入音频的标度为功率。
        - **ScaleType.MAGNITUDE**：表示输入音频的标度为振幅。
        - **ScaleType.POWER**：表示输入音频的标度为功率。
--- a/docs/api_img/dataset/frequency_masking.png
+++ b/docs/api_img/dataset/frequency_masking.png
--- a/docs/api_img/dataset/frequency_masking_original.png
+++ b/docs/api_img/dataset/frequency_masking_original.png
--- a/docs/api_img/dataset/time_masking.png
+++ b/docs/api_img/dataset/time_masking.png
--- a/docs/api_img/dataset/time_masking_original.png
+++ b/docs/api_img/dataset/time_masking_original.png
--- a/docs/api_img/dataset/time_stretch_original.png
+++ b/docs/api_img/dataset/time_stretch_original.png
--- a/docs/api_img/dataset/time_stretch_rate0.8.png
+++ b/docs/api_img/dataset/time_stretch_rate0.8.png
--- a/docs/api_img/dataset/time_stretch_rate1.5.png
+++ b/docs/api_img/dataset/time_stretch_rate1.5.png