Browse Source

!29008 Fix Chinese API docs of Audio

Merge pull request !29008 from xiaotianci/code_docs_fix_chinese_api
feature/build-system-rewrite
i-robot Gitee 4 years ago
parent
commit
ce8f89e88e
No known key found for this signature in database GPG Key ID: 173E9B9CA92EEF8F
23 changed files with 156 additions and 62 deletions
  1. +6
    -4
      docs/api/api_python/dataset/mindspore.dataset.DSCallback.rst
  2. +8
    -7
      docs/api/api_python/dataset/mindspore.dataset.WaitedDSCallback.rst
  3. +12
    -3
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.AllpassBiquad.rst
  4. +6
    -4
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.AmplitudeToDB.rst
  5. +3
    -1
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.Angle.rst
  6. +10
    -4
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandBiquad.rst
  7. +18
    -4
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandpassBiquad.rst
  8. +15
    -4
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandrejectBiquad.rst
  9. +15
    -6
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BassBiquad.rst
  10. +4
    -2
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.ComplexNorm.rst
  11. +8
    -2
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.Contrast.rst
  12. +12
    -5
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.FrequencyMasking.rst
  13. +14
    -5
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.LowpassBiquad.rst
  14. +11
    -5
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.TimeMasking.rst
  15. +12
    -4
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.TimeStretch.rst
  16. +2
    -2
      docs/api/api_python/dataset_audio/mindspore.dataset.audio.utils.ScaleType.rst
  17. BIN
      docs/api_img/dataset/frequency_masking.png
  18. BIN
      docs/api_img/dataset/frequency_masking_original.png
  19. BIN
      docs/api_img/dataset/time_masking.png
  20. BIN
      docs/api_img/dataset/time_masking_original.png
  21. BIN
      docs/api_img/dataset/time_stretch_original.png
  22. BIN
      docs/api_img/dataset/time_stretch_rate0.8.png
  23. BIN
      docs/api_img/dataset/time_stretch_rate1.5.png

+ 6
- 4
docs/api/api_python/dataset/mindspore.dataset.DSCallback.rst View File

@@ -3,11 +3,13 @@ mindspore.dataset.DSCallback

.. py:class:: mindspore.dataset.DSCallback(step_size=1)

用于自定义数据回调类的抽象基类。
数据处理回调类的抽象基类,用户可以基于此类实现自己的回调操作。

用户可通过 `ds_run_context` 获取数据处理管道相关信息,包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。

**参数:**

- **step_size** (int, optional) - 调用 `ds_step_begin` 和 `ds_step_end` 之间间隔的step数(默认为1)
- **step_size** (int, optional) - 定义相邻的 `ds_step_begin`/`ds_step_end` 调用之间相隔的step数,默认值:1,表示每个step都会调用

**样例:**

@@ -47,7 +49,7 @@ mindspore.dataset.DSCallback

.. py:method:: ds_step_begin(ds_run_context)

用于定义在每个数据step开始前执行的回调方法。
用于定义在指定数据step开始前执行的回调方法。

**参数:**

@@ -55,7 +57,7 @@ mindspore.dataset.DSCallback

.. py:method:: ds_step_end(ds_run_context)

用于定义在每个数据step结束后执行的回调方法。
用于定义在指定数据step结束后执行的回调方法。

**参数:**



+ 8
- 7
docs/api/api_python/dataset/mindspore.dataset.WaitedDSCallback.rst View File

@@ -3,14 +3,15 @@ mindspore.dataset.WaitedDSCallback

.. py:class:: mindspore.dataset.WaitedDSCallback(step_size=1)

数据集自定义回调类的抽象基类,用于与训练回调类(`mindspore.callback <https://mindspore.cn/docs/api/zh-CN/master/api_python/mindspore.train.html#mindspore.train.callback.Callback>`_)的同步。
阻塞式数据处理回调类的抽象基类,用于与训练回调类(`mindspore.callback <https://mindspore.cn/docs/api/zh-CN/master/api_python/mindspore.train.html#mindspore.train.callback.Callback>`_)的同步。

可用于在每个step或epoch开始前执行自定义的回调方法,注意,第二个step或epoch开始时才会触发该调用。
例如在自动数据增强中根据上一个epoch的loss值来更新增强算子参数配置。
可用于在step或epoch开始前执行自定义的回调方法,例如在自动数据增强中根据上一个epoch的loss值来更新增强算子参数配置。

用户可通过 `train_run_context` 获取模型相关信息。如 `network` 、 `train_network` 、 `epoch_num` 、 `batch_num` 、 `loss_fn` 、 `optimizer` 、 `parallel_mode` 、 `device_number` 、 `list_callback` 、 `cur_epoch_num` 、 `cur_step_num` 、 `dataset_sink_mode` 、 `net_outputs` 等,详见 `mindspore.callback <https://mindspore.cn/docs/api/zh-CN/master/api_python/mindspore.train.html#mindspore.train.callback.Callback>`_
注意,第2个step或epoch开始时才会触发该调用

用户可通过 `ds_run_context` 获取数据处理管道相关信息。包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。
用户可通过 `train_run_context` 获取模型相关信息,如 `network` 、 `train_network` 、 `epoch_num` 、 `batch_num` 、 `loss_fn` 、 `optimizer` 、 `parallel_mode` 、 `device_number` 、 `list_callback` 、 `cur_epoch_num` 、 `cur_step_num` 、 `dataset_sink_mode` 、 `net_outputs` 等,详见 `mindspore.callback <https://mindspore.cn/docs/api/zh-CN/master/api_python/mindspore.train.html#mindspore.train.callback.Callback>`_ 。

用户可通过 `ds_run_context` 获取数据处理管道相关信息,包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。

**参数:**

@@ -173,7 +174,7 @@ mindspore.dataset.WaitedDSCallback

.. py:method:: sync_epoch_begin(train_run_context, ds_run_context)

用于定义在每个数据epoch开始前,训练epoch结束后执行的回调方法。
用于定义在数据epoch开始前,训练epoch结束后执行的回调方法。

**参数:**

@@ -182,7 +183,7 @@ mindspore.dataset.WaitedDSCallback

.. py:method:: sync_step_begin(train_run_context, ds_run_context)

用于定义在每个数据step开始前,训练step结束后执行的回调方法。
用于定义在数据step开始前,训练step结束后执行的回调方法。

**参数:**



+ 12
- 3
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.AllpassBiquad.rst View File

@@ -3,13 +3,22 @@ mindspore.dataset.audio.transforms.AllpassBiquad

.. py:class:: mindspore.dataset.audio.transforms.AllpassBiquad(sample_rate, central_freq, Q=0.707)

给形如(..., time)维度的音频波形施加双极全通滤波器。
给音频波形施加双极点全通滤波器,其中心频率和带宽由入参指定。

全通滤波器能够改变音频频率与相位的关系,而不改变频率与幅度的关系,其系统函数为:

.. math::
H(s) = \frac{s^2 - \frac{s}{Q} + 1}{s^2 + \frac{s}{Q} + 1}

接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。
.. note:: 待处理音频维度需为(..., time)。

**参数:**

- **sample_rate** (int) - 采样率,例如44100 (Hz),不能为零。
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
- **central_freq** (float) - 中心频率(单位:Hz)。
- **Q** (float, optional) - 品质因子,参考 https://en.wikipedia.org/wiki/Q_factor,取值范围(0, 1](默认值为0.707)。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707

**样例:**



+ 6
- 4
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.AmplitudeToDB.rst View File

@@ -5,15 +5,17 @@ mindspore.dataset.audio.transforms.AmplitudeToDB

将输入音频从振幅/功率标度转换为分贝标度。

.. note:: 待处理音频维度需为(..., freq, time)。

**参数:**

- **stype** ( :class:`mindspore.dataset.audio.utils.ScaleType` , optional) - 输入音频的原始标度(默认值为ScaleType.POWER)。取值可为ScaleType.MAGNITUDE或ScaleType.POWER。
- **ref_value** (float, optional) - 系数参考值,用于计算分贝系数 `db_multiplier` ,
- **stype** ( :class:`mindspore.dataset.audio.utils.ScaleType` , 可选) - 输入音频的原始标度,取值可为ScaleType.MAGNITUDE或ScaleType.POWER,默认值:ScaleType.POWER。
- **ref_value** (float, 可选) - 系数参考值,默认值:1.0,用于计算分贝系数 `db_multiplier` ,公式为
:math:`db\_multiplier = Log10(max(ref\_value, amin))`。
- **amin** (float, optional) - 波形取值下界,低于该值的波形将会被裁切。取值必须大于0。
- **top_db** (float, optional) - 最小负截止分贝值,建议的取值为80.0(默认值为80.0)
- **amin** (float, 可选) - 波形取值下界,低于该值的波形将会被裁切,取值必须大于0,默认值:1e-10。
- **top_db** (float, 可选) - 最小负截止分贝值,默认值:80.0

**样例:**



+ 3
- 1
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.Angle.rst View File

@@ -3,7 +3,9 @@ mindspore.dataset.audio.transforms.Angle

.. py:class:: mindspore.dataset.audio.transforms.Angle

计算形如(..., complex=2)维度的复数序列的角度,其中第0维代表实部,第1维代表虚部。
计算复数序列的角度。

.. note:: 待处理音频维度需为(..., complex=2),其中第0维代表实部,第1维代表虚部。

**样例:**



+ 10
- 4
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandBiquad.rst View File

@@ -3,14 +3,20 @@ mindspore.dataset.audio.transforms.BandBiquad

.. py:class:: mindspore.dataset.audio.transforms.BandBiquad(sample_rate, central_freq, Q=0.707, noise=False)

给形如(..., time)维度的音频波形施加双极带滤波器。
给音频波形施加双极点带通滤波器。

带通滤波器的频率响应在中心频率附近呈对数下降,下降的斜率由带宽决定,频带两端处输出音频的幅度将是原始幅度的一半。

接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

.. note:: 待处理音频维度需为(..., time)。

**参数:**

- **sample_rate** (int) - 采样率,例如44100 (Hz),不能为零。
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
- **central_freq** (float) - 中心频率(单位:Hz)。
- **Q** (float, optional) - 品质因子,参考 https://en.wikipedia.org/wiki/Q_factor,取值范围(0, 1](默认值为0.707)。
- **noise** (bool, optional) - 若为True,则使用非音调音频(如打击乐)模式;若为False,则使用音调音频(如语音、歌曲或器乐)模式(默认为False)
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707
- **noise** (bool, 可选) - 若为True,则使用非音调音频(如打击乐)模式;若为False,则使用音调音频(如语音、歌曲或器乐)模式,默认值:False

**样例:**



+ 18
- 4
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandpassBiquad.rst View File

@@ -3,14 +3,28 @@ mindspore.dataset.audio.transforms.BandpassBiquad

.. py:class:: mindspore.dataset.audio.transforms.BandpassBiquad(sample_rate, central_freq, Q=0.707, const_skirt_gain=False)

给形如(..., time)维度的音频波形施加双极带通滤波器。实现方式类似于SoX库。
给音频波形施加双极点巴特沃斯(Butterworth)带通滤波器。

巴特沃斯滤波器的特点是通频带内的频率响应曲线最大限度平坦,没有纹波,而在阻频带则逐渐下降为零。

巴特沃斯带通滤波器的系统函数为:

.. math::
H(s) = \begin{cases}
\frac{s}{s^2 + \frac{s}{Q} + 1}, &\text{if const_skirt_gain=True}; \cr
\frac{\frac{s}{Q}}{s^2 + \frac{s}{Q} + 1}, &\text{if const_skirt_gain=False}.
\end{cases}

接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

.. note:: 待处理音频维度需为(..., time)。

**参数:**

- **sample_rate** (int) - 采样率,例如44100 (Hz),不能为零。
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
- **central_freq** (float) - 中心频率(单位:Hz)。
- **Q** (float, optional) - 品质因子,参考 https://en.wikipedia.org/wiki/Q_factor,取值范围(0, 1](默认值为0.707)。
- **const_skirt_gain** (bool, optional) - 若为True,则使用恒定裙边增益(峰值增益为Q)。若为False,则使用恒定的0dB峰值增益(默认为False)。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707
- **const_skirt_gain** (bool, 可选) - 若为True,则使用恒定裙边增益(峰值增益为Q);若为False,则使用恒定的0dB峰值增益。默认值:False

**样例:**



+ 15
- 4
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BandrejectBiquad.rst View File

@@ -3,14 +3,25 @@ mindspore.dataset.audio.transforms.BandrejectBiquad

.. py:class:: mindspore.dataset.audio.transforms.BandrejectBiquad(sample_rate, central_freq, Q=0.707)

给形如(..., time)维度的音频波形施加双极带阻滤波器。
给音频波形施加双极点巴特沃斯(Butterworth)带阻滤波器。

巴特沃斯滤波器的特点是通频带内的频率响应曲线最大限度平坦,没有纹波,而在阻频带则逐渐下降为零。

巴特沃斯带阻滤波器的系统函数为:

.. math::
H(s) = \frac{s^2 + 1}{s^2 + \frac{s}{Q} + 1}

接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

.. note:: 待处理音频维度需为(..., time)。

**参数:**

- **sample_rate** (int) - 采样率,例如44100 (Hz),不能为零。
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
- **central_freq** (float) - 中心频率(单位:Hz)。
- **Q** (float, optional) - 品质因子,参考 https://en.wikipedia.org/wiki/Q_factor,取值范围(0, 1](默认值为0.707)。

- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707
**样例:**

>>> import numpy as np


+ 15
- 6
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.BassBiquad.rst View File

@@ -3,15 +3,24 @@ mindspore.dataset.audio.transforms.BassBiquad

.. py:class:: mindspore.dataset.audio.transforms.BassBiquad(sample_rate, gain, central_freq=100.0, Q=0.707)

形如(..., time)维度的音频波形施加低音控制效果。
给音频波形施加低音控制效果,即双极点低频搁架滤波器

**参数:**
低频搁架滤波器能够通过所有频率,但将低于搁架的频率提升或衰减指定量,其系统函数为:

.. math::
H(s) = A\frac{s^2 + \frac{\sqrt{A}}{Q}s + A}{As^2 + \frac{\sqrt{A}}{Q}s + 1}` 。

接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

- **sample_rate** (int) - 采样率,例如44100 (Hz),不能为零。
- **gain** (float) - 期望提升(或衰减)的音频增益,单位为dB。
- **central_freq** (float) - 中心频率(单位:Hz)。
- **Q** (float, optional) - 品质因子,参考 https://en.wikipedia.org/wiki/Q_factor,取值范围(0, 1](默认值为0.707)。
.. note:: 待处理音频维度需为(..., time)。

**参数:**

- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
- **gain** (float) - 期望提升(或衰减)的音频增益(单位:dB)。
- **central_freq** (float, 可选) - 中心频率(单位:Hz),默认值:100.0。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
**样例:**

>>> import numpy as np


+ 4
- 2
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.ComplexNorm.rst View File

@@ -3,11 +3,13 @@ mindspore.dataset.audio.transforms.ComplexNorm

.. py:class:: mindspore.dataset.audio.transforms.ComplexNorm(power=1.0)

计算形如(..., complex=2)维度的复数序列的范数,其中第0维代表实部,第1维代表虚部。
计算复数序列的范数。

.. note:: 待处理音频维度需为(..., complex=2),其中第0维代表实部,第1维代表虚部。

**参数:**

- **power** (float, optional) - 范数的幂,取值非负(默认为1.0)
- **power** (float, 可选) - 范数的幂,取值必须非负,默认值:1.0

**样例:**



+ 8
- 2
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.Contrast.rst View File

@@ -3,11 +3,17 @@ mindspore.dataset.audio.transforms.Contrast

.. py:class:: mindspore.dataset.audio.transforms.Contrast(enhancement_amount=75.0)

给形如(..., time)维度的音频波形施加对比度增强效果。实现方式类似于SoX库。与音频压缩相比,该效果通过修改音频信号使其听起来更响亮。
给音频波形施加对比度增强效果。

与音频压缩相比,该效果通过修改音频信号使其听起来更响亮。

接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

.. note:: 待处理音频维度需为(..., time)。

**参数:**

- **enhancement_amount** (float) - 控制音频增益的量。取值范围为[0,100](默认为75.0)。注意当 `enhancement_amount` 等于0时,对比度增强效果仍然会很显著。
- **enhancement_amount** (float, 可选) - 控制音频增益的量,取值范围为[0,100],默认值:75.0。请注意当 `enhancement_amount` 等于0时,对比度增强效果仍然会很显著。

**样例:**



+ 12
- 5
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.FrequencyMasking.rst View File

@@ -3,14 +3,16 @@ mindspore.dataset.audio.transforms.FrequencyMasking

.. py:class:: mindspore.dataset.audio.transforms.FrequencyMasking(iid_masks=False, frequency_mask_param=0, mask_start=0, mask_value=0.0)

给音频波形添加频域掩码。
给音频波形施加频域掩码。

.. note:: 待处理音频维度需为(..., freq, time)。

**参数:**

- **iid_masks** (bool, optional) - 是否添加随机掩码(默认为False)
- **frequency_mask_param** (int) - 当 `iid_masks` 为True时,掩码长度将从[0, frequency_mask_param]中均匀采样;当 `iid_masks` 为False时,使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为波形在频域的长度(默认为0)
- **mask_start** (int) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, freq_length - frequency_mask_param],其中 `freq_length` 为波形在频域的长度(默认为0)
- **mask_value** (double) - 添加掩码的取值(默认为0.0)
- **iid_masks** (bool, 可选) - 是否施加随机掩码,默认值:False
- **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时,掩码长度将从[0, freq_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为音频波形在频域的长度,默认值:0
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, freq_length - freq_mask_param],其中 `freq_length` 为音频波形在频域的长度,默认值:0
- **mask_value** (float, 可选) - 掩码填充值,默认值:0.0

**样例:**

@@ -20,3 +22,8 @@ mindspore.dataset.audio.transforms.FrequencyMasking
>>> numpy_slices_dataset = ds.NumpySlicesDataset(data=waveform, column_names=["audio"])
>>> transforms = [audio.FrequencyMasking(frequency_mask_param=1)]
>>> numpy_slices_dataset = numpy_slices_dataset.map(operations=transforms, input_columns=["audio"])

.. image:: api_img/dataset/frequency_masking_original.png

.. image:: api_img/dataset/frequency_masking.png


+ 14
- 5
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.LowpassBiquad.rst View File

@@ -3,14 +3,23 @@ mindspore.dataset.audio.transforms.LowpassBiquad

.. py:class:: mindspore.dataset.audio.transforms.LowpassBiquad(sample_rate, cutoff_freq, Q=0.707)

形如(..., time)维度的音频波形施加双极低通滤波器。实现方式类似于SoX库。
给音频波形施加双极低通滤波器。

**参数:**
低通滤波器允许低频信号通过,但减弱频率高于截止频率的信号,其系统函数为:

.. math::
H(s) = \frac{1}{s^2 + \frac{s}{Q} + 1}

接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。

- **sample_rate** (int) - 采样率,例如44100 (Hz),不能为零。
- **cutoff_freq** (float) - 中心频率(单位:Hz)。
- **Q** (float, optional) - 品质因子,参考 https://en.wikipedia.org/wiki/Q_factor,取值范围(0, 1](默认值为0.707)。
.. note:: 待处理音频维度需为(..., time)
**参数:**

- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
- **cutoff_freq** (float) - 滤波器截止频率(单位:Hz)。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围(0, 1],默认值:0.707。
**样例:**

>>> import numpy as np


+ 11
- 5
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.TimeMasking.rst View File

@@ -3,14 +3,16 @@ mindspore.dataset.audio.transforms.TimeMasking

.. py:class:: mindspore.dataset.audio.transforms.TimeMasking(iid_masks=False, time_mask_param=0, mask_start=0, mask_value=0.0)

给音频波形添加时域掩码。
给音频波形施加时域掩码。

.. note:: 待处理音频维度需为(..., freq, time)。

**参数:**

- **iid_masks** (bool, optional) - 是否添加随机掩码(默认为False)
- **time_mask_param** (int): 当 `iid_masks` 为True时,掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时,使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为波形在时域的长度(默认为0)
- **mask_start** (int) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为波形在时域的长度(默认为0)
- **mask_value** (double) - 添加掩码的取值(默认为0.0)
- **iid_masks** (bool, 可选) - 是否施加随机掩码,默认值:False
- **time_mask_param** (int, 可选): 当 `iid_masks` 为True时,掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为音频波形在时域的长度,默认值:0
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为音频波形在时域的长度,默认值:0
- **mask_value** (float, 可选) - 掩码填充值,默认值:0.0

**样例:**

@@ -20,3 +22,7 @@ mindspore.dataset.audio.transforms.TimeMasking
>>> numpy_slices_dataset = ds.NumpySlicesDataset(data=waveform, column_names=["audio"])
>>> transforms = [audio.TimeMasking(time_mask_param=1)]
>>> numpy_slices_dataset = numpy_slices_dataset.map(operations=transforms, input_columns=["audio"])

.. image:: api_img/dataset/time_masking_original.png

.. image:: api_img/dataset/time_masking.png

+ 12
- 4
docs/api/api_python/dataset_audio/mindspore.dataset.audio.transforms.TimeStretch.rst View File

@@ -3,13 +3,15 @@ mindspore.dataset.audio.transforms.TimeStretch

.. py:class:: mindspore.dataset.audio.transforms.TimeStretch(hop_length=None, n_freq=201, fixed_rate=None)

以给定的比例拉伸音频短时傅里叶(STFT)频谱的时域,但不改变音频的音高。
以给定的比例拉伸音频短时傅里叶(Short Time Fourier Transform, STFT)频谱的时域,但不改变音频的音高。

.. note:: 待处理音频维度需为(..., freq, time, complex=2),其中第0维代表实部,第1维代表虚部。

**参数:**

- **hop_length** (int, optional) - STFT窗之间每跳的长度,即连续帧之间的样本数(默认为None,取 `n_freq - 1`)
- **n_freq** (int, optional) - STFT中的滤波器组数(默认为201)
- **fixed_rate** (float, optional) - 频谱在时域加快或减缓的比例(默认为None,取1.0)
- **hop_length** (int, 可选) - STFT窗之间每跳的长度,即连续帧之间的样本数,默认值:None,表示取 `n_freq - 1`
- **n_freq** (int, 可选) - STFT中的滤波器组数,默认值:201
- **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例,默认值:None,表示保持原始速率

**样例:**

@@ -19,3 +21,9 @@ mindspore.dataset.audio.transforms.TimeStretch
>>> numpy_slices_dataset = ds.NumpySlicesDataset(data=waveform, column_names=["audio"])
>>> transforms = [audio.TimeStretch()]
>>> numpy_slices_dataset = numpy_slices_dataset.map(operations=transforms, input_columns=["audio"])

.. image:: api_img/dataset/time_stretch_rate1.5.png

.. image:: api_img/dataset/time_stretch_original.png

.. image:: api_img/dataset/time_stretch_rate0.8.png

+ 2
- 2
docs/api/api_python/dataset_audio/mindspore.dataset.audio.utils.ScaleType.rst View File

@@ -7,5 +7,5 @@ mindspore.dataset.audio.utils.ScaleType

可选枚举值为:ScaleType.MAGNITUDE和ScaleType.POWER。
- **ScaleType.MAGNITUDE**:表输入音频的标度为振幅。
- **ScaleType.POWER**:表输入音频的标度为功率。
- **ScaleType.MAGNITUDE**:表输入音频的标度为振幅。
- **ScaleType.POWER**:表输入音频的标度为功率。

BIN
docs/api_img/dataset/frequency_masking.png View File

Before After
Width: 640  |  Height: 480  |  Size: 210 kB

BIN
docs/api_img/dataset/frequency_masking_original.png View File

Before After
Width: 640  |  Height: 480  |  Size: 236 kB

BIN
docs/api_img/dataset/time_masking.png View File

Before After
Width: 640  |  Height: 480  |  Size: 220 kB

BIN
docs/api_img/dataset/time_masking_original.png View File

Before After
Width: 640  |  Height: 480  |  Size: 236 kB

BIN
docs/api_img/dataset/time_stretch_original.png View File

Before After
Width: 640  |  Height: 480  |  Size: 121 kB

BIN
docs/api_img/dataset/time_stretch_rate0.8.png View File

Before After
Width: 640  |  Height: 480  |  Size: 140 kB

BIN
docs/api_img/dataset/time_stretch_rate1.5.png View File

Before After
Width: 640  |  Height: 480  |  Size: 91 kB

Loading…
Cancel
Save