zzy34407230
/
mindspore2022

mindspore.nn.Adam
==================

.. py:class:: mindspore.nn.Adam(*args, **kwargs)

    ͨ��Adaptive Moment Estimation (Adam)�㷨�����ݶȡ�

    ���������`Adam: A Method for Stochastic Optimization <https://arxiv.org/abs/1412.6980>`_��

    ��ʽ���£�

    .. math::
        \begin{array}{ll} \\
            m_{t+1} = \beta_1 * m_{t} + (1 - \beta_1) * g \\
            v_{t+1} = \beta_2 * v_{t} + (1 - \beta_2) * g * g \\
            l = \alpha * \frac{\sqrt{1-\beta_2^t}}{1-\beta_1^t} \\
            w_{t+1} = w_{t} - l * \frac{m_{t+1}}{\sqrt{v_{t+1}} + \epsilon}
        \end{array}

    :math:`m` ������һ���������� `moment1` ��:math:`v` �����ڶ����������� `moment2` ��:math:`g` ���� `gradients` ��:math:`l` �����������ӣ�:math:`\beta_1,\beta_2` ���� `beta1` �� `beta2` ��:math:`t` �������²��裬:math:`beta_1^t` ��:math:`beta_2^t` ���� `beta1_power` �� `beta2_power` ��:math:`\alpha` ���� `learning_rate` ��:math:`w` ���� `params` ��:math:`\epsilon` ���� `eps` ��

    .. note::
        ���ǰ������ʹ����SparseGatherV2�����ӣ��Ż�����ִ��ϡ�����㣬ͨ������ `target` ΪCPU������������host���Ͻ���ϡ�����㡣
        ϡ�������ڳ��������С�
  
        �ڲ���δ����ʱ���Ż������õ� `weight_decay` Ӧ�������ƺ���"beta"��"gamma"�����������ͨ�������������ɵ���Ȩ��˥�����ԡ�����ʱ��ÿ����������������� `weight_decay` ����δ���ã�������������ʹ���Ż��������õ� `weight_decay` ��


    **������**

    - **params** (Union[list[Parameter], list[dict]]) - ������ `Parameter` ��ɵ��б����ֵ���ɵ��б������б�Ԫ�����ֵ�ʱ���ֵ�ļ�������"params"��"lr"��"weight_decay"��"grad_centralization"��"order_params"��
            
      - **params** - �����ǰ����Ȩ�أ���ֵ������ `Parameter` �б���
      - **lr** - ��ѡ��������д���"lr"����ʹ�ö�Ӧ��ֵ��Ϊѧϰ�ʡ����û�У���ʹ���Ż��������õ� `learning_rate` ��Ϊѧϰ�ʡ�
      - **weight_decay** - ��ѡ��������д���"weight_decay������ʹ�ö�Ӧ��ֵ��ΪȨ��˥��ֵ�����û�У���ʹ���Ż��������õ� `weight_decay` ��ΪȨ��˥��ֵ��
      - **grad_centralization** - ��ѡ��������д���"grad_centralization"����ʹ�ö�Ӧ��ֵ����ֵ����Ϊ�������͡����û�У�����Ϊ `grad_centralization` ΪFalse���ò����������ھ����㡣
      - **order_params** - ��ѡ����Ӧֵ��Ԥ�ڵĲ�������˳�򡣵�ʹ�ò������鹦��ʱ��ͨ��ʹ�ø�������� `parameters` ��˳�����������ܡ�������д���"order_params"�������Ը��������е���������"order_params"�еĲ���������ĳһ�� `params` �����С�
    
    - **learning_rate (Union[float, Tensor, Iterable, LearningRateSchedule]): Ĭ��ֵ��1e-3��

      - **float** - �̶���ѧϰ�ʡ�������ڵ����㡣
      - **int** - �̶���ѧϰ�ʡ�������ڵ����㡣�������ͻᱻת��Ϊ��������
      - **Tensor** - �����Ǳ�����һά�����������ǹ̶���ѧϰ�ʡ�һά�����Ƕ�̬��ѧϰ�ʣ���i����ȡ�����е�i��ֵ��Ϊѧϰ�ʡ�
      - **Iterable** - ��̬��ѧϰ�ʡ���i����ȡ��������i��ֵ��Ϊѧϰ�ʡ�
      - **LearningRateSchedule** - ��̬��ѧϰ�ʡ���ѵ�������У��Ż�����ʹ�ò�����step����Ϊ���룬���� `LearningRateSchedule` ʵ�������㵱ǰѧϰ�ʡ�
    
    - **beta1** (float) - `moment1` ��ָ��˥���ʡ�������Χ��0.0,1.0����Ĭ��ֵ��0.9��
    - **beta2** (float) - `moment2` ��ָ��˥���ʡ�������Χ��0.0,1.0����Ĭ��ֵ��0.999��
    - **eps** (float) - �����ӵ���ĸ�У��������ֵ�ȶ��ԡ��������0��Ĭ��ֵ��1e-8��
    - **use_locking** (bool) - �Ƿ�Բ������¼������������ΪTrue���� `w` ��`m` �� `v` ��tensor���½��ܵ����ı��������ΪFalse����������Ԥ�⡣Ĭ��ֵ��False��
    - **use_nesterov** (bool) - �Ƿ�ʹ��Nesterov Accelerated Gradient (NAG)�㷨�����ݶȡ����ΪTrue��ʹ��NAG�����ݶȡ����ΪFalse�����ڲ�ʹ��NAG������¸����ݶȡ�Ĭ��ֵ��False��
    - **weight_decay** (float) - Ȩ��˥����L2 penalty����������ڵ���0��Ĭ��ֵ��0.0��
    - **loss_scale** (float) - �ݶ�����ϵ�����������0����� `loss_scale` ��������������ת��Ϊ��������ͨ��ʹ��Ĭ��ֵ������ѵ��ʱʹ���� `FixedLossScaleManager` ���� `FixedLossScaleManager` �� `drop_overflow_update` ��������ΪFalseʱ����ֵ��Ҫ�� `FixedLossScaleManager` �е� `loss_scale` ��ͬ���йظ�����ϸ��Ϣ�������class��`mindspore.FixedLossScaleManager` ��Ĭ��ֵ��1.0��

    **���룺**

    **gradients** (tuple[Tensor]) - `params` ���ݶȣ���״��shape���� `params` ��ͬ��

    **�����**

    Tensor[bool]��ֵΪTrue��

    **�쳣��**

    - **TypeError** - `learning_rate` ����int��float��Tensor��Iterable��LearningRateSchedule��
    - **TypeError** - `parameters` ��Ԫ�ز���Parameter���ֵ䡣
    - **TypeError** - `beta1` ��`beta2` �� `eps` �� `loss_scale` ����float��
    - **TypeError** - `weight_decay` ����float��int��
    - **TypeError** - `use_locking` �� `use_nesterov` ����bool��
    - **ValueError** - `loss_scale` �� `eps` С�ڻ����0��
    - **ValueError** - `beta1` ��`beta2` ���ڣ�0.0,1.0����Χ�ڡ�
    - **ValueError** - `weight_decay` С��0��

    **֧��ƽ̨��**

    ``Ascend``  ``GPU``  ``CPU``

    **������**
    
    >>> net = Net()
    >>> #1) ���в���ʹ����ͬ��ѧϰ�ʺ�Ȩ��˥��
    >>> optim = nn.Adam(params=net.trainable_params())
    >>>
    >>> #2) ʹ�ò����鲢���ò�ͬ��ֵ
    >>> conv_params = list(filter(lambda x: 'conv' in x.name, net.trainable_params()))
    >>> no_conv_params = list(filter(lambda x: 'conv' not in x.name, net.trainable_params()))
    >>> group_params = [{'params': conv_params, 'weight_decay': 0.01, 'grad_centralization':True},
    ...                 {'params': no_conv_params, 'lr': 0.01},
    ...                 {'order_params': net.trainable_params()}]
    >>> optim = nn.Adam(group_params, learning_rate=0.1, weight_decay=0.0)
    >>> # conv_params�����齫ʹ���Ż����е�ѧϰ��0.1�������Ȩ��˥��0.01��������ݶ����Ļ�����True��
    >>> # no_conv_params�����齫ʹ�ø����ѧϰ��0.01���Ż����е�Ȩ��˥��0.0���ݶ����Ļ�ʹ��Ĭ��ֵFalse��
    >>> # �Ż�������"order_params"���õĲ���˳����²�����
    >>>
    >>> loss = nn.SoftmaxCrossEntropyWithLogits()
    >>> model = Model(net, loss_fn=loss, optimizer=optim)
    

    .. py:method:: target
        :property:

        ����������ָ����������host���ϻ����豸��device���ϸ��²�������������Ϊstr��ֻ����'CPU'��'Ascend'��'GPU'��