zzy34407230
/
mindspore2022

Class mindspore.nn.Adam(*args, **kwargs)

    ͨ��Adaptive Moment Estimation (Adam)�㷨�����ݶȡ�

    ���������`Adam: A Method for Stochastic Optimization <https://arxiv.org/abs/1412.6980>`_��

    ��ʽ���£�

    .. math::
        \begin{array}{ll} \\
            m_{t+1} = \beta_1 * m_{t} + (1 - \beta_1) * g \\
            v_{t+1} = \beta_2 * v_{t} + (1 - \beta_2) * g * g \\
            l = \alpha * \frac{\sqrt{1-\beta_2^t}}{1-\beta_1^t} \\
            w_{t+1} = w_{t} - l * \frac{m_{t+1}}{\sqrt{v_{t+1}} + \epsilon}
        \end{array}

    :math:`m`������һ����������`moment1`��:math:`v`�����ڶ�����������`moment2`��:math:`g`����`gradients`��:math:`l`�����������ӣ�:math:`\beta_1,\beta_2`����`beta1`��`beta2`��:math:`t`�������²��裬:math:`beta_1^t`��:math:`beta_2^t`����`beta1_power`��`beta2_power`��:math:`\alpha`����`learning_rate`��:math:`w`����`params`��:math:`\epsilon`����`eps`��

    ע��
        ���ǰ������ʹ����SparseGatherV2�����ӣ��Ż�����ִ��ϡ�����㣬ͨ������`target`ΪCPU������������host���Ͻ���ϡ�����㡣
        ϡ�������ڳ��������С�

        �ڲ���δ����ʱ���Ż������õ�`weight_decay`Ӧ�������ƺ���"beta"��"gamma"�����������ͨ�������������ɵ���Ȩ��˥�����ԡ�����ʱ��ÿ�����������������`weight_decay`����δ���ã�������������ʹ���Ż��������õ�`weight_decay`��


    ������
        params (Union[list[Parameter], list[dict]]): ������`Parameter`��ɵ��б����ֵ���ɵ��б������б�Ԫ�����ֵ�ʱ���ֵ�ļ�������"params"��"lr"��"weight_decay"��"grad_centralization"��"order_params"��

            - params: �����ǰ����Ȩ�أ���ֵ������`Parameter`�б���

            - lr: ��ѡ��������д���"lr"����ʹ�ö�Ӧ��ֵ��Ϊѧϰ�ʡ�
              ���û�У���ʹ���Ż��������õ�`learning_rate`��Ϊѧϰ�ʡ�

            - weight_decay: ��ѡ��������д���"weight_decay������ʹ�ö�Ӧ��ֵ��ΪȨ��˥��ֵ�����û�У���ʹ���Ż��������õ�`weight_decay`��ΪȨ��˥��ֵ��

            - grad_centralization: ��ѡ��������д���"grad_centralization"����ʹ�ö�Ӧ��ֵ����ֵ����Ϊ�������͡����û�У�����Ϊ`grad_centralization`ΪFalse��
              �ò����������ھ����㡣

            - order_params: ��ѡ����Ӧֵ��Ԥ�ڵĲ�������˳�򡣵�ʹ�ò������鹦��ʱ��ͨ��ʹ�ø��������`parameters`��˳�����������ܡ�
              ������д���"order_params"�������Ը��������е���������"order_params"�еĲ���������ĳһ��`params`�����С�

        learning_rate (Union[float, Tensor, Iterable, LearningRateSchedule]): Ĭ��ֵ��1e-3��

            - float: �̶���ѧϰ�ʡ�������ڵ����㡣

            - int: �̶���ѧϰ�ʡ�������ڵ����㡣�������ͻᱻת��Ϊ��������

            - Tensor: �����Ǳ�����һά�����������ǹ̶���ѧϰ�ʡ�һά�����Ƕ�̬��ѧϰ�ʣ���i����ȡ�����е�i��ֵ��Ϊѧϰ�ʡ�

            - Iterable: ��̬��ѧϰ�ʡ���i����ȡ��������i��ֵ��Ϊѧϰ�ʡ�

            - LearningRateSchedule: ��̬��ѧϰ�ʡ���ѵ�������У��Ż�����ʹ�ò�����step����Ϊ���룬����`LearningRateSchedule`ʵ�������㵱ǰѧϰ�ʡ�

        beta1 (float): `moment1`��ָ��˥���ʡ�������Χ��0.0,1.0����
                       Ĭ��ֵ��0.9��

        beta2 (float): `moment2`��ָ��˥���ʡ�������Χ��0.0,1.0����
                       Ĭ��ֵ��0.999��

        eps (float): �����ӵ���ĸ�У��������ֵ�ȶ��ԡ��������0��Ĭ��ֵ��1e-8��

        use_locking (bool): �Ƿ�Բ������¼���������
            ���ΪTrue����`w`��`m`��`v`��tensor���½��ܵ����ı�����
            ���ΪFalse����������Ԥ�⡣Ĭ��ֵ��False��

        use_nesterov (bool): �Ƿ�ʹ��Nesterov Accelerated Gradient (NAG)�㷨�����ݶȡ�
            ���ΪTrue��ʹ��NAG�����ݶȡ�
            ���ΪFalse�����ڲ�ʹ��NAG������¸����ݶȡ�Ĭ��ֵ��False��

        weight_decay (float): Ȩ��˥����L2 penalty����������ڵ���0��Ĭ��ֵ��0.0��

        loss_scale (float):    �ݶ�����ϵ�����������0�����`loss_scale`��������������ת��Ϊ��������ͨ��ʹ��Ĭ��ֵ������ѵ��ʱʹ����`FixedLossScaleManager`����`FixedLossScaleManager`��`drop_overflow_update`��������ΪFalseʱ����ֵ��Ҫ��`FixedLossScaleManager`�е�`loss_scale`��ͬ���йظ�����ϸ��Ϣ�������class��`mindspore.FixedLossScaleManager`��
            Ĭ��ֵ��1.0��

    ���룺
        - **gradients** (tuple[Tensor]) - `params`���ݶȣ���״��shape����`params`��ͬ��

    �����
        Tensor[bool]��ֵΪTrue��

    �쳣��
        TypeError: `learning_rate`����int��float��Tensor��Iterable��LearningRateSchedule��
        TypeError: `parameters`��Ԫ�ز���Parameter���ֵ䡣
        TypeError: `beta1`��`beta2`��`eps`��`loss_scale`����float��
        TypeError: `weight_decay`����float��int��
        TypeError: `use_locking`��`use_nesterov`����bool��
        ValueError: `loss_scale`��`eps`С�ڻ����0��
        ValueError: `beta1`��`beta2`���ڣ�0.0,1.0����Χ�ڡ�
        ValueError: `weight_decay`С��0��

    ֧��ƽ̨��
        ``Ascend`` ``GPU``  ``CPU``

    ʾ����
        >>> net = Net()
        >>> #1) ���в���ʹ����ͬ��ѧϰ�ʺ�Ȩ��˥��
        >>> optim = nn.Adam(params=net.trainable_params())
        >>>
        >>> #2) ʹ�ò����鲢���ò�ͬ��ֵ
        >>> conv_params = list(filter(lambda x: 'conv' in x.name, net.trainable_params()))
        >>> no_conv_params = list(filter(lambda x: 'conv' not in x.name, net.trainable_params()))
        >>> group_params = [{'params': conv_params, 'weight_decay': 0.01, 'grad_centralization':True},
        ...                 {'params': no_conv_params, 'lr': 0.01},
        ...                 {'order_params': net.trainable_params()}]
        >>> optim = nn.Adam(group_params, learning_rate=0.1, weight_decay=0.0)
        >>> # conv_params�����齫ʹ���Ż����е�ѧϰ��0.1�������Ȩ��˥��0.01��������ݶ����Ļ�����True��
        >>> # no_conv_params�����齫ʹ�ø����ѧϰ��0.01���Ż����е�Ȩ��˥��0.0���ݶ����Ļ�ʹ��Ĭ��ֵFalse��
        >>> # �Ż�������"order_params"���õĲ���˳����²�����
        >>>
        >>> loss = nn.SoftmaxCrossEntropyWithLogits()
        >>> model = Model(net, loss_fn=loss, optimizer=optim)
    

target

        ����������ָ����������host���ϻ����豸��device���ϸ��²�������������Ϊstr��ֻ����'CPU'��'Ascend'��'GPU'��