perf(mge/optimizer): close conver_inputs for optimizer step

GitOrigin-RevId: c710530d93
5 years ago · 1fed59293b
--- a/imperative/python/megengine/core/tensor/utils.py
+++ b/imperative/python/megengine/core/tensor/utils.py
@@ -16,6 +16,25 @@ from ..ops.special import Const
 from ..tensor.core import OpBase, TensorBase, TensorWrapperBase, apply
 from .dtype import is_equal, is_quantize
 _enable_convert_inputs = True
 def get_convert_inputs():
    """ get the curerent state of `_enable_convert_inputs` """
    return _enable_convert_inputs
 def set_convert_inputs(flag):
    """ This function is a temporary workaround for reducing the overhead of operator
    invocations. The function `convert_inputs` is disabled if the global state
    `_enable_convert_inputs` is set to `False`, otherwise enabled. This function is for
    internal use only, and should be removed when the tensor-like system is refactored.
    """
    global _enable_convert_inputs
    backup = _enable_convert_inputs
    _enable_convert_inputs = flag
    return backup
 def dtype_promotion(inputs):
    """
@@ -129,6 +148,9 @@ def convert_single_value(v, inputs, *, dtype=None, device=None):
 def convert_inputs(*args: TensorBase):
    if not _enable_convert_inputs:
        return args
    dtype = dtype_promotion(args)
    device = get_device(args)
--- a/imperative/python/megengine/optimizer/adadelta.py
+++ b/imperative/python/megengine/optimizer/adadelta.py
@@ -10,8 +10,8 @@ from typing import Iterable, Union
 import numpy as np
 from ..functional import sqrt
 from ..tensor import Parameter
 from ..core.tensor.tensor import Tensor
 from ..tensor import Parameter, tensor
 from .optimizer import Optimizer
@@ -62,6 +62,16 @@ class Adadelta(Optimizer):
        rho = param_group["rho"]
        eps = param_group["eps"]
        # since `conver_inputs` is disabled for param updates,
        # scalar should be explicitly tansforred to tensor
        _lr = tensor([lr])
        _weight_decay = tensor([weight_decay])
        _rho = tensor([rho])
        _eps = tensor([eps])
        c05 = tensor([0.5])
        c1 = tensor([1.0])
        c2 = tensor([2.0])
        for param in param_group["params"]:
            if param.grad is None:
@@ -69,17 +79,17 @@ class Adadelta(Optimizer):
            states = self._state[param]
            step = states["step"]
            step += 1.0
            step += c1
            grad = param.grad
            if weight_decay != 0.0:
                grad += param * weight_decay
                grad += param * _weight_decay
            square_avg = states["square_avg"]
            acc_delta = states["acc_delta"]
            square_avg = rho * square_avg + (1 - rho) * grad ** 2
            std = sqrt(square_avg + eps)
            delta = sqrt(acc_delta + eps) / std * grad
            param -= lr * delta
            acc_delta = rho * acc_delta + (1 - rho) * delta ** 2
            square_avg = _rho * square_avg + (c1 - _rho) * grad ** c2
            std = (square_avg + _eps) ** c05
            delta = (acc_delta + _eps) ** c05 / std * grad
            param -= _lr * delta
            acc_delta = _rho * acc_delta + (c1 - _rho) * delta ** c2
            states["square_avg"]._reset(square_avg)
            states["acc_delta"]._reset(acc_delta)
--- a/imperative/python/megengine/optimizer/adagrad.py
+++ b/imperative/python/megengine/optimizer/adagrad.py
@@ -10,8 +10,8 @@ from typing import Iterable, Union
 import numpy as np
 from ..functional import sqrt
 from ..tensor import Parameter
 from ..core.tensor.tensor import Tensor
 from ..tensor import Parameter, tensor
 from .optimizer import Optimizer
@@ -61,6 +61,16 @@ class Adagrad(Optimizer):
        weight_decay = param_group["weight_decay"]
        eps = param_group["eps"]
        # since `conver_inputs` is disabled for param updates,
        # scalar should be explicitly tansforred to tensor
        _lr = tensor([lr])
        _lr_decay = tensor([lr_decay])
        _weight_decay = tensor([weight_decay])
        _eps = tensor([eps])
        c05 = tensor([0.5])
        c1 = tensor([1.0])
        c2 = tensor([2.0])
        for param in param_group["params"]:
            if param.grad is None:
@@ -68,14 +78,14 @@ class Adagrad(Optimizer):
            states = self._state[param]
            step = states["step"]
            step += 1.0
            step += c1
            grad = param.grad
            if weight_decay != 0.0:
                grad += param * weight_decay
                grad += param * _weight_decay
            square_avg = states["square_avg"]
            square_avg += grad ** 2
            delta = grad / sqrt(square_avg + eps)
            clr = lr / (1 + (step - 1) * lr_decay)
            square_avg += grad ** c2
            delta = grad / (square_avg + _eps) ** c05
            clr = _lr / (c1 + (step - c1) * _lr_decay)
            param -= clr * delta
--- a/imperative/python/megengine/optimizer/adam.py
+++ b/imperative/python/megengine/optimizer/adam.py
@@ -8,7 +8,8 @@
 # "AS IS" BASIS, WITHOUT ARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 from typing import Iterable, Tuple, Union
 from ..tensor import Parameter
 from ..core.tensor.tensor import Tensor
 from ..tensor import Parameter, tensor
 from .optimizer import Optimizer
@@ -58,6 +59,15 @@ class Adam(Optimizer):
        eps = param_group["eps"]
        beta0, beta1 = param_group["betas"]
        # since `conver_inputs` is disabled for param updates,
        # scalar should be explicitly tansforred to tensor
        _lr = tensor([lr])
        _weight_decay = tensor([weight_decay])
        _eps = tensor([eps])
        _beta0, _beta1 = tensor([beta0]), tensor([beta1])
        c1 = tensor([1.0])
        c05 = tensor([0.5])
        for param in param_group["params"]:
            if param.grad is None:
@@ -65,20 +75,20 @@ class Adam(Optimizer):
            grad = param.grad
            if weight_decay != 0.0:
                grad += param * weight_decay
                grad += param * _weight_decay
            states = self._state[param]
            step = states["step"]
            step += 1.0
            step += c1
            exp_avg = states["exp_avg"]
            exp_avg_sq = states["exp_avg_sq"]
            exp_avg = beta0 * exp_avg + grad * (1 - beta0)
            exp_avg_sq = beta1 * exp_avg_sq + (1 - beta1) * (grad * grad)
            exp_avg = _beta0 * exp_avg + grad * (c1 - _beta0)
            exp_avg_sq = _beta1 * exp_avg_sq + (c1 - _beta1) * (grad * grad)
            delta = (exp_avg / (1 - beta0 ** step)) / (
                (exp_avg_sq / (1 - beta1 ** step)) ** 0.5 + eps
            delta = (exp_avg / (c1 - _beta0 ** step)) / (
                (exp_avg_sq / (c1 - _beta1 ** step)) ** c05 + _eps
            )
            param -= lr * delta
            param -= _lr * delta
            # not inplace change, need to update underlying tensor handler in state
            states["exp_avg"]._reset(exp_avg)
--- a/imperative/python/megengine/optimizer/optimizer.py
+++ b/imperative/python/megengine/optimizer/optimizer.py
@@ -15,6 +15,7 @@ from typing import Union
 import numpy as np
 from ..core.tensor.utils import set_convert_inputs
 from ..tensor import Parameter, Tensor
 from ..utils.deprecation import deprecated
@@ -143,6 +144,9 @@ class Optimizer(metaclass=ABCMeta):
        Performs a single optimization step.
        """
        # set the globle state `_enable_convert_inputs` to `False` to disable
        # the `convert_inputs` for param updates
        backup = set_convert_inputs(False)
        for group in self.param_groups:
            if isinstance(group["params"], set):
                raise TypeError(
@@ -151,6 +155,8 @@ class Optimizer(metaclass=ABCMeta):
                    "Please use a list instead."
                )
            self._updates(group)
        # restore the globle state `_enable_convert_inputs`
        set_convert_inputs(backup)
        return self
    @deprecated(version="1.0", reason="use clear_grad instead")
--- a/imperative/python/megengine/optimizer/sgd.py
+++ b/imperative/python/megengine/optimizer/sgd.py
@@ -8,7 +8,8 @@
 # "AS IS" BASIS, WITHOUT ARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 from typing import Iterable, Union
 from ..tensor import Parameter
 from ..core.tensor.tensor import Tensor
 from ..tensor import Parameter, tensor
 from .optimizer import Optimizer
@@ -52,18 +53,24 @@ class SGD(Optimizer):
        weight_decay = param_group["weight_decay"]
        momentum = param_group["momentum"]
        # since `conver_inputs` is disabled for param updates,
        # scalar should be explicitly tansforred to tensor
        _lr = tensor([lr])
        _weight_decay = tensor([weight_decay])
        _momentum = tensor([momentum])
        for param in param_group["params"]:
            if param.grad is None:
                continue
            grad = param.grad
            if weight_decay != 0.0:
                grad += param * weight_decay
                grad += param * _weight_decay
            if momentum:
                v = self._state[param]["momentum_buffer"]
                v = momentum * v + grad
                param -= lr * v
                v = _momentum * v + grad
                param -= _lr * v
                self._state[param]["momentum_buffer"]._reset(v)
            else:
                param -= lr * grad
                param -= _lr * grad