|
|
|
@@ -685,6 +685,9 @@ void Conv3x3Int8OutputUnit(const int32_t *gemm_out, const int32_t *bias_data, in |
|
|
|
|
|
|
|
d00 = vqshlq_s32(d00, ls); |
|
|
|
d00 = vqrdmulhq_s32(d00, out_multiplier); |
|
|
|
int32x4_t carry = vandq_s32(d00, rs); |
|
|
|
carry = vshrq_n_s32(carry, 31); |
|
|
|
d00 = vqaddq_s32(d00, carry); |
|
|
|
d00 = vqrshlq_s32(d00, rs); |
|
|
|
d00 = vaddq_s32(d00, out_zp); |
|
|
|
d00 = vmaxq_s32(d00, output_min); |
|
|
|
@@ -692,6 +695,9 @@ void Conv3x3Int8OutputUnit(const int32_t *gemm_out, const int32_t *bias_data, in |
|
|
|
|
|
|
|
d01 = vqshlq_s32(d01, ls); |
|
|
|
d01 = vqrdmulhq_s32(d01, out_multiplier); |
|
|
|
carry = vandq_s32(d01, rs); |
|
|
|
carry = vshrq_n_s32(carry, 31); |
|
|
|
d01 = vqaddq_s32(d01, carry); |
|
|
|
d01 = vqrshlq_s32(d01, rs); |
|
|
|
d01 = vaddq_s32(d01, out_zp); |
|
|
|
d01 = vmaxq_s32(d01, output_min); |
|
|
|
@@ -699,6 +705,9 @@ void Conv3x3Int8OutputUnit(const int32_t *gemm_out, const int32_t *bias_data, in |
|
|
|
|
|
|
|
d10 = vqshlq_s32(d10, ls); |
|
|
|
d10 = vqrdmulhq_s32(d10, out_multiplier); |
|
|
|
carry = vandq_s32(d10, rs); |
|
|
|
carry = vshrq_n_s32(carry, 31); |
|
|
|
d10 = vqaddq_s32(d10, carry); |
|
|
|
d10 = vqrshlq_s32(d10, rs); |
|
|
|
d10 = vaddq_s32(d10, out_zp); |
|
|
|
d10 = vmaxq_s32(d10, output_min); |
|
|
|
@@ -706,6 +715,9 @@ void Conv3x3Int8OutputUnit(const int32_t *gemm_out, const int32_t *bias_data, in |
|
|
|
|
|
|
|
d11 = vqshlq_s32(d11, ls); |
|
|
|
d11 = vqrdmulhq_s32(d11, out_multiplier); |
|
|
|
carry = vandq_s32(d11, rs); |
|
|
|
carry = vshrq_n_s32(carry, 31); |
|
|
|
d11 = vqaddq_s32(d11, carry); |
|
|
|
d11 = vqrshlq_s32(d11, rs); |
|
|
|
d11 = vaddq_s32(d11, out_zp); |
|
|
|
d11 = vmaxq_s32(d11, output_min); |
|
|
|
|