gemmlowp/fixedpoint/fixedpoint.h

*5f39d1b3SJooyung Han// Copyright 2015 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// fixedpoint.h: fixed-point arithmetic, with basic operations and
*5f39d1b3SJooyung Han// a few math functions such as tanh.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_INTERNAL_FIXEDPOINT_H_
*5f39d1b3SJooyung Han#define GEMMLOWP_INTERNAL_FIXEDPOINT_H_
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include <algorithm>
*5f39d1b3SJooyung Han#include <cassert>
*5f39d1b3SJooyung Han#include <cmath>
*5f39d1b3SJooyung Han#include <cstdint>
*5f39d1b3SJooyung Han#include <limits>
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "../internal/detect_platform.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Part 1: Low-level integer-arithmetic primitives.
*5f39d1b3SJooyung Han// The implementations here are generic implementations valid for
*5f39d1b3SJooyung Han// scalar types (e.g. std::int32_t). Architecture-specific SIMD types
*5f39d1b3SJooyung Han// (e.g. NEON int32x4_t) may be supported by providing
*5f39d1b3SJooyung Han// specializations for them in separate files.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The purpose of these primitives is two-fold:
*5f39d1b3SJooyung Han//  - They will be used to implement higher-level fixed-point
*5f39d1b3SJooyung Han//    abstractions, namely the FixedPoint class and its arithmetic
*5f39d1b3SJooyung Han//    operators.
*5f39d1b3SJooyung Han//  - They will be directly used to implement some more involved
*5f39d1b3SJooyung Han//    fixed-point computations, e.g. the fixed-point implementation
*5f39d1b3SJooyung Han//    of math functions such as tanh.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Some compile-time traits around raw types to handle SIMD aspects:
*5f39d1b3SJooyung Han// number of lanes, underlying scalar type.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung Hanstruct FixedPointRawTypeTraits {};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanstruct FixedPointRawTypeTraits<std::int32_t> {
*5f39d1b3SJooyung Han  typedef std::int32_t ScalarRawType;
*5f39d1b3SJooyung Han  static constexpr int kLanes = 1;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanstruct FixedPointRawTypeTraits<std::int16_t> {
*5f39d1b3SJooyung Han  typedef std::int16_t ScalarRawType;
*5f39d1b3SJooyung Han  static constexpr int kLanes = 1;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns a SIMD value duplicating a scalar value across all lanes.
*5f39d1b3SJooyung Hantemplate <typename tRawType>
*5f39d1b3SJooyung HantRawType Dup(typename FixedPointRawTypeTraits<tRawType>::ScalarRawType x) {
*5f39d1b3SJooyung Han  return x;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Plain bit-wise AND
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType BitAnd(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return a & b;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Plain bit-wise OR
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType BitOr(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return a | b;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Plain bit-wise XOR
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType BitXor(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return a ^ b;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Plain bit-wise NOT
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType BitNot(tIntegerType a) {
*5f39d1b3SJooyung Han  return ~a;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Integer addition. Not saturating. Overflow is undefined behavior.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType Add(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return a + b;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Integer multiplication. Not saturating. Overflow is undefined behavior.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType Mul(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return a * b;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Integer subtraction. Not saturating. Overflow is undefined behavior.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType Sub(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return a - b;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Integer unary negative. Not saturating. Overflow is undefined behavior.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType Neg(tIntegerType a) {
*5f39d1b3SJooyung Han  return -a;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Integer arithmetic left-shift, equivalent to multiplying with a power of two.
*5f39d1b3SJooyung Han// Negative values are OK. In case of overflow, no Undefined
*5f39d1b3SJooyung Han// Behavior, but the results are implementation-defined (in practice,
*5f39d1b3SJooyung Han// they currently are saturated, but we make no commitment to that). The idea
*5f39d1b3SJooyung Han// is that the caller will want to implement the overflowing cases with
*5f39d1b3SJooyung Han// saturation with compare-and-mask, so we don't care about the results
*5f39d1b3SJooyung Han// in the overflow case, we just want to avoid undefined behavior.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// tIntegerType may be int32 or any narrower signed type.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType, typename OffsetType>
*5f39d1b3SJooyung HantIntegerType ShiftLeft(tIntegerType a, OffsetType offset) {
*5f39d1b3SJooyung Han  const std::int64_t wide_a = static_cast<std::int64_t>(a);
*5f39d1b3SJooyung Han  const std::int64_t wide_shifted = wide_a * (1 << offset);
*5f39d1b3SJooyung Han  const auto min = std::numeric_limits<tIntegerType>::min();
*5f39d1b3SJooyung Han  const auto max = std::numeric_limits<tIntegerType>::max();
*5f39d1b3SJooyung Han  return wide_shifted < min
*5f39d1b3SJooyung Han             ? min
*5f39d1b3SJooyung Han             : wide_shifted > max ? max
*5f39d1b3SJooyung Han                                  : static_cast<tIntegerType>(wide_shifted);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Integer arithmetic right-shift. Not rounding.
*5f39d1b3SJooyung Han// Relying on implementation-defined, but in-practice-consistent,
*5f39d1b3SJooyung Han// C++ compiler behavior.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType ShiftRight(tIntegerType a, int offset) {
*5f39d1b3SJooyung Han  return a >> offset;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Each bit of the result is set to the corresponding bit of either then_val or
*5f39d1b3SJooyung Han// else_val depending on whether the corresponding bit of if_mask is set.
*5f39d1b3SJooyung Han// Equivalent to the VBSL instruction in ARM NEON.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType SelectUsingMask(tIntegerType if_mask, tIntegerType then_val,
*5f39d1b3SJooyung Han                             tIntegerType else_val) {
*5f39d1b3SJooyung Han  return BitXor(BitAnd(if_mask, then_val), BitAnd(BitNot(if_mask), else_val));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For each input scalar, the corresponding bits of the result are set if the
*5f39d1b3SJooyung Han// input scalar is non-zero.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType MaskIfNonZero(tIntegerType a) {
*5f39d1b3SJooyung Han  static constexpr tIntegerType zero = 0;
*5f39d1b3SJooyung Han  return a ? BitNot(zero) : zero;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For each input scalar, the corresponding bits of the result are set if the
*5f39d1b3SJooyung Han// input scalar is zero.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType MaskIfZero(tIntegerType a) {
*5f39d1b3SJooyung Han  return MaskIfNonZero<tIntegerType>(!a);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For each pair of input scalars, the corresponding bits of the result are
*5f39d1b3SJooyung Han// set if the input scalars are equal.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType MaskIfEqual(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return MaskIfNonZero<tIntegerType>(a == b);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For each pair of input scalars, the corresponding bits of the result are
*5f39d1b3SJooyung Han// set if the input scalars are not equal.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType MaskIfNotEqual(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return MaskIfNonZero<tIntegerType>(a != b);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For each pair of input scalars, the corresponding bits of the result are
*5f39d1b3SJooyung Han// set if the input scalars a, b satisfy a > b.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType MaskIfGreaterThan(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return MaskIfNonZero<tIntegerType>(a > b);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For each pair of input scalars, the corresponding bits of the result are
*5f39d1b3SJooyung Han// set if the input scalars a, b satisfy a >= b.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType MaskIfGreaterThanOrEqual(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return MaskIfNonZero<tIntegerType>(a >= b);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For each pair of input scalars, the corresponding bits of the result are
*5f39d1b3SJooyung Han// set if the input scalars a, b satisfy a < b.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType MaskIfLessThan(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return MaskIfNonZero<tIntegerType>(a < b);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For each pair of input scalars, the corresponding bits of the result are
*5f39d1b3SJooyung Han// set if the input scalars a, b satisfy a <= b.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung HantIntegerType MaskIfLessThanOrEqual(tIntegerType a, tIntegerType b) {
*5f39d1b3SJooyung Han  return MaskIfNonZero<tIntegerType>(a <= b);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns true if all of the input scalars are nonzero.
*5f39d1b3SJooyung Han// This function may currently assume that each of the input scalars has either
*5f39d1b3SJooyung Han// all or none of its bits set. Otherwise, its behavior is currently undefined.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung Hanbool All(tIntegerType a) {
*5f39d1b3SJooyung Han  return a;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns true if any of the input scalars are nonzero.
*5f39d1b3SJooyung Han// This function may currently assume that each of the input scalars has either
*5f39d1b3SJooyung Han// all or none of its bits set. Otherwise, its behavior is currently undefined.
*5f39d1b3SJooyung Hantemplate <typename tIntegerType>
*5f39d1b3SJooyung Hanbool Any(tIntegerType a) {
*5f39d1b3SJooyung Han  return a;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns (a+b)/2, rounded to the nearest integer.
*5f39d1b3SJooyung Han// Equivalent to VRHADD in the ARM NEON instruction set.
*5f39d1b3SJooyung Hantemplate <typename IntegerType>
*5f39d1b3SJooyung HanIntegerType RoundingHalfSum(IntegerType a, IntegerType b) {
*5f39d1b3SJooyung Han  static_assert(std::is_same<IntegerType, void>::value, "unimplemented");
*5f39d1b3SJooyung Han  (void)b;
*5f39d1b3SJooyung Han  return a;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Haninline std::int32_t RoundingHalfSum(std::int32_t a, std::int32_t b) {
*5f39d1b3SJooyung Han  std::int64_t a64 = a;
*5f39d1b3SJooyung Han  std::int64_t b64 = b;
*5f39d1b3SJooyung Han  std::int64_t sum = a64 + b64;
*5f39d1b3SJooyung Han  std::int64_t sign = sum >= 0 ? 1 : -1;
*5f39d1b3SJooyung Han  return static_cast<std::int32_t>((sum + sign) / 2);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Haninline std::int16_t RoundingHalfSum(std::int16_t a, std::int16_t b) {
*5f39d1b3SJooyung Han  std::int32_t a32 = a;
*5f39d1b3SJooyung Han  std::int32_t b32 = b;
*5f39d1b3SJooyung Han  std::int32_t sum = a32 + b32;
*5f39d1b3SJooyung Han  std::int32_t sign = sum >= 0 ? 1 : -1;
*5f39d1b3SJooyung Han  return static_cast<std::int16_t>((sum + sign) / 2);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename IntegerType>
*5f39d1b3SJooyung HanIntegerType SaturatingAdd(IntegerType a, IntegerType b) {
*5f39d1b3SJooyung Han  static_assert(std::is_same<IntegerType, void>::value, "unimplemented");
*5f39d1b3SJooyung Han  (void)b;
*5f39d1b3SJooyung Han  return a;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// So far this is only needed for int16.
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Haninline std::int16_t SaturatingAdd(std::int16_t a, std::int16_t b) {
*5f39d1b3SJooyung Han  std::int32_t a32 = a;
*5f39d1b3SJooyung Han  std::int32_t b32 = b;
*5f39d1b3SJooyung Han  std::int32_t sum = a32 + b32;
*5f39d1b3SJooyung Han  return static_cast<std::int16_t>(
*5f39d1b3SJooyung Han      std::min(static_cast<std::int32_t>(32767),
*5f39d1b3SJooyung Han               std::max(static_cast<std::int32_t>(-32768), sum)));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Haninline std::int8_t SaturatingAdd(std::int8_t a, std::int8_t b) {
*5f39d1b3SJooyung Han  std::int16_t a16 = a;
*5f39d1b3SJooyung Han  std::int16_t b16 = b;
*5f39d1b3SJooyung Han  std::int16_t sum = a16 + b16;
*5f39d1b3SJooyung Han  return static_cast<std::int8_t>(std::min(
*5f39d1b3SJooyung Han      static_cast<int16_t>(std::numeric_limits<int8_t>::max()),
*5f39d1b3SJooyung Han      std::max(static_cast<int16_t>(std::numeric_limits<int8_t>::min()), sum)));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns a+b, saturating if the integers are 16bit or narrower,
*5f39d1b3SJooyung Han// otherwise just a plain addition.
*5f39d1b3SJooyung Hantemplate <typename IntegerType, bool Is16Bit>
*5f39d1b3SJooyung Hanstruct AddSaturatingIf16BitImpl {
*5f39d1b3SJooyung Han  static IntegerType Run(IntegerType a, IntegerType b) { return Add(a, b); }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Hantemplate <typename IntegerType>
*5f39d1b3SJooyung Hanstruct AddSaturatingIf16BitImpl<IntegerType, true> {
*5f39d1b3SJooyung Han  static IntegerType Run(IntegerType a, IntegerType b) {
*5f39d1b3SJooyung Han    return SaturatingAdd(a, b);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Hantemplate <typename IntegerType>
*5f39d1b3SJooyung HanIntegerType AddSaturatingIf16Bit(IntegerType a, IntegerType b) {
*5f39d1b3SJooyung Han  using ScalarType =
*5f39d1b3SJooyung Han      typename FixedPointRawTypeTraits<IntegerType>::ScalarRawType;
*5f39d1b3SJooyung Han  return AddSaturatingIf16BitImpl<IntegerType, sizeof(ScalarType) == 2>::Run(a,
*5f39d1b3SJooyung Han                                                                             b);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns the integer that represents the product of two fixed-point
*5f39d1b3SJooyung Han// numbers, interpreting all integers as fixed-point values in the
*5f39d1b3SJooyung Han// interval [-1, 1), rounding to the nearest value, and saturating
*5f39d1b3SJooyung Han// -1 * -1 to the maximum value (since 1 is not in the half-open
*5f39d1b3SJooyung Han// interval [-1, 1)).
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// [The explanation below specializes to std::int32_t for example purpose.]
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The mapping between IntegerType and the interval [-1, 1) is unique and
*5f39d1b3SJooyung Han// implied by IntegerType, which is assumed to be signed. For example,
*5f39d1b3SJooyung Han// for IntegerType==std::int32_t, the mapping is
*5f39d1b3SJooyung Han//   real_value = integer_value / 2^31.
*5f39d1b3SJooyung Han// So in this case, and leaving aside rounding and saturating, this
*5f39d1b3SJooyung Han// function computes ((a / 2^31) * (b / 2^31)) * 2^31, which simplifies to
*5f39d1b3SJooyung Han//   (a * b) / 2^31.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The 'doubling' part in the name of this function comes from the fact that
*5f39d1b3SJooyung Han// this operation is very close to a "multiply-high" operation, keeping only
*5f39d1b3SJooyung Han// the top half bits, except that that would be effectively computing
*5f39d1b3SJooyung Han//   (a * b) / 2^32,
*5f39d1b3SJooyung Han// so here we are computing 2x that, since
*5f39d1b3SJooyung Han//   1/2^31 = 2 * 1/2^32.
*5f39d1b3SJooyung Han// The idea is to use all of the available 32 bits in the destination int32
*5f39d1b3SJooyung Han// value.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// [End of the explanation specializing to int32.]
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// This is equivalent to the VQRDMULH instruction in ARM NEON.
*5f39d1b3SJooyung Hantemplate <typename IntegerType>
*5f39d1b3SJooyung HanIntegerType SaturatingRoundingDoublingHighMul(IntegerType a, IntegerType b) {
*5f39d1b3SJooyung Han  static_assert(std::is_same<IntegerType, void>::value, "unimplemented");
*5f39d1b3SJooyung Han  (void)b;
*5f39d1b3SJooyung Han  return a;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This function implements the same computation as the ARMv7 NEON VQRDMULH
*5f39d1b3SJooyung Han// instruction.
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Haninline std::int32_t SaturatingRoundingDoublingHighMul(std::int32_t a,
*5f39d1b3SJooyung Han                                                      std::int32_t b) {
*5f39d1b3SJooyung Han  bool overflow = a == b && a == std::numeric_limits<std::int32_t>::min();
*5f39d1b3SJooyung Han  std::int64_t a_64(a);
*5f39d1b3SJooyung Han  std::int64_t b_64(b);
*5f39d1b3SJooyung Han  std::int64_t ab_64 = a_64 * b_64;
*5f39d1b3SJooyung Han  std::int32_t nudge = ab_64 >= 0 ? (1 << 30) : (1 - (1 << 30));
*5f39d1b3SJooyung Han  std::int32_t ab_x2_high32 =
*5f39d1b3SJooyung Han      static_cast<std::int32_t>((ab_64 + nudge) / (1ll << 31));
*5f39d1b3SJooyung Han  return overflow ? std::numeric_limits<std::int32_t>::max() : ab_x2_high32;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Haninline std::int16_t SaturatingRoundingDoublingHighMul(std::int16_t a,
*5f39d1b3SJooyung Han                                                      std::int16_t b) {
*5f39d1b3SJooyung Han  bool overflow = a == b && a == std::numeric_limits<std::int16_t>::min();
*5f39d1b3SJooyung Han  std::int32_t a_32(a);
*5f39d1b3SJooyung Han  std::int32_t b_32(b);
*5f39d1b3SJooyung Han  std::int32_t ab_32 = a_32 * b_32;
*5f39d1b3SJooyung Han  std::int16_t nudge = ab_32 >= 0 ? (1 << 14) : (1 - (1 << 14));
*5f39d1b3SJooyung Han  std::int16_t ab_x2_high16 =
*5f39d1b3SJooyung Han      static_cast<std::int16_t>((ab_32 + nudge) / (1 << 15));
*5f39d1b3SJooyung Han  return overflow ? std::numeric_limits<std::int16_t>::max() : ab_x2_high16;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Correctly-rounded-to-nearest division by a power-of-two.
*5f39d1b3SJooyung Han// Also known as a rounding arithmetic right shift.
*5f39d1b3SJooyung Hantemplate <typename IntegerType, typename ExponentType>
*5f39d1b3SJooyung Haninline IntegerType RoundingDivideByPOT(IntegerType x, ExponentType exponent) {
*5f39d1b3SJooyung Han  assert(exponent >= 0);
*5f39d1b3SJooyung Han  assert(exponent <= 31);
*5f39d1b3SJooyung Han  const IntegerType mask = Dup<IntegerType>((1ll << exponent) - 1);
*5f39d1b3SJooyung Han  const IntegerType zero = Dup<IntegerType>(0);
*5f39d1b3SJooyung Han  const IntegerType one = Dup<IntegerType>(1);
*5f39d1b3SJooyung Han  const IntegerType remainder = BitAnd(x, mask);
*5f39d1b3SJooyung Han  const IntegerType threshold =
*5f39d1b3SJooyung Han      Add(ShiftRight(mask, 1), BitAnd(MaskIfLessThan(x, zero), one));
*5f39d1b3SJooyung Han  return Add(ShiftRight(x, exponent),
*5f39d1b3SJooyung Han             BitAnd(MaskIfGreaterThan(remainder, threshold), one));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns the product of a run-time integer value by a compile-time power
*5f39d1b3SJooyung Han// of two, with either a positive exponent (equivalent to an arithmetic
*5f39d1b3SJooyung Han// left shift, saturating) or a negative exponent (equivalent to an arithmetic
*5f39d1b3SJooyung Han// right shift, rounding to nearest).
*5f39d1b3SJooyung Hantemplate <int Exponent, typename IntegerType,
*5f39d1b3SJooyung Han          int ExponentSign = (Exponent > 0 ? 1 : Exponent < 0 ? -1 : 0)>
*5f39d1b3SJooyung Hanstruct ImplSaturatingRoundingMultiplyByPOT {};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Exponent, typename IntegerType>
*5f39d1b3SJooyung Hanstruct ImplSaturatingRoundingMultiplyByPOT<Exponent, IntegerType, 0> {
*5f39d1b3SJooyung Han  static IntegerType eval(IntegerType x) { return x; }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Exponent, typename IntegerType>
*5f39d1b3SJooyung Hanstruct ImplSaturatingRoundingMultiplyByPOT<Exponent, IntegerType, 1> {
*5f39d1b3SJooyung Han  static IntegerType eval(IntegerType x) {
*5f39d1b3SJooyung Han    using ScalarIntegerType =
*5f39d1b3SJooyung Han        typename FixedPointRawTypeTraits<IntegerType>::ScalarRawType;
*5f39d1b3SJooyung Han    const IntegerType min =
*5f39d1b3SJooyung Han        Dup<IntegerType>(std::numeric_limits<ScalarIntegerType>::min());
*5f39d1b3SJooyung Han    const IntegerType max =
*5f39d1b3SJooyung Han        Dup<IntegerType>(std::numeric_limits<ScalarIntegerType>::max());
*5f39d1b3SJooyung Han    const int ScalarIntegerTypeBits = 8 * sizeof(ScalarIntegerType);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    const std::int32_t threshold =
*5f39d1b3SJooyung Han        ((1 << (ScalarIntegerTypeBits - 1 - Exponent)) - 1);
*5f39d1b3SJooyung Han    const IntegerType positive_mask =
*5f39d1b3SJooyung Han        MaskIfGreaterThan(x, Dup<IntegerType>(threshold));
*5f39d1b3SJooyung Han    const IntegerType negative_mask =
*5f39d1b3SJooyung Han        MaskIfLessThan(x, Dup<IntegerType>(-threshold));
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    IntegerType result = ShiftLeft(x, Exponent);
*5f39d1b3SJooyung Han    result = SelectUsingMask(positive_mask, max, result);
*5f39d1b3SJooyung Han    result = SelectUsingMask(negative_mask, min, result);
*5f39d1b3SJooyung Han    return result;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Exponent, typename IntegerType>
*5f39d1b3SJooyung Hanstruct ImplSaturatingRoundingMultiplyByPOT<Exponent, IntegerType, -1> {
*5f39d1b3SJooyung Han  static IntegerType eval(IntegerType x) {
*5f39d1b3SJooyung Han    return RoundingDivideByPOT<IntegerType>(x, -Exponent);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Exponent, typename IntegerType>
*5f39d1b3SJooyung HanIntegerType SaturatingRoundingMultiplyByPOT(IntegerType x) {
*5f39d1b3SJooyung Han  return ImplSaturatingRoundingMultiplyByPOT<Exponent, IntegerType>::eval(x);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Part 2: the FixedPoint class.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// A FixedPoint object represents a fixed-point value stored in the underlying
*5f39d1b3SJooyung Han// integer type tRawType, if tRawType is a plain scalar integer type.
*5f39d1b3SJooyung Han// Alternatively, tRawType may be a SIMD type (e.g. NEON int32x4_t) in which
*5f39d1b3SJooyung Han// case a FixedPoint object represents a corresponding SIMD vector of fixed
*5f39d1b3SJooyung Han// point values.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// tIntegerBits describes the range of the fixed-point format: if
*5f39d1b3SJooyung Han// tIntegerBits == m then the range of representable values is the half-open
*5f39d1b3SJooyung Han// interval [-2^m; 2^m) where the open boundary on the right side means that
*5f39d1b3SJooyung Han// 2^m is not representable (how close the maximum representable value is to
*5f39d1b3SJooyung Han// it, depends on bit-depth of tRawType).
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// In "Q format notation",
*5f39d1b3SJooyung Han//   https://en.wikipedia.org/wiki/Q_(number_format)
*5f39d1b3SJooyung Han// we are describing the format
*5f39d1b3SJooyung Han//   Qm.n
*5f39d1b3SJooyung Han// where
*5f39d1b3SJooyung Han//   m = tIntegerBits
*5f39d1b3SJooyung Han// and
*5f39d1b3SJooyung Han//   n = NumberOfBits(tRawType) - (m + 1)
*5f39d1b3SJooyung Han// Note that the (m + 1) in the above line is because we adopt the convention
*5f39d1b3SJooyung Han// that we count the integer bits exclusively of the sign bit; so (m + 1) is
*5f39d1b3SJooyung Han// the total number of integer bits inclusive of the sign bit.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Accordingly, the number of integral representable values in our range
*5f39d1b3SJooyung Han//   [-2^m ; 2^m)
*5f39d1b3SJooyung Han// is equal to 2^(m+1).
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung Hanclass FixedPoint {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  typedef tRawType RawType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef FixedPointRawTypeTraits<RawType> RawTypeTraits;
*5f39d1b3SJooyung Han  typedef typename RawTypeTraits::ScalarRawType ScalarRawType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static constexpr int kTotalBits = 8 * sizeof(ScalarRawType);
*5f39d1b3SJooyung Han  static constexpr int kIntegerBits = tIntegerBits;
*5f39d1b3SJooyung Han  static constexpr int kFractionalBits = kTotalBits - 1 - kIntegerBits;
*5f39d1b3SJooyung Han  static_assert(kIntegerBits >= 0 && kIntegerBits < kTotalBits,
*5f39d1b3SJooyung Han                "bad IntegerBits");
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef FixedPoint<ScalarRawType, kIntegerBits> ScalarFixedPointType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static const ScalarRawType ScalarRawMin() {
*5f39d1b3SJooyung Han    return std::numeric_limits<ScalarRawType>::min();
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static const ScalarRawType ScalarRawMax() {
*5f39d1b3SJooyung Han    return std::numeric_limits<ScalarRawType>::max();
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static const ScalarRawType RawMin() {
*5f39d1b3SJooyung Han    return VectorFromScalar(ScalarRawMin());
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static const ScalarRawType RawMax() {
*5f39d1b3SJooyung Han    return VectorFromScalar(ScalarRawMax());
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static FixedPoint FromRaw(RawType x) {
*5f39d1b3SJooyung Han    FixedPoint retval;
*5f39d1b3SJooyung Han    retval.raw() = x;
*5f39d1b3SJooyung Han    return retval;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static FixedPoint FromScalarRaw(ScalarRawType x) {
*5f39d1b3SJooyung Han    FixedPoint retval;
*5f39d1b3SJooyung Han    retval.raw() = Dup<RawType>(x);
*5f39d1b3SJooyung Han    return retval;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static FixedPoint FromScalarFixedPoint(ScalarFixedPointType x) {
*5f39d1b3SJooyung Han    return FromScalarRaw(x.raw());
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  template <int Exponent>
*5f39d1b3SJooyung Han  static FixedPoint ConstantPOT() {
*5f39d1b3SJooyung Han    static constexpr int kOffset = kFractionalBits + Exponent;
*5f39d1b3SJooyung Han    static_assert(
*5f39d1b3SJooyung Han        kOffset < 31,
*5f39d1b3SJooyung Han        "Constant not exactly representable in this fixed-point format");
*5f39d1b3SJooyung Han    return FromScalarRaw(ScalarRawType(1) << kOffset);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static FixedPoint Zero() { return FromScalarRaw(0); }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static FixedPoint One() {
*5f39d1b3SJooyung Han    return FromScalarRaw(
*5f39d1b3SJooyung Han        kIntegerBits == 0
*5f39d1b3SJooyung Han            ? ScalarRawMax()
*5f39d1b3SJooyung Han            : (ScalarRawType(1) << (kIntegerBits == 0 ? 0 : kFractionalBits)));
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static FixedPoint FromDouble(double x) {
*5f39d1b3SJooyung Han    const double min_bound = static_cast<double>(ScalarRawMin());
*5f39d1b3SJooyung Han    const double max_bound = static_cast<double>(ScalarRawMax());
*5f39d1b3SJooyung Han    return FromScalarRaw(static_cast<ScalarRawType>(std::min(
*5f39d1b3SJooyung Han        std::max(round(x * static_cast<double>(1ll << kFractionalBits)),
*5f39d1b3SJooyung Han                 min_bound),
*5f39d1b3SJooyung Han        max_bound)));
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  RawType raw() const { return i_; }
*5f39d1b3SJooyung Han  RawType& raw() { return i_; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han private:
*5f39d1b3SJooyung Han  RawType i_;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Part 3: implementation of arithmetic operators for the
*5f39d1b3SJooyung Han// FixedPoint class, and a few related functions.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// A FixedPoint multiplication is just a
*5f39d1b3SJooyung Han// SaturatingRoundingDoublingHighMul operation on the underlying
*5f39d1b3SJooyung Han// raw integer values. The IntegerBits simply add up, as is obvious
*5f39d1b3SJooyung Han// from the fact that the range is [-2^IntegerBits, 2^IntegerBits).
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits_a, int tIntegerBits_b>
*5f39d1b3SJooyung HanFixedPoint<tRawType, tIntegerBits_a + tIntegerBits_b> operator*(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits_a> a,
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits_b> b) {
*5f39d1b3SJooyung Han  FixedPoint<tRawType, tIntegerBits_a + tIntegerBits_b> c;
*5f39d1b3SJooyung Han  c.raw() = SaturatingRoundingDoublingHighMul(a.raw(), b.raw());
*5f39d1b3SJooyung Han  return c;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Tweaking IntegerBits gives exact multiplication by a power of two.
*5f39d1b3SJooyung Hantemplate <int tExponent, typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, tExponent + tIntegerBits> ExactMulByPot(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> a) {
*5f39d1b3SJooyung Han  FixedPoint<tRawType, tExponent + tIntegerBits> c;
*5f39d1b3SJooyung Han  c.raw() = a.raw();
*5f39d1b3SJooyung Han  return c;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// If we want to leave IntegerBits fixed, then multiplication
*5f39d1b3SJooyung Han// by a power of two has to be saturating/rounding, not exact anymore.
*5f39d1b3SJooyung Hantemplate <int tExponent, typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, tIntegerBits> SaturatingRoundingMultiplyByPOT(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> a) {
*5f39d1b3SJooyung Han  return FixedPoint<tRawType, tIntegerBits>::FromRaw(
*5f39d1b3SJooyung Han      SaturatingRoundingMultiplyByPOT<tExponent>(a.raw()));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Generic arithmetic operators.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define MAKE_FIXEDPOINT_UNARY_FUNC(FuncName, ImplFuncName)                     \
*5f39d1b3SJooyung Han  template <typename tRawType, int tIntegerBits>                               \
*5f39d1b3SJooyung Han  FixedPoint<tRawType, tIntegerBits> FuncName(                                 \
*5f39d1b3SJooyung Han      FixedPoint<tRawType, tIntegerBits> a) {                                  \
*5f39d1b3SJooyung Han    return FixedPoint<tRawType, tIntegerBits>::FromRaw(ImplFuncName(a.raw())); \
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define MAKE_FIXEDPOINT_BINARY_FUNC(FuncName, ImplFuncName) \
*5f39d1b3SJooyung Han  template <typename tRawType, int tIntegerBits>            \
*5f39d1b3SJooyung Han  FixedPoint<tRawType, tIntegerBits> FuncName(              \
*5f39d1b3SJooyung Han      FixedPoint<tRawType, tIntegerBits> a,                 \
*5f39d1b3SJooyung Han      FixedPoint<tRawType, tIntegerBits> b) {               \
*5f39d1b3SJooyung Han    return FixedPoint<tRawType, tIntegerBits>::FromRaw(     \
*5f39d1b3SJooyung Han        ImplFuncName(a.raw(), b.raw()));                    \
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_UNARY_FUNC(operator-, Neg)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_UNARY_FUNC(operator~, BitNot)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC(operator+, Add)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC(operator-, Sub)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC(operator&, BitAnd)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC(operator^, BitXor)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC(operator|, BitOr)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC(RoundingHalfSum, RoundingHalfSum)
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#undef MAKE_FIXEDPOINT_UNARY_FUNC
*5f39d1b3SJooyung Han#undef MAKE_FIXEDPOINT_BINARY_FUNC
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define MAKE_FIXEDPOINT_UNARY_FUNC_RETURNING_RAW(FuncName)  \
*5f39d1b3SJooyung Han  template <typename tRawType, int tIntegerBits>            \
*5f39d1b3SJooyung Han  tRawType FuncName(FixedPoint<tRawType, tIntegerBits> a) { \
*5f39d1b3SJooyung Han    return FuncName(a.raw());                               \
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define MAKE_FIXEDPOINT_BINARY_FUNC_RETURNING_RAW(FuncName) \
*5f39d1b3SJooyung Han  template <typename tRawType, int tIntegerBits>            \
*5f39d1b3SJooyung Han  tRawType FuncName(FixedPoint<tRawType, tIntegerBits> a,   \
*5f39d1b3SJooyung Han                    FixedPoint<tRawType, tIntegerBits> b) { \
*5f39d1b3SJooyung Han    return FuncName(a.raw(), b.raw());                      \
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_UNARY_FUNC_RETURNING_RAW(MaskIfZero)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_UNARY_FUNC_RETURNING_RAW(MaskIfNonZero)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC_RETURNING_RAW(MaskIfEqual)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC_RETURNING_RAW(MaskIfNotEqual)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC_RETURNING_RAW(MaskIfGreaterThan)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC_RETURNING_RAW(MaskIfGreaterThanOrEqual)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC_RETURNING_RAW(MaskIfLessThan)
*5f39d1b3SJooyung HanMAKE_FIXEDPOINT_BINARY_FUNC_RETURNING_RAW(MaskIfLessThanOrEqual)
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#undef MAKE_FIXEDPOINT_UNARY_FUNC_RETURNING_RAW
*5f39d1b3SJooyung Han#undef MAKE_FIXEDPOINT_BINARY_FUNC_RETURNING_RAW
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, tIntegerBits> SelectUsingMask(
*5f39d1b3SJooyung Han    tRawType if_mask, FixedPoint<tRawType, tIntegerBits> then_val,
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> else_val) {
*5f39d1b3SJooyung Han  return FixedPoint<tRawType, tIntegerBits>::FromRaw(
*5f39d1b3SJooyung Han      SelectUsingMask(if_mask, then_val.raw(), else_val.raw()));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung Hanbool operator==(FixedPoint<tRawType, tIntegerBits> a,
*5f39d1b3SJooyung Han                FixedPoint<tRawType, tIntegerBits> b) {
*5f39d1b3SJooyung Han  return All(MaskIfEqual(a.raw(), b.raw()));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung Hanbool operator!=(FixedPoint<tRawType, tIntegerBits> a,
*5f39d1b3SJooyung Han                FixedPoint<tRawType, tIntegerBits> b) {
*5f39d1b3SJooyung Han  return !(a == b);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, tIntegerBits> SaturatingAdd(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> a,
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> b) {
*5f39d1b3SJooyung Han  return FixedPoint<tRawType, tIntegerBits>::FromRaw(
*5f39d1b3SJooyung Han      SaturatingAdd(a.raw(), b.raw()));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, tIntegerBits> AddSaturatingIf16Bit(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> a,
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> b) {
*5f39d1b3SJooyung Han  return FixedPoint<tRawType, tIntegerBits>::FromRaw(
*5f39d1b3SJooyung Han      AddSaturatingIf16Bit(a.raw(), b.raw()));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Conversion to floating-point.
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung Handouble ToDouble(FixedPoint<tRawType, tIntegerBits> x) {
*5f39d1b3SJooyung Han  static_assert(FixedPointRawTypeTraits<tRawType>::kLanes == 1,
*5f39d1b3SJooyung Han                "not applicable to SIMD types");
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, tIntegerBits> F;
*5f39d1b3SJooyung Han  return x.raw() / static_cast<double>(1ll << F::kFractionalBits);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Rescale changes the number of IntegerBits and updates the underlying
*5f39d1b3SJooyung Han// raw integer value accordingly.
*5f39d1b3SJooyung Hantemplate <int tIntegerBitsDst, typename tRawType, int tIntegerBitsSrc>
*5f39d1b3SJooyung HanFixedPoint<tRawType, tIntegerBitsDst> Rescale(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBitsSrc> x) {
*5f39d1b3SJooyung Han  static constexpr int kExponent = tIntegerBitsSrc - tIntegerBitsDst;
*5f39d1b3SJooyung Han  FixedPoint<tRawType, tIntegerBitsDst> result;
*5f39d1b3SJooyung Han  result.raw() = SaturatingRoundingMultiplyByPOT<kExponent>(x.raw());
*5f39d1b3SJooyung Han  return result;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// CheckedFixedPointConstant allows to specify fixed-point constants
*5f39d1b3SJooyung Han// initialized as real numbers, in a way that does not compile floating-point
*5f39d1b3SJooyung Han// arithmetic in production code, yet still checks agreement with the
*5f39d1b3SJooyung Han// floating-point expressions when asserts are enabled.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The raw integer value provided is always a int32, encoding a 32-bit
*5f39d1b3SJooyung Han// fixed-point value, regardless of the actual Scalar type. This allows
*5f39d1b3SJooyung Han// writing generic code that applies just as well to the 32-bit and 16-bit
*5f39d1b3SJooyung Han// cases. In the 16-bit case, the raw integer value is internally
*5f39d1b3SJooyung Han// rounding-shifted by 16 bits to the right.
*5f39d1b3SJooyung Hantemplate <typename FixedPointType>
*5f39d1b3SJooyung Haninline typename FixedPointType::ScalarRawType RescaleConstantInitializer(
*5f39d1b3SJooyung Han    std::int32_t int32_value) {
*5f39d1b3SJooyung Han  typedef typename FixedPointType::ScalarRawType ScalarRawType;
*5f39d1b3SJooyung Han  static constexpr int ScalarTypeBits = 8 * sizeof(ScalarRawType);
*5f39d1b3SJooyung Han  return static_cast<ScalarRawType>(
*5f39d1b3SJooyung Han      RoundingDivideByPOT<std::int32_t>(int32_value, 32 - ScalarTypeBits));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_ENABLE_FIXEDPOINT_CONSTANTS_CHECKS
*5f39d1b3SJooyung Hantemplate <typename FixedPointType>
*5f39d1b3SJooyung HanFixedPointType CheckedFixedPointConstant(std::int32_t raw_value,
*5f39d1b3SJooyung Han                                         double double_value) {
*5f39d1b3SJooyung Han  const FixedPointType result = FixedPointType::FromScalarRaw(raw_value);
*5f39d1b3SJooyung Han  assert(result == FixedPointType::FromDouble(double_value));
*5f39d1b3SJooyung Han  return result;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han#define GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(FixedPointType,                   \
*5f39d1b3SJooyung Han                                             ScalarRawInt32Value, DoubleValue) \
*5f39d1b3SJooyung Han  (gemmlowp::CheckedFixedPointConstant<FixedPointType>(                        \
*5f39d1b3SJooyung Han      gemmlowp::RescaleConstantInitializer<FixedPointType>(                    \
*5f39d1b3SJooyung Han          ScalarRawInt32Value),                                                \
*5f39d1b3SJooyung Han      DoubleValue))
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#else
*5f39d1b3SJooyung Han#define GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(FixedPointType,                   \
*5f39d1b3SJooyung Han                                             ScalarRawInt32Value, DoubleValue) \
*5f39d1b3SJooyung Han  (FixedPointType::FromScalarRaw(                                              \
*5f39d1b3SJooyung Han      gemmlowp::RescaleConstantInitializer<FixedPointType>(                    \
*5f39d1b3SJooyung Han          ScalarRawInt32Value)))
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Implementation of exponential function.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns exp(x) for x in [-1/4, 0).
*5f39d1b3SJooyung Hantemplate <typename tRawType>
*5f39d1b3SJooyung HanFixedPoint<tRawType, 0> exp_on_interval_between_negative_one_quarter_and_0_excl(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, 0> a) {
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, 0> F;
*5f39d1b3SJooyung Han  const F constant_term =
*5f39d1b3SJooyung Han      GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(F, 1895147668, std::exp(-1.0 / 8.0));
*5f39d1b3SJooyung Han  const F constant_1_over_3 =
*5f39d1b3SJooyung Han      GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(F, 715827883, 1.0 / 3.0);
*5f39d1b3SJooyung Han  // We're evaluating a Taylor expansion around -1/8, so we do the change of
*5f39d1b3SJooyung Han  // variable: x = a + 1/8.
*5f39d1b3SJooyung Han  // In fixed-point with 0 integer bits, 1/8 is represented by 1 << 28.
*5f39d1b3SJooyung Han  F x = a + F::template ConstantPOT<-3>();
*5f39d1b3SJooyung Han  F x2 = x * x;
*5f39d1b3SJooyung Han  F x3 = x2 * x;
*5f39d1b3SJooyung Han  F x4 = x2 * x2;
*5f39d1b3SJooyung Han  F x4_over_4 = SaturatingRoundingMultiplyByPOT<-2>(x4);
*5f39d1b3SJooyung Han  F x4_over_24_plus_x3_over_6_plus_x2_over_2 =
*5f39d1b3SJooyung Han      SaturatingRoundingMultiplyByPOT<-1>(
*5f39d1b3SJooyung Han          ((x4_over_4 + x3) * constant_1_over_3) + x2);
*5f39d1b3SJooyung Han  return AddSaturatingIf16Bit(
*5f39d1b3SJooyung Han      constant_term,
*5f39d1b3SJooyung Han      constant_term * (x + x4_over_24_plus_x3_over_6_plus_x2_over_2));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns exp(x) for x < 0.
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, 0> exp_on_negative_values(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> a) {
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, tIntegerBits> InputF;
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, 0> ResultF;
*5f39d1b3SJooyung Han  static constexpr int kFractionalBits = InputF::kFractionalBits;
*5f39d1b3SJooyung Han  static constexpr int kIntegerBits = InputF::kIntegerBits;
*5f39d1b3SJooyung Han  const InputF kOneQuarter = InputF::template ConstantPOT<-2>();
*5f39d1b3SJooyung Han  InputF mask = kOneQuarter - InputF::FromScalarRaw(1);
*5f39d1b3SJooyung Han  InputF a_mod_quarter_minus_one_quarter = (a & mask) - kOneQuarter;
*5f39d1b3SJooyung Han  ResultF result = exp_on_interval_between_negative_one_quarter_and_0_excl(
*5f39d1b3SJooyung Han      Rescale<0>(a_mod_quarter_minus_one_quarter));
*5f39d1b3SJooyung Han  tRawType remainder = (a_mod_quarter_minus_one_quarter - a).raw();
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define GEMMLOWP_EXP_BARREL_SHIFTER(Exponent, FixedPointMultiplier)         \
*5f39d1b3SJooyung Han  if (kIntegerBits > Exponent) {                                            \
*5f39d1b3SJooyung Han    const ResultF kMultiplier = GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(       \
*5f39d1b3SJooyung Han        ResultF, FixedPointMultiplier, std::exp(-std::pow(2.0, Exponent))); \
*5f39d1b3SJooyung Han    static constexpr int kShiftAmount =                                     \
*5f39d1b3SJooyung Han        kIntegerBits > Exponent ? kFractionalBits + Exponent : 0;           \
*5f39d1b3SJooyung Han    result = SelectUsingMask(                                               \
*5f39d1b3SJooyung Han        MaskIfNonZero(BitAnd(remainder, Dup<tRawType>(1 << kShiftAmount))), \
*5f39d1b3SJooyung Han        result * kMultiplier, result);                                      \
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Constants below are Q0 representations of negative exp fractionals:
*5f39d1b3SJooyung Han  GEMMLOWP_EXP_BARREL_SHIFTER(-2, 1672461947);  // exp(-1/4)
*5f39d1b3SJooyung Han  GEMMLOWP_EXP_BARREL_SHIFTER(-1, 1302514674);  // exp(-1/2)
*5f39d1b3SJooyung Han  GEMMLOWP_EXP_BARREL_SHIFTER(+0, 790015084);   // exp(-1)
*5f39d1b3SJooyung Han  GEMMLOWP_EXP_BARREL_SHIFTER(+1, 290630308);   // exp(-2)
*5f39d1b3SJooyung Han  GEMMLOWP_EXP_BARREL_SHIFTER(+2, 39332535);    // exp(-4)
*5f39d1b3SJooyung Han  GEMMLOWP_EXP_BARREL_SHIFTER(+3, 720401);      // exp(-8)
*5f39d1b3SJooyung Han  GEMMLOWP_EXP_BARREL_SHIFTER(+4, 242);         // exp(-16)
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#undef GEMMLOWP_EXP_BARREL_SHIFTER
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static constexpr int clampB = kIntegerBits > 5 ? 36 - kIntegerBits : 0;
*5f39d1b3SJooyung Han  if (kIntegerBits > 5) {
*5f39d1b3SJooyung Han    const InputF clamp =
*5f39d1b3SJooyung Han        GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(InputF, -(1 << clampB), -32.0);
*5f39d1b3SJooyung Han    result = SelectUsingMask(MaskIfLessThan(a, clamp), ResultF::Zero(), result);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  result = SelectUsingMask(MaskIfZero(a), ResultF::One(), result);
*5f39d1b3SJooyung Han  return result;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Implementation of tanh: (1 - exp(-2x)) / (1 + exp(-2x)).
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns (1 - x) / (1 + x) for x in (0, 1).
*5f39d1b3SJooyung Hantemplate <typename tRawType>
*5f39d1b3SJooyung HanFixedPoint<tRawType, 0> one_minus_x_over_one_plus_x_for_x_in_0_1(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, 0> a) {
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, 0> F0;
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, 2> F2;
*5f39d1b3SJooyung Han  F0 half_denominator = RoundingHalfSum(a, F0::One());
*5f39d1b3SJooyung Han  // Newton-Raphson division
*5f39d1b3SJooyung Han  // https://en.wikipedia.org/wiki/Division_algorithm#Newton.E2.80.93Raphson_division
*5f39d1b3SJooyung Han  // Refer to that page for the logic behind the 48/17 and 32/17 constants.
*5f39d1b3SJooyung Han  const F2 constant_48_over_17 =
*5f39d1b3SJooyung Han      GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(F2, 1515870810, 48.0 / 17.0);
*5f39d1b3SJooyung Han  const F2 constant_neg_32_over_17 =
*5f39d1b3SJooyung Han      GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(F2, -1010580540, -32.0 / 17.0);
*5f39d1b3SJooyung Han  F2 x = constant_48_over_17 + half_denominator * constant_neg_32_over_17;
*5f39d1b3SJooyung Han  for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han    F2 half_denominator_times_x = half_denominator * x;
*5f39d1b3SJooyung Han    F2 one_minus_half_denominator_times_x =
*5f39d1b3SJooyung Han        F2::One() - half_denominator_times_x;
*5f39d1b3SJooyung Han    x = x + Rescale<2>(x * one_minus_half_denominator_times_x);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  return Rescale<0>(x - F2::One());
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns -tanh(x) for x < 0.
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, 0> neg_tanh_on_negative_values(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> a) {
*5f39d1b3SJooyung Han  return one_minus_x_over_one_plus_x_for_x_in_0_1(
*5f39d1b3SJooyung Han      exp_on_negative_values(ExactMulByPot<1>(a)));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns tanh(x) for any x.
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, 0> tanh(FixedPoint<tRawType, tIntegerBits> a) {
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, tIntegerBits> InputF;
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, 0> ResultF;
*5f39d1b3SJooyung Han  tRawType mask_if_negative = MaskIfLessThan(a, InputF::Zero());
*5f39d1b3SJooyung Han  tRawType mask_if_zero = MaskIfZero(a);
*5f39d1b3SJooyung Han  InputF n = SelectUsingMask(mask_if_negative, a, -a);
*5f39d1b3SJooyung Han  ResultF t = neg_tanh_on_negative_values(n);
*5f39d1b3SJooyung Han  return SelectUsingMask(mask_if_zero, ResultF::Zero(),
*5f39d1b3SJooyung Han                         SelectUsingMask(mask_if_negative, -t, t));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Implementation of logistic function.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns 1 / (1 + x) for x in (0, 1).
*5f39d1b3SJooyung Hantemplate <typename tRawType>
*5f39d1b3SJooyung HanFixedPoint<tRawType, 0> one_over_one_plus_x_for_x_in_0_1(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, 0> a) {
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, 0> F0;
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, 2> F2;
*5f39d1b3SJooyung Han  F0 half_denominator = RoundingHalfSum(a, F0::One());
*5f39d1b3SJooyung Han  // Newton-Raphson division
*5f39d1b3SJooyung Han  // https://en.wikipedia.org/wiki/Division_algorithm#Newton.E2.80.93Raphson_division
*5f39d1b3SJooyung Han  // Refer to that page for the logic behind the 48/17 and 32/17 constants.
*5f39d1b3SJooyung Han  const F2 constant_48_over_17 =
*5f39d1b3SJooyung Han      GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(F2, 1515870810, 48.0 / 17.0);
*5f39d1b3SJooyung Han  const F2 constant_neg_32_over_17 =
*5f39d1b3SJooyung Han      GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(F2, -1010580540, -32.0 / 17.0);
*5f39d1b3SJooyung Han  F2 x = constant_48_over_17 + half_denominator * constant_neg_32_over_17;
*5f39d1b3SJooyung Han  for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han    F2 half_denominator_times_x = half_denominator * x;
*5f39d1b3SJooyung Han    F2 one_minus_half_denominator_times_x =
*5f39d1b3SJooyung Han        F2::One() - half_denominator_times_x;
*5f39d1b3SJooyung Han    x = x + Rescale<2>(x * one_minus_half_denominator_times_x);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  return Rescale<0>(ExactMulByPot<-1>(x));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns logistic(x) = 1 / (1 + exp(-x)) for x > 0.
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, 0> logistic_on_positive_values(
*5f39d1b3SJooyung Han    FixedPoint<tRawType, tIntegerBits> a) {
*5f39d1b3SJooyung Han  return one_over_one_plus_x_for_x_in_0_1(exp_on_negative_values(-a));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns logistic(x) = 1 / (1 + exp(-x)) for any x.
*5f39d1b3SJooyung Hantemplate <typename tRawType, int tIntegerBits>
*5f39d1b3SJooyung HanFixedPoint<tRawType, 0> logistic(FixedPoint<tRawType, tIntegerBits> a) {
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, tIntegerBits> InputF;
*5f39d1b3SJooyung Han  typedef FixedPoint<tRawType, 0> ResultF;
*5f39d1b3SJooyung Han  tRawType mask_if_positive = MaskIfGreaterThan(a, InputF::Zero());
*5f39d1b3SJooyung Han  tRawType mask_if_zero = MaskIfZero(a);
*5f39d1b3SJooyung Han  InputF abs_input = SelectUsingMask(mask_if_positive, a, -a);
*5f39d1b3SJooyung Han  ResultF result_if_positive = logistic_on_positive_values(abs_input);
*5f39d1b3SJooyung Han  ResultF result_if_negative = ResultF::One() - result_if_positive;
*5f39d1b3SJooyung Han  const ResultF one_half =
*5f39d1b3SJooyung Han      GEMMLOWP_CHECKED_FIXEDPOINT_CONSTANT(ResultF, 1 << 30, 0.5);
*5f39d1b3SJooyung Han  return SelectUsingMask(mask_if_zero, one_half,
*5f39d1b3SJooyung Han                         SelectUsingMask(mask_if_positive, result_if_positive,
*5f39d1b3SJooyung Han                                         result_if_negative));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // end namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_NEON
*5f39d1b3SJooyung Han#include "./fixedpoint_neon.h"
*5f39d1b3SJooyung Han#elif defined(GEMMLOWP_AVX2)
*5f39d1b3SJooyung Han#include "./fixedpoint_avx.h"
*5f39d1b3SJooyung Han#elif defined(GEMMLOWP_SSE4)
*5f39d1b3SJooyung Han#include "./fixedpoint_sse.h"
*5f39d1b3SJooyung Han#elif defined(GEMMLOWP_MSA)
*5f39d1b3SJooyung Han#include "./fixedpoint_msa.h"
*5f39d1b3SJooyung Han#elif defined(GEMMLOWP_WASMSIMD)
*5f39d1b3SJooyung Han#include "./fixedpoint_wasmsimd.h"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_INTERNAL_FIXEDPOINT_H_