// Copyright 2021 Google LLC // SPDX-License-Identifier: Apache-2.0 // // Licensed under the Apache License, Version 2.0 (the "License"); // you may not use this file except in compliance with the License. // You may obtain a copy of the License at // // http://www.apache.org/licenses/LICENSE-2.0 // // Unless required by applicable law or agreed to in writing, software // distributed under the License is distributed on an "AS IS" BASIS, // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. // See the License for the specific language governing permissions and // limitations under the License. // 256-bit WASM vectors and operations. Experimental. // External include guard in highway.h - see comment there. // For half-width vectors. Already includes base.h and shared-inl.h. #include "hwy/ops/wasm_128-inl.h" HWY_BEFORE_NAMESPACE(); namespace hwy { namespace HWY_NAMESPACE { template class Vec256 { public: using PrivateT = T; // only for DFromV static constexpr size_t kPrivateN = 32 / sizeof(T); // only for DFromV // Compound assignment. Only usable if there is a corresponding non-member // binary operator overload. For example, only f32 and f64 support division. HWY_INLINE Vec256& operator*=(const Vec256 other) { return *this = (*this * other); } HWY_INLINE Vec256& operator/=(const Vec256 other) { return *this = (*this / other); } HWY_INLINE Vec256& operator+=(const Vec256 other) { return *this = (*this + other); } HWY_INLINE Vec256& operator-=(const Vec256 other) { return *this = (*this - other); } HWY_INLINE Vec256& operator%=(const Vec256 other) { return *this = (*this % other); } HWY_INLINE Vec256& operator&=(const Vec256 other) { return *this = (*this & other); } HWY_INLINE Vec256& operator|=(const Vec256 other) { return *this = (*this | other); } HWY_INLINE Vec256& operator^=(const Vec256 other) { return *this = (*this ^ other); } Vec128 v0; Vec128 v1; }; template struct Mask256 { using PrivateT = T; // only for DFromM static constexpr size_t kPrivateN = 32 / sizeof(T); // only for DFromM Mask128 m0; Mask128 m1; }; // ------------------------------ Zero // Avoid VFromD here because it is defined in terms of Zero. template HWY_API Vec256> Zero(D d) { const Half dh; Vec256> ret; ret.v0 = ret.v1 = Zero(dh); return ret; } // ------------------------------ BitCast template HWY_API VFromD BitCast(D d, Vec256 v) { const Half dh; VFromD ret; ret.v0 = BitCast(dh, v.v0); ret.v1 = BitCast(dh, v.v1); return ret; } // ------------------------------ ResizeBitCast // 32-byte vector to 32-byte vector: Same as BitCast template HWY_API VFromD ResizeBitCast(D d, FromV v) { return BitCast(d, v); } // <= 16-byte vector to 32-byte vector template HWY_API VFromD ResizeBitCast(D d, FromV v) { const Half dh; VFromD ret; ret.v0 = ResizeBitCast(dh, v); ret.v1 = Zero(dh); return ret; } // 32-byte vector to <= 16-byte vector template HWY_API VFromD ResizeBitCast(D d, FromV v) { return ResizeBitCast(d, v.v0); } // ------------------------------ Set template HWY_API VFromD Set(D d, const T2 t) { const Half dh; VFromD ret; ret.v0 = ret.v1 = Set(dh, static_cast>(t)); return ret; } // Undefined, Iota defined in wasm_128. // ------------------------------ Dup128VecFromValues template HWY_API VFromD Dup128VecFromValues(D d, TFromD t0, TFromD t1, TFromD t2, TFromD t3, TFromD t4, TFromD t5, TFromD t6, TFromD t7, TFromD t8, TFromD t9, TFromD t10, TFromD t11, TFromD t12, TFromD t13, TFromD t14, TFromD t15) { const Half dh; VFromD ret; ret.v0 = ret.v1 = Dup128VecFromValues(dh, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14, t15); return ret; } template HWY_API VFromD Dup128VecFromValues(D d, TFromD t0, TFromD t1, TFromD t2, TFromD t3, TFromD t4, TFromD t5, TFromD t6, TFromD t7) { const Half dh; VFromD ret; ret.v0 = ret.v1 = Dup128VecFromValues(dh, t0, t1, t2, t3, t4, t5, t6, t7); return ret; } template HWY_API VFromD Dup128VecFromValues(D d, TFromD t0, TFromD t1, TFromD t2, TFromD t3) { const Half dh; VFromD ret; ret.v0 = ret.v1 = Dup128VecFromValues(dh, t0, t1, t2, t3); return ret; } template HWY_API VFromD Dup128VecFromValues(D d, TFromD t0, TFromD t1) { const Half dh; VFromD ret; ret.v0 = ret.v1 = Dup128VecFromValues(dh, t0, t1); return ret; } // ================================================== ARITHMETIC template HWY_API Vec256 operator+(Vec256 a, const Vec256 b) { a.v0 += b.v0; a.v1 += b.v1; return a; } template HWY_API Vec256 operator-(Vec256 a, const Vec256 b) { a.v0 -= b.v0; a.v1 -= b.v1; return a; } // ------------------------------ SumsOf8 HWY_API Vec256 SumsOf8(const Vec256 v) { Vec256 ret; ret.v0 = SumsOf8(v.v0); ret.v1 = SumsOf8(v.v1); return ret; } HWY_API Vec256 SumsOf8(const Vec256 v) { Vec256 ret; ret.v0 = SumsOf8(v.v0); ret.v1 = SumsOf8(v.v1); return ret; } template HWY_API Vec256 SaturatedAdd(Vec256 a, const Vec256 b) { a.v0 = SaturatedAdd(a.v0, b.v0); a.v1 = SaturatedAdd(a.v1, b.v1); return a; } template HWY_API Vec256 SaturatedSub(Vec256 a, const Vec256 b) { a.v0 = SaturatedSub(a.v0, b.v0); a.v1 = SaturatedSub(a.v1, b.v1); return a; } template HWY_API Vec256 AverageRound(Vec256 a, const Vec256 b) { a.v0 = AverageRound(a.v0, b.v0); a.v1 = AverageRound(a.v1, b.v1); return a; } template HWY_API Vec256 Abs(Vec256 v) { v.v0 = Abs(v.v0); v.v1 = Abs(v.v1); return v; } // ------------------------------ Shift lanes by constant #bits template HWY_API Vec256 ShiftLeft(Vec256 v) { v.v0 = ShiftLeft(v.v0); v.v1 = ShiftLeft(v.v1); return v; } template HWY_API Vec256 ShiftRight(Vec256 v) { v.v0 = ShiftRight(v.v0); v.v1 = ShiftRight(v.v1); return v; } // ------------------------------ RotateRight (ShiftRight, Or) template HWY_API Vec256 RotateRight(const Vec256 v) { const DFromV d; const RebindToUnsigned du; constexpr size_t kSizeInBits = sizeof(T) * 8; static_assert(0 <= kBits && kBits < kSizeInBits, "Invalid shift count"); if (kBits == 0) return v; return Or(BitCast(d, ShiftRight(BitCast(du, v))), ShiftLeft(v)); } // ------------------------------ Shift lanes by same variable #bits template HWY_API Vec256 ShiftLeftSame(Vec256 v, const int bits) { v.v0 = ShiftLeftSame(v.v0, bits); v.v1 = ShiftLeftSame(v.v1, bits); return v; } template HWY_API Vec256 ShiftRightSame(Vec256 v, const int bits) { v.v0 = ShiftRightSame(v.v0, bits); v.v1 = ShiftRightSame(v.v1, bits); return v; } // ------------------------------ Min, Max template HWY_API Vec256 Min(Vec256 a, const Vec256 b) { a.v0 = Min(a.v0, b.v0); a.v1 = Min(a.v1, b.v1); return a; } template HWY_API Vec256 Max(Vec256 a, const Vec256 b) { a.v0 = Max(a.v0, b.v0); a.v1 = Max(a.v1, b.v1); return a; } // ------------------------------ Integer multiplication template HWY_API Vec256 operator*(Vec256 a, const Vec256 b) { a.v0 *= b.v0; a.v1 *= b.v1; return a; } template HWY_API Vec256 MulHigh(Vec256 a, const Vec256 b) { a.v0 = MulHigh(a.v0, b.v0); a.v1 = MulHigh(a.v1, b.v1); return a; } template HWY_API Vec256 MulFixedPoint15(Vec256 a, const Vec256 b) { a.v0 = MulFixedPoint15(a.v0, b.v0); a.v1 = MulFixedPoint15(a.v1, b.v1); return a; } // Cannot use MakeWide because that returns uint128_t for uint64_t, but we want // uint64_t. template HWY_API Vec256> MulEven(Vec256 a, const Vec256 b) { Vec256> ret; ret.v0 = MulEven(a.v0, b.v0); ret.v1 = MulEven(a.v1, b.v1); return ret; } template HWY_API Vec256 MulEven(Vec256 a, const Vec256 b) { Vec256 ret; ret.v0 = MulEven(a.v0, b.v0); ret.v1 = MulEven(a.v1, b.v1); return ret; } template HWY_API Vec256> MulOdd(Vec256 a, const Vec256 b) { Vec256> ret; ret.v0 = MulOdd(a.v0, b.v0); ret.v1 = MulOdd(a.v1, b.v1); return ret; } template HWY_API Vec256 MulOdd(Vec256 a, const Vec256 b) { Vec256 ret; ret.v0 = MulOdd(a.v0, b.v0); ret.v1 = MulOdd(a.v1, b.v1); return ret; } // ------------------------------ Negate template HWY_API Vec256 Neg(Vec256 v) { v.v0 = Neg(v.v0); v.v1 = Neg(v.v1); return v; } // ------------------------------ AbsDiff // generic_ops takes care of integer T. template HWY_API Vec256 AbsDiff(const Vec256 a, const Vec256 b) { return Abs(a - b); } // ------------------------------ Floating-point division // generic_ops takes care of integer T. template HWY_API Vec256 operator/(Vec256 a, const Vec256 b) { a.v0 /= b.v0; a.v1 /= b.v1; return a; } // ------------------------------ Floating-point multiply-add variants template HWY_API Vec256 MulAdd(Vec256 mul, Vec256 x, Vec256 add) { mul.v0 = MulAdd(mul.v0, x.v0, add.v0); mul.v1 = MulAdd(mul.v1, x.v1, add.v1); return mul; } template HWY_API Vec256 NegMulAdd(Vec256 mul, Vec256 x, Vec256 add) { mul.v0 = NegMulAdd(mul.v0, x.v0, add.v0); mul.v1 = NegMulAdd(mul.v1, x.v1, add.v1); return mul; } template HWY_API Vec256 MulSub(Vec256 mul, Vec256 x, Vec256 sub) { mul.v0 = MulSub(mul.v0, x.v0, sub.v0); mul.v1 = MulSub(mul.v1, x.v1, sub.v1); return mul; } template HWY_API Vec256 NegMulSub(Vec256 mul, Vec256 x, Vec256 sub) { mul.v0 = NegMulSub(mul.v0, x.v0, sub.v0); mul.v1 = NegMulSub(mul.v1, x.v1, sub.v1); return mul; } // ------------------------------ Floating-point square root template HWY_API Vec256 Sqrt(Vec256 v) { v.v0 = Sqrt(v.v0); v.v1 = Sqrt(v.v1); return v; } // ------------------------------ Floating-point rounding // Toward nearest integer, ties to even template HWY_API Vec256 Round(Vec256 v) { v.v0 = Round(v.v0); v.v1 = Round(v.v1); return v; } // Toward zero, aka truncate template HWY_API Vec256 Trunc(Vec256 v) { v.v0 = Trunc(v.v0); v.v1 = Trunc(v.v1); return v; } // Toward +infinity, aka ceiling template HWY_API Vec256 Ceil(Vec256 v) { v.v0 = Ceil(v.v0); v.v1 = Ceil(v.v1); return v; } // Toward -infinity, aka floor template HWY_API Vec256 Floor(Vec256 v) { v.v0 = Floor(v.v0); v.v1 = Floor(v.v1); return v; } // ------------------------------ Floating-point classification template HWY_API Mask256 IsNaN(const Vec256 v) { return v != v; } template HWY_API Mask256 IsInf(const Vec256 v) { const DFromV d; const RebindToUnsigned du; const VFromD vu = BitCast(du, v); // 'Shift left' to clear the sign bit, check for exponent=max and mantissa=0. return RebindMask(d, Eq(Add(vu, vu), Set(du, hwy::MaxExponentTimes2()))); } // Returns whether normal/subnormal/zero. template HWY_API Mask256 IsFinite(const Vec256 v) { const DFromV d; const RebindToUnsigned du; const RebindToSigned di; // cheaper than unsigned comparison const VFromD vu = BitCast(du, v); // 'Shift left' to clear the sign bit, then right so we can compare with the // max exponent (cannot compare with MaxExponentTimes2 directly because it is // negative and non-negative floats would be greater). const VFromD exp = BitCast(di, ShiftRight() + 1>(Add(vu, vu))); return RebindMask(d, Lt(exp, Set(di, hwy::MaxExponentField()))); } // ================================================== COMPARE // Comparisons fill a lane with 1-bits if the condition is true, else 0. template > HWY_API MFromD RebindMask(DTo /*tag*/, Mask256 m) { static_assert(sizeof(TFrom) == sizeof(TTo), "Must have same size"); return MFromD{Mask128{m.m0.raw}, Mask128{m.m1.raw}}; } template HWY_API Mask256 TestBit(Vec256 v, Vec256 bit) { static_assert(!hwy::IsFloat(), "Only integer vectors supported"); return (v & bit) == bit; } template HWY_API Mask256 operator==(Vec256 a, const Vec256 b) { Mask256 m; m.m0 = operator==(a.v0, b.v0); m.m1 = operator==(a.v1, b.v1); return m; } template HWY_API Mask256 operator!=(Vec256 a, const Vec256 b) { Mask256 m; m.m0 = operator!=(a.v0, b.v0); m.m1 = operator!=(a.v1, b.v1); return m; } template HWY_API Mask256 operator<(Vec256 a, const Vec256 b) { Mask256 m; m.m0 = operator<(a.v0, b.v0); m.m1 = operator<(a.v1, b.v1); return m; } template HWY_API Mask256 operator>(Vec256 a, const Vec256 b) { Mask256 m; m.m0 = operator>(a.v0, b.v0); m.m1 = operator>(a.v1, b.v1); return m; } template HWY_API Mask256 operator<=(Vec256 a, const Vec256 b) { Mask256 m; m.m0 = operator<=(a.v0, b.v0); m.m1 = operator<=(a.v1, b.v1); return m; } template HWY_API Mask256 operator>=(Vec256 a, const Vec256 b) { Mask256 m; m.m0 = operator>=(a.v0, b.v0); m.m1 = operator>=(a.v1, b.v1); return m; } // ------------------------------ FirstN (Iota, Lt) template HWY_API MFromD FirstN(const D d, size_t num) { const RebindToSigned di; // Signed comparisons may be cheaper. using TI = TFromD; return RebindMask(d, Iota(di, 0) < Set(di, static_cast(num))); } // ================================================== LOGICAL template HWY_API Vec256 Not(Vec256 v) { v.v0 = Not(v.v0); v.v1 = Not(v.v1); return v; } template HWY_API Vec256 And(Vec256 a, Vec256 b) { a.v0 = And(a.v0, b.v0); a.v1 = And(a.v1, b.v1); return a; } template HWY_API Vec256 AndNot(Vec256 not_mask, Vec256 mask) { not_mask.v0 = AndNot(not_mask.v0, mask.v0); not_mask.v1 = AndNot(not_mask.v1, mask.v1); return not_mask; } template HWY_API Vec256 Or(Vec256 a, Vec256 b) { a.v0 = Or(a.v0, b.v0); a.v1 = Or(a.v1, b.v1); return a; } template HWY_API Vec256 Xor(Vec256 a, Vec256 b) { a.v0 = Xor(a.v0, b.v0); a.v1 = Xor(a.v1, b.v1); return a; } template HWY_API Vec256 Or3(Vec256 o1, Vec256 o2, Vec256 o3) { return Or(o1, Or(o2, o3)); } template HWY_API Vec256 OrAnd(Vec256 o, Vec256 a1, Vec256 a2) { return Or(o, And(a1, a2)); } template HWY_API Vec256 IfVecThenElse(Vec256 mask, Vec256 yes, Vec256 no) { return IfThenElse(MaskFromVec(mask), yes, no); } // ------------------------------ Operator overloads (internal-only if float) template HWY_API Vec256 operator&(const Vec256 a, const Vec256 b) { return And(a, b); } template HWY_API Vec256 operator|(const Vec256 a, const Vec256 b) { return Or(a, b); } template HWY_API Vec256 operator^(const Vec256 a, const Vec256 b) { return Xor(a, b); } // ------------------------------ CopySign template HWY_API Vec256 CopySign(const Vec256 magn, const Vec256 sign) { static_assert(IsFloat(), "Only makes sense for floating-point"); const DFromV d; return BitwiseIfThenElse(SignBit(d), sign, magn); } // ------------------------------ CopySignToAbs template HWY_API Vec256 CopySignToAbs(const Vec256 abs, const Vec256 sign) { static_assert(IsFloat(), "Only makes sense for floating-point"); const DFromV d; return OrAnd(abs, SignBit(d), sign); } // ------------------------------ Mask // Mask and Vec are the same (true = FF..FF). template HWY_API Mask256 MaskFromVec(const Vec256 v) { Mask256 m; m.m0 = MaskFromVec(v.v0); m.m1 = MaskFromVec(v.v1); return m; } template > HWY_API Vec256 VecFromMask(D d, Mask256 m) { const Half dh; Vec256 v; v.v0 = VecFromMask(dh, m.m0); v.v1 = VecFromMask(dh, m.m1); return v; } template HWY_API uint64_t BitsFromMask(D d, MFromD m) { const Half dh; const uint64_t lo = BitsFromMask(dh, m.m0); const uint64_t hi = BitsFromMask(dh, m.m1); return (hi << Lanes(dh)) | lo; } // mask ? yes : no template HWY_API Vec256 IfThenElse(Mask256 mask, Vec256 yes, Vec256 no) { yes.v0 = IfThenElse(mask.m0, yes.v0, no.v0); yes.v1 = IfThenElse(mask.m1, yes.v1, no.v1); return yes; } // mask ? yes : 0 template HWY_API Vec256 IfThenElseZero(Mask256 mask, Vec256 yes) { return yes & VecFromMask(DFromV(), mask); } // mask ? 0 : no template HWY_API Vec256 IfThenZeroElse(Mask256 mask, Vec256 no) { return AndNot(VecFromMask(DFromV(), mask), no); } template HWY_API Vec256 IfNegativeThenElse(Vec256 v, Vec256 yes, Vec256 no) { v.v0 = IfNegativeThenElse(v.v0, yes.v0, no.v0); v.v1 = IfNegativeThenElse(v.v1, yes.v1, no.v1); return v; } // ------------------------------ Mask logical template HWY_API Mask256 Not(const Mask256 m) { return MaskFromVec(Not(VecFromMask(Full256(), m))); } template HWY_API Mask256 And(const Mask256 a, Mask256 b) { const Full256 d; return MaskFromVec(And(VecFromMask(d, a), VecFromMask(d, b))); } template HWY_API Mask256 AndNot(const Mask256 a, Mask256 b) { const Full256 d; return MaskFromVec(AndNot(VecFromMask(d, a), VecFromMask(d, b))); } template HWY_API Mask256 Or(const Mask256 a, Mask256 b) { const Full256 d; return MaskFromVec(Or(VecFromMask(d, a), VecFromMask(d, b))); } template HWY_API Mask256 Xor(const Mask256 a, Mask256 b) { const Full256 d; return MaskFromVec(Xor(VecFromMask(d, a), VecFromMask(d, b))); } template HWY_API Mask256 ExclusiveNeither(const Mask256 a, Mask256 b) { const Full256 d; return MaskFromVec(AndNot(VecFromMask(d, a), Not(VecFromMask(d, b)))); } // ------------------------------ Shl (BroadcastSignBit, IfThenElse) template HWY_API Vec256 operator<<(Vec256 v, const Vec256