src/opts/SkNx_sse.h - Issue 1196713004: Implement four more xfermodes with Sk4px.

Side by Side Diff: src/opts/SkNx_sse.h

Issue 1196713004: Implement four more xfermodes with Sk4px. (Closed) Base URL: https://skia.googlesource.com/skia@master

Patch Set: manually cast for missing 64-bit vreinterprets Created 5 years, 5 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

View unified diff | Download patch

OLD	NEW
1 /*	1 /*

2 * Copyright 2015 Google Inc.	2 * Copyright 2015 Google Inc.

3 *	3 *

4 * Use of this source code is governed by a BSD-style license that can be	4 * Use of this source code is governed by a BSD-style license that can be

5 * found in the LICENSE file.	5 * found in the LICENSE file.

6 */	6 */

7	7

8 #ifndef SkNx_sse_DEFINED	8 #ifndef SkNx_sse_DEFINED

9 #define SkNx_sse_DEFINED	9 #define SkNx_sse_DEFINED

10	10

11 // This file may assume <= SSE2, but must check SK_CPU_SSE_LEVEL for anything mo re recent.	11 // This file may assume <= SSE2, but must check SK_CPU_SSE_LEVEL for anything mo re recent.

12	12

13 namespace { // See SkNx.h	13 namespace { // See SkNx.h

14	14

15 template <>

16 class SkNb<2, 4> {

17 public:

18 SkNb(const __m128i& vec) : fVec(vec) {}

19

20 SkNb() {}

21 bool allTrue() const { return 0xff == (_mm_movemask_epi8(fVec) & 0xff); }

22 bool anyTrue() const { return 0x00 != (_mm_movemask_epi8(fVec) & 0xff); }

23

24 __m128i fVec;

25 };

26

27 template <>

28 class SkNb<4, 4> {

29 public:

30 SkNb(const __m128i& vec) : fVec(vec) {}

31

32 SkNb() {}

33 bool allTrue() const { return 0xffff == _mm_movemask_epi8(fVec); }

34 bool anyTrue() const { return 0x0000 != _mm_movemask_epi8(fVec); }

35

36 __m128i fVec;

37 };

38

39 template <>

40 class SkNb<2, 8> {

41 public:

42 SkNb(const __m128i& vec) : fVec(vec) {}

43

44 SkNb() {}

45 bool allTrue() const { return 0xffff == _mm_movemask_epi8(fVec); }

46 bool anyTrue() const { return 0x0000 != _mm_movemask_epi8(fVec); }

47

48 __m128i fVec;

49 };

50

51	15

52 template <>	16 template <>

53 class SkNf<2, float> {	17 class SkNf<2, float> {

54 typedef SkNb<2, 4> Nb;

55 public:	18 public:

56 SkNf(const __m128& vec) : fVec(vec) {}	19 SkNf(const __m128& vec) : fVec(vec) {}

57	20

58 SkNf() {}	21 SkNf() {}

59 explicit SkNf(float val) : fVec(_mm_set1_ps(val)) {}	22 explicit SkNf(float val) : fVec(_mm_set1_ps(val)) {}

60 static SkNf Load(const float vals[2]) {	23 static SkNf Load(const float vals[2]) {

61 return _mm_castsi128_ps(_mm_loadl_epi64((const __m128i*)vals));	24 return _mm_castsi128_ps(_mm_loadl_epi64((const __m128i*)vals));

62 }	25 }

63 SkNf(float a, float b) : fVec(_mm_setr_ps(a,b,0,0)) {}	26 SkNf(float a, float b) : fVec(_mm_setr_ps(a,b,0,0)) {}

64	27

65 void store(float vals[2]) const { _mm_storel_pi((__m64*)vals, fVec); }	28 void store(float vals[2]) const { _mm_storel_pi((__m64*)vals, fVec); }

66	29

67 SkNf operator + (const SkNf& o) const { return _mm_add_ps(fVec, o.fVec); }	30 SkNf operator + (const SkNf& o) const { return _mm_add_ps(fVec, o.fVec); }

68 SkNf operator - (const SkNf& o) const { return _mm_sub_ps(fVec, o.fVec); }	31 SkNf operator - (const SkNf& o) const { return _mm_sub_ps(fVec, o.fVec); }

69 SkNf operator * (const SkNf& o) const { return _mm_mul_ps(fVec, o.fVec); }	32 SkNf operator * (const SkNf& o) const { return _mm_mul_ps(fVec, o.fVec); }

70 SkNf operator / (const SkNf& o) const { return _mm_div_ps(fVec, o.fVec); }	33 SkNf operator / (const SkNf& o) const { return _mm_div_ps(fVec, o.fVec); }

71	34

72 Nb operator == (const SkNf& o) const { return _mm_castps_si128(_mm_cmpeq_ps (fVec, o.fVec)); }	35 SkNf operator == (const SkNf& o) const { return _mm_cmpeq_ps (fVec, o.fVec); }

73 Nb operator != (const SkNf& o) const { return _mm_castps_si128(_mm_cmpneq_ps (fVec, o.fVec)); }	36 SkNf operator != (const SkNf& o) const { return _mm_cmpneq_ps(fVec, o.fVec); }

74 Nb operator < (const SkNf& o) const { return _mm_castps_si128(_mm_cmplt_ps (fVec, o.fVec)); }	37 SkNf operator < (const SkNf& o) const { return _mm_cmplt_ps (fVec, o.fVec); }

75 Nb operator > (const SkNf& o) const { return _mm_castps_si128(_mm_cmpgt_ps (fVec, o.fVec)); }	38 SkNf operator > (const SkNf& o) const { return _mm_cmpgt_ps (fVec, o.fVec); }

76 Nb operator <= (const SkNf& o) const { return _mm_castps_si128(_mm_cmple_ps (fVec, o.fVec)); }	39 SkNf operator <= (const SkNf& o) const { return _mm_cmple_ps (fVec, o.fVec); }

77 Nb operator >= (const SkNf& o) const { return _mm_castps_si128(_mm_cmpge_ps (fVec, o.fVec)); }	40 SkNf operator >= (const SkNf& o) const { return _mm_cmpge_ps (fVec, o.fVec); }

78	41

79 static SkNf Min(const SkNf& l, const SkNf& r) { return _mm_min_ps(l.fVec, r. fVec); }	42 static SkNf Min(const SkNf& l, const SkNf& r) { return _mm_min_ps(l.fVec, r. fVec); }

80 static SkNf Max(const SkNf& l, const SkNf& r) { return _mm_max_ps(l.fVec, r. fVec); }	43 static SkNf Max(const SkNf& l, const SkNf& r) { return _mm_max_ps(l.fVec, r. fVec); }

81	44

82 SkNf sqrt() const { return _mm_sqrt_ps (fVec); }	45 SkNf sqrt() const { return _mm_sqrt_ps (fVec); }

83 SkNf rsqrt0() const { return _mm_rsqrt_ps(fVec); }	46 SkNf rsqrt0() const { return _mm_rsqrt_ps(fVec); }

84 SkNf rsqrt1() const { return this->rsqrt0(); }	47 SkNf rsqrt1() const { return this->rsqrt0(); }

85 SkNf rsqrt2() const { return this->rsqrt1(); }	48 SkNf rsqrt2() const { return this->rsqrt1(); }

86	49

87 SkNf invert() const { return SkNf(1) / *this; }	50 SkNf invert() const { return SkNf(1) / *this; }

88 SkNf approxInvert() const { return _mm_rcp_ps(fVec); }	51 SkNf approxInvert() const { return _mm_rcp_ps(fVec); }

89	52

90 template <int k> float kth() const {	53 template <int k> float kth() const {

91 SkASSERT(0 <= k && k < 2);	54 SkASSERT(0 <= k && k < 2);

92 union { __m128 v; float fs[4]; } pun = {fVec};	55 union { __m128 v; float fs[4]; } pun = {fVec};

93 return pun.fs[k&1];	56 return pun.fs[k&1];

94 }	57 }

95	58

	59 bool allTrue() const { return 0xff == (_mm_movemask_epi8(_mm_castps_si128(fV ec)) & 0xff); }

	60 bool anyTrue() const { return 0x00 != (_mm_movemask_epi8(_mm_castps_si128(fV ec)) & 0xff); }

	61

96 __m128 fVec;	62 __m128 fVec;

97 };	63 };

98	64

99 template <>	65 template <>

100 class SkNf<2, double> {	66 class SkNf<2, double> {

101 typedef SkNb<2, 8> Nb;

102 public:	67 public:

103 SkNf(const __m128d& vec) : fVec(vec) {}	68 SkNf(const __m128d& vec) : fVec(vec) {}

104	69

105 SkNf() {}	70 SkNf() {}

106 explicit SkNf(double val) : fVec( _mm_set1_pd(val) ) {}	71 explicit SkNf(double val) : fVec( _mm_set1_pd(val) ) {}

107 static SkNf Load(const double vals[2]) { return _mm_loadu_pd(vals); }	72 static SkNf Load(const double vals[2]) { return _mm_loadu_pd(vals); }

108 SkNf(double a, double b) : fVec(_mm_setr_pd(a,b)) {}	73 SkNf(double a, double b) : fVec(_mm_setr_pd(a,b)) {}

109	74

110 void store(double vals[2]) const { _mm_storeu_pd(vals, fVec); }	75 void store(double vals[2]) const { _mm_storeu_pd(vals, fVec); }

111	76

112 SkNf operator + (const SkNf& o) const { return _mm_add_pd(fVec, o.fVec); }	77 SkNf operator + (const SkNf& o) const { return _mm_add_pd(fVec, o.fVec); }

113 SkNf operator - (const SkNf& o) const { return _mm_sub_pd(fVec, o.fVec); }	78 SkNf operator - (const SkNf& o) const { return _mm_sub_pd(fVec, o.fVec); }

114 SkNf operator * (const SkNf& o) const { return _mm_mul_pd(fVec, o.fVec); }	79 SkNf operator * (const SkNf& o) const { return _mm_mul_pd(fVec, o.fVec); }

115 SkNf operator / (const SkNf& o) const { return _mm_div_pd(fVec, o.fVec); }	80 SkNf operator / (const SkNf& o) const { return _mm_div_pd(fVec, o.fVec); }

116	81

117 Nb operator == (const SkNf& o) const { return _mm_castpd_si128(_mm_cmpeq_pd (fVec, o.fVec)); }	82 SkNf operator == (const SkNf& o) const { return _mm_cmpeq_pd (fVec, o.fVec); }

118 Nb operator != (const SkNf& o) const { return _mm_castpd_si128(_mm_cmpneq_pd (fVec, o.fVec)); }	83 SkNf operator != (const SkNf& o) const { return _mm_cmpneq_pd(fVec, o.fVec); }

119 Nb operator < (const SkNf& o) const { return _mm_castpd_si128(_mm_cmplt_pd (fVec, o.fVec)); }	84 SkNf operator < (const SkNf& o) const { return _mm_cmplt_pd (fVec, o.fVec); }

120 Nb operator > (const SkNf& o) const { return _mm_castpd_si128(_mm_cmpgt_pd (fVec, o.fVec)); }	85 SkNf operator > (const SkNf& o) const { return _mm_cmpgt_pd (fVec, o.fVec); }

121 Nb operator <= (const SkNf& o) const { return _mm_castpd_si128(_mm_cmple_pd (fVec, o.fVec)); }	86 SkNf operator <= (const SkNf& o) const { return _mm_cmple_pd (fVec, o.fVec); }

122 Nb operator >= (const SkNf& o) const { return _mm_castpd_si128(_mm_cmpge_pd (fVec, o.fVec)); }	87 SkNf operator >= (const SkNf& o) const { return _mm_cmpge_pd (fVec, o.fVec); }

123	88

124 static SkNf Min(const SkNf& l, const SkNf& r) { return _mm_min_pd(l.fVec, r. fVec); }	89 static SkNf Min(const SkNf& l, const SkNf& r) { return _mm_min_pd(l.fVec, r. fVec); }

125 static SkNf Max(const SkNf& l, const SkNf& r) { return _mm_max_pd(l.fVec, r. fVec); }	90 static SkNf Max(const SkNf& l, const SkNf& r) { return _mm_max_pd(l.fVec, r. fVec); }

126	91

127 SkNf sqrt() const { return _mm_sqrt_pd(fVec); }	92 SkNf sqrt() const { return _mm_sqrt_pd(fVec); }

128 SkNf rsqrt0() const { return _mm_cvtps_pd(_mm_rsqrt_ps(_mm_cvtpd_ps(fVec))); }	93 SkNf rsqrt0() const { return _mm_cvtps_pd(_mm_rsqrt_ps(_mm_cvtpd_ps(fVec))); }

129 SkNf rsqrt1() const { return this->rsqrt0(); }	94 SkNf rsqrt1() const { return this->rsqrt0(); }

130 SkNf rsqrt2() const { return this->rsqrt1(); }	95 SkNf rsqrt2() const { return this->rsqrt1(); }

131	96

132 SkNf invert() const { return SkNf(1) / *this; }	97 SkNf invert() const { return SkNf(1) / *this; }

133 SkNf approxInvert() const { return _mm_cvtps_pd(_mm_rcp_ps(_mm_cvtpd_ps(fVec ))); }	98 SkNf approxInvert() const { return _mm_cvtps_pd(_mm_rcp_ps(_mm_cvtpd_ps(fVec ))); }

134	99

135 template <int k> double kth() const {	100 template <int k> double kth() const {

136 SkASSERT(0 <= k && k < 2);	101 SkASSERT(0 <= k && k < 2);

137 union { __m128d v; double ds[2]; } pun = {fVec};	102 union { __m128d v; double ds[2]; } pun = {fVec};

138 return pun.ds[k&1];	103 return pun.ds[k&1];

139 }	104 }

140	105

	106 bool allTrue() const { return 0xffff == _mm_movemask_epi8(_mm_castpd_si128(f Vec)); }

	107 bool anyTrue() const { return 0x0000 != _mm_movemask_epi8(_mm_castpd_si128(f Vec)); }

	108

141 __m128d fVec;	109 __m128d fVec;

142 };	110 };

143	111

144 template <>	112 template <>

145 class SkNi<4, int> {	113 class SkNi<4, int> {

146 public:	114 public:

147 SkNi(const __m128i& vec) : fVec(vec) {}	115 SkNi(const __m128i& vec) : fVec(vec) {}

148	116

149 SkNi() {}	117 SkNi() {}

150 explicit SkNi(int val) : fVec(_mm_set1_epi32(val)) {}	118 explicit SkNi(int val) : fVec(_mm_set1_epi32(val)) {}

(...skipping 23 matching lines...) Expand all Loading...
174 case 3: return _mm_cvtsi128_si32(_mm_srli_si128(fVec, 12));	142 case 3: return _mm_cvtsi128_si32(_mm_srli_si128(fVec, 12));

175 default: SkASSERT(false); return 0;	143 default: SkASSERT(false); return 0;

176 }	144 }

177 }	145 }

178	146

179 __m128i fVec;	147 __m128i fVec;

180 };	148 };

181	149

182 template <>	150 template <>

183 class SkNf<4, float> {	151 class SkNf<4, float> {

184 typedef SkNb<4, 4> Nb;

185 public:	152 public:

186 SkNf(const __m128& vec) : fVec(vec) {}	153 SkNf(const __m128& vec) : fVec(vec) {}

187	154

188 SkNf() {}	155 SkNf() {}

189 explicit SkNf(float val) : fVec( _mm_set1_ps(val) ) {}	156 explicit SkNf(float val) : fVec( _mm_set1_ps(val) ) {}

190 static SkNf Load(const float vals[4]) { return _mm_loadu_ps(vals); }	157 static SkNf Load(const float vals[4]) { return _mm_loadu_ps(vals); }

191 SkNf(float a, float b, float c, float d) : fVec(_mm_setr_ps(a,b,c,d)) {}	158 SkNf(float a, float b, float c, float d) : fVec(_mm_setr_ps(a,b,c,d)) {}

192	159

193 void store(float vals[4]) const { _mm_storeu_ps(vals, fVec); }	160 void store(float vals[4]) const { _mm_storeu_ps(vals, fVec); }

194	161

195 SkNi<4, int> castTrunc() const { return _mm_cvttps_epi32(fVec); }	162 SkNi<4, int> castTrunc() const { return _mm_cvttps_epi32(fVec); }

196	163

197 SkNf operator + (const SkNf& o) const { return _mm_add_ps(fVec, o.fVec); }	164 SkNf operator + (const SkNf& o) const { return _mm_add_ps(fVec, o.fVec); }

198 SkNf operator - (const SkNf& o) const { return _mm_sub_ps(fVec, o.fVec); }	165 SkNf operator - (const SkNf& o) const { return _mm_sub_ps(fVec, o.fVec); }

199 SkNf operator * (const SkNf& o) const { return _mm_mul_ps(fVec, o.fVec); }	166 SkNf operator * (const SkNf& o) const { return _mm_mul_ps(fVec, o.fVec); }

200 SkNf operator / (const SkNf& o) const { return _mm_div_ps(fVec, o.fVec); }	167 SkNf operator / (const SkNf& o) const { return _mm_div_ps(fVec, o.fVec); }

201	168

202 Nb operator == (const SkNf& o) const { return _mm_castps_si128(_mm_cmpeq_ps (fVec, o.fVec)); }	169 SkNf operator == (const SkNf& o) const { return _mm_cmpeq_ps (fVec, o.fVec); }

203 Nb operator != (const SkNf& o) const { return _mm_castps_si128(_mm_cmpneq_ps (fVec, o.fVec)); }	170 SkNf operator != (const SkNf& o) const { return _mm_cmpneq_ps(fVec, o.fVec); }

204 Nb operator < (const SkNf& o) const { return _mm_castps_si128(_mm_cmplt_ps (fVec, o.fVec)); }	171 SkNf operator < (const SkNf& o) const { return _mm_cmplt_ps (fVec, o.fVec); }

205 Nb operator > (const SkNf& o) const { return _mm_castps_si128(_mm_cmpgt_ps (fVec, o.fVec)); }	172 SkNf operator > (const SkNf& o) const { return _mm_cmpgt_ps (fVec, o.fVec); }

206 Nb operator <= (const SkNf& o) const { return _mm_castps_si128(_mm_cmple_ps (fVec, o.fVec)); }	173 SkNf operator <= (const SkNf& o) const { return _mm_cmple_ps (fVec, o.fVec); }

207 Nb operator >= (const SkNf& o) const { return _mm_castps_si128(_mm_cmpge_ps (fVec, o.fVec)); }	174 SkNf operator >= (const SkNf& o) const { return _mm_cmpge_ps (fVec, o.fVec); }

208	175

209 static SkNf Min(const SkNf& l, const SkNf& r) { return _mm_min_ps(l.fVec, r. fVec); }	176 static SkNf Min(const SkNf& l, const SkNf& r) { return _mm_min_ps(l.fVec, r. fVec); }

210 static SkNf Max(const SkNf& l, const SkNf& r) { return _mm_max_ps(l.fVec, r. fVec); }	177 static SkNf Max(const SkNf& l, const SkNf& r) { return _mm_max_ps(l.fVec, r. fVec); }

211	178

212 SkNf sqrt() const { return _mm_sqrt_ps (fVec); }	179 SkNf sqrt() const { return _mm_sqrt_ps (fVec); }

213 SkNf rsqrt0() const { return _mm_rsqrt_ps(fVec); }	180 SkNf rsqrt0() const { return _mm_rsqrt_ps(fVec); }

214 SkNf rsqrt1() const { return this->rsqrt0(); }	181 SkNf rsqrt1() const { return this->rsqrt0(); }

215 SkNf rsqrt2() const { return this->rsqrt1(); }	182 SkNf rsqrt2() const { return this->rsqrt1(); }

216	183

217 SkNf invert() const { return SkNf(1) / *this; }	184 SkNf invert() const { return SkNf(1) / *this; }

218 SkNf approxInvert() const { return _mm_rcp_ps(fVec); }	185 SkNf approxInvert() const { return _mm_rcp_ps(fVec); }

219	186

220 template <int k> float kth() const {	187 template <int k> float kth() const {

221 SkASSERT(0 <= k && k < 4);	188 SkASSERT(0 <= k && k < 4);

222 union { __m128 v; float fs[4]; } pun = {fVec};	189 union { __m128 v; float fs[4]; } pun = {fVec};

223 return pun.fs[k&3];	190 return pun.fs[k&3];

224 }	191 }

225	192

	193 bool allTrue() const { return 0xffff == _mm_movemask_epi8(_mm_castps_si128(f Vec)); }

	194 bool anyTrue() const { return 0x0000 != _mm_movemask_epi8(_mm_castps_si128(f Vec)); }

	195

226 __m128 fVec;	196 __m128 fVec;

227 };	197 };

228	198

229 template <>	199 template <>

230 class SkNi<4, uint16_t> {	200 class SkNi<4, uint16_t> {

231 public:	201 public:

232 SkNi(const __m128i& vec) : fVec(vec) {}	202 SkNi(const __m128i& vec) : fVec(vec) {}

233	203

234 SkNi() {}	204 SkNi() {}

235 explicit SkNi(uint16_t val) : fVec(_mm_set1_epi16(val)) {}	205 explicit SkNi(uint16_t val) : fVec(_mm_set1_epi16(val)) {}

(...skipping 69 matching lines...) Expand 10 before \| Expand all \| Expand 10 after Loading...
305 : fVec(_mm_setr_epi8(a,b,c,d, e,f,g,h, i,j,k,l, m,n,o,p)) {}	275 : fVec(_mm_setr_epi8(a,b,c,d, e,f,g,h, i,j,k,l, m,n,o,p)) {}

306	276

307 void store(uint8_t vals[16]) const { _mm_storeu_si128((__m128i*)vals, fVec); }	277 void store(uint8_t vals[16]) const { _mm_storeu_si128((__m128i*)vals, fVec); }

308	278

309 SkNi saturatedAdd(const SkNi& o) const { return _mm_adds_epu8(fVec, o.fVec); }	279 SkNi saturatedAdd(const SkNi& o) const { return _mm_adds_epu8(fVec, o.fVec); }

310	280

311 SkNi operator + (const SkNi& o) const { return _mm_add_epi8(fVec, o.fVec); }	281 SkNi operator + (const SkNi& o) const { return _mm_add_epi8(fVec, o.fVec); }

312 SkNi operator - (const SkNi& o) const { return _mm_sub_epi8(fVec, o.fVec); }	282 SkNi operator - (const SkNi& o) const { return _mm_sub_epi8(fVec, o.fVec); }

313	283

314 static SkNi Min(const SkNi& a, const SkNi& b) { return _mm_min_epu8(a.fVec, b.fVec); }	284 static SkNi Min(const SkNi& a, const SkNi& b) { return _mm_min_epu8(a.fVec, b.fVec); }

	285 SkNi operator < (const SkNi& o) const {

	286 // There's no unsigned _mm_cmplt_epu8, so we flip the sign bits then use a signed compare.

	287 auto flip = _mm_set1_epi8(char(0x80));

	288 return _mm_cmplt_epi8(_mm_xor_si128(flip, fVec), _mm_xor_si128(flip, o.f Vec));

	289 }

315	290

316 template <int k> uint8_t kth() const {	291 template <int k> uint8_t kth() const {

317 SkASSERT(0 <= k && k < 16);	292 SkASSERT(0 <= k && k < 16);

318 // SSE4.1 would just `return _mm_extract_epi8(fVec, k)`. We have to rea d 16-bits instead.	293 // SSE4.1 would just `return _mm_extract_epi8(fVec, k)`. We have to rea d 16-bits instead.

319 int pair = _mm_extract_epi16(fVec, k/2);	294 int pair = _mm_extract_epi16(fVec, k/2);

320 return k % 2 == 0 ? pair : (pair >> 8);	295 return k % 2 == 0 ? pair : (pair >> 8);

321 }	296 }

322	297

	298 SkNi thenElse(const SkNi& t, const SkNi& e) const {

	299 return _mm_or_si128(_mm_and_si128 (fVec, t.fVec),

	300 _mm_andnot_si128(fVec, e.fVec));

	301 }

	302

323 __m128i fVec;	303 __m128i fVec;

324 };	304 };

325	305

326 } // namespace	306 } // namespace

327	307

328 #endif//SkNx_sse_DEFINED	308 #endif//SkNx_sse_DEFINED

OLD	NEW

« no previous file with comments | « src/opts/SkNx_neon.h ('k') | src/opts/SkXfermode_opts_SSE2.cpp » ('j') | no next file with comments »