third_party/asan/asan_clang_Linux/lib/clang/3.0/include/xmmintrin.h - Issue 8404033: New ASan binaries for Linux (r946)

Side by Side Diff: third_party/asan/asan_clang_Linux/lib/clang/3.0/include/xmmintrin.h

Issue 8404033: New ASan binaries for Linux (r946) (Closed) Base URL: svn://svn.chromium.org/chrome/trunk/deps/

Patch Set: Created 9 years, 1 month ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

View unified diff | Download patch | Annotate | Revision Log

« no previous file with comments | « third_party/asan/asan_clang_Linux/lib/clang/3.0/include/x86intrin.h ('k') | third_party/asan/asan_clang_Linux/lib/clang/3.1/include/.dir » ('j') | no next file with comments »
Toggle Intra-line Diffs ('i') | Expand Comments ('e') | Collapse Comments ('c') | Hide Comments ('s')

OLD	NEW
	(Empty)
1 /*===---- xmmintrin.h - SSE intrinsics -------------------------------------===

2 *

3 * Permission is hereby granted, free of charge, to any person obtaining a copy

4 * of this software and associated documentation files (the "Software"), to deal

5 * in the Software without restriction, including without limitation the rights

6 * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell

7 * copies of the Software, and to permit persons to whom the Software is

8 * furnished to do so, subject to the following conditions:

9 *

10 * The above copyright notice and this permission notice shall be included in

11 * all copies or substantial portions of the Software.

12 *

13 * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR

14 * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,

15 * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE

16 * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER

17 * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,

18 * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN

19 * THE SOFTWARE.

20 *

21 *===-----------------------------------------------------------------------===

22 */

23

24 #ifndef __XMMINTRIN_H

25 #define __XMMINTRIN_H

26

27 #ifndef __SSE__

28 #error "SSE instruction set not enabled"

29 #else

30

31 #include <mmintrin.h>

32

33 typedef int __v4si __attribute__((__vector_size__(16)));

34 typedef float __v4sf __attribute__((__vector_size__(16)));

35 typedef float __m128 __attribute__((__vector_size__(16)));

36

37 // This header should only be included in a hosted environment as it depends on

38 // a standard library to provide allocation routines.

39 #if __STDC_HOSTED__

40 #include <mm_malloc.h>

41 #endif

42

43 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

44 _mm_add_ss(__m128 a, __m128 b)

45 {

46 a[0] += b[0];

47 return a;

48 }

49

50 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

51 _mm_add_ps(__m128 a, __m128 b)

52 {

53 return a + b;

54 }

55

56 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

57 _mm_sub_ss(__m128 a, __m128 b)

58 {

59 a[0] -= b[0];

60 return a;

61 }

62

63 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

64 _mm_sub_ps(__m128 a, __m128 b)

65 {

66 return a - b;

67 }

68

69 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

70 _mm_mul_ss(__m128 a, __m128 b)

71 {

72 a[0] *= b[0];

73 return a;

74 }

75

76 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

77 _mm_mul_ps(__m128 a, __m128 b)

78 {

79 return a * b;

80 }

81

82 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

83 _mm_div_ss(__m128 a, __m128 b)

84 {

85 a[0] /= b[0];

86 return a;

87 }

88

89 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

90 _mm_div_ps(__m128 a, __m128 b)

91 {

92 return a / b;

93 }

94

95 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

96 _mm_sqrt_ss(__m128 a)

97 {

98 return __builtin_ia32_sqrtss(a);

99 }

100

101 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

102 _mm_sqrt_ps(__m128 a)

103 {

104 return __builtin_ia32_sqrtps(a);

105 }

106

107 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

108 _mm_rcp_ss(__m128 a)

109 {

110 return __builtin_ia32_rcpss(a);

111 }

112

113 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

114 _mm_rcp_ps(__m128 a)

115 {

116 return __builtin_ia32_rcpps(a);

117 }

118

119 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

120 _mm_rsqrt_ss(__m128 a)

121 {

122 return __builtin_ia32_rsqrtss(a);

123 }

124

125 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

126 _mm_rsqrt_ps(__m128 a)

127 {

128 return __builtin_ia32_rsqrtps(a);

129 }

130

131 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

132 _mm_min_ss(__m128 a, __m128 b)

133 {

134 return __builtin_ia32_minss(a, b);

135 }

136

137 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

138 _mm_min_ps(__m128 a, __m128 b)

139 {

140 return __builtin_ia32_minps(a, b);

141 }

142

143 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

144 _mm_max_ss(__m128 a, __m128 b)

145 {

146 return __builtin_ia32_maxss(a, b);

147 }

148

149 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

150 _mm_max_ps(__m128 a, __m128 b)

151 {

152 return __builtin_ia32_maxps(a, b);

153 }

154

155 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

156 _mm_and_ps(__m128 a, __m128 b)

157 {

158 return (__m128)((__v4si)a & (__v4si)b);

159 }

160

161 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

162 _mm_andnot_ps(__m128 a, __m128 b)

163 {

164 return (__m128)(~(__v4si)a & (__v4si)b);

165 }

166

167 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

168 _mm_or_ps(__m128 a, __m128 b)

169 {

170 return (__m128)((__v4si)a \| (__v4si)b);

171 }

172

173 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

174 _mm_xor_ps(__m128 a, __m128 b)

175 {

176 return (__m128)((__v4si)a ^ (__v4si)b);

177 }

178

179 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

180 _mm_cmpeq_ss(__m128 a, __m128 b)

181 {

182 return (__m128)__builtin_ia32_cmpss(a, b, 0);

183 }

184

185 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

186 _mm_cmpeq_ps(__m128 a, __m128 b)

187 {

188 return (__m128)__builtin_ia32_cmpps(a, b, 0);

189 }

190

191 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

192 _mm_cmplt_ss(__m128 a, __m128 b)

193 {

194 return (__m128)__builtin_ia32_cmpss(a, b, 1);

195 }

196

197 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

198 _mm_cmplt_ps(__m128 a, __m128 b)

199 {

200 return (__m128)__builtin_ia32_cmpps(a, b, 1);

201 }

202

203 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

204 _mm_cmple_ss(__m128 a, __m128 b)

205 {

206 return (__m128)__builtin_ia32_cmpss(a, b, 2);

207 }

208

209 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

210 _mm_cmple_ps(__m128 a, __m128 b)

211 {

212 return (__m128)__builtin_ia32_cmpps(a, b, 2);

213 }

214

215 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

216 _mm_cmpgt_ss(__m128 a, __m128 b)

217 {

218 return (__m128)__builtin_ia32_cmpss(b, a, 1);

219 }

220

221 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

222 _mm_cmpgt_ps(__m128 a, __m128 b)

223 {

224 return (__m128)__builtin_ia32_cmpps(b, a, 1);

225 }

226

227 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

228 _mm_cmpge_ss(__m128 a, __m128 b)

229 {

230 return (__m128)__builtin_ia32_cmpss(b, a, 2);

231 }

232

233 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

234 _mm_cmpge_ps(__m128 a, __m128 b)

235 {

236 return (__m128)__builtin_ia32_cmpps(b, a, 2);

237 }

238

239 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

240 _mm_cmpneq_ss(__m128 a, __m128 b)

241 {

242 return (__m128)__builtin_ia32_cmpss(a, b, 4);

243 }

244

245 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

246 _mm_cmpneq_ps(__m128 a, __m128 b)

247 {

248 return (__m128)__builtin_ia32_cmpps(a, b, 4);

249 }

250

251 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

252 _mm_cmpnlt_ss(__m128 a, __m128 b)

253 {

254 return (__m128)__builtin_ia32_cmpss(a, b, 5);

255 }

256

257 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

258 _mm_cmpnlt_ps(__m128 a, __m128 b)

259 {

260 return (__m128)__builtin_ia32_cmpps(a, b, 5);

261 }

262

263 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

264 _mm_cmpnle_ss(__m128 a, __m128 b)

265 {

266 return (__m128)__builtin_ia32_cmpss(a, b, 6);

267 }

268

269 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

270 _mm_cmpnle_ps(__m128 a, __m128 b)

271 {

272 return (__m128)__builtin_ia32_cmpps(a, b, 6);

273 }

274

275 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

276 _mm_cmpngt_ss(__m128 a, __m128 b)

277 {

278 return (__m128)__builtin_ia32_cmpss(b, a, 5);

279 }

280

281 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

282 _mm_cmpngt_ps(__m128 a, __m128 b)

283 {

284 return (__m128)__builtin_ia32_cmpps(b, a, 5);

285 }

286

287 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

288 _mm_cmpnge_ss(__m128 a, __m128 b)

289 {

290 return (__m128)__builtin_ia32_cmpss(b, a, 6);

291 }

292

293 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

294 _mm_cmpnge_ps(__m128 a, __m128 b)

295 {

296 return (__m128)__builtin_ia32_cmpps(b, a, 6);

297 }

298

299 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

300 _mm_cmpord_ss(__m128 a, __m128 b)

301 {

302 return (__m128)__builtin_ia32_cmpss(a, b, 7);

303 }

304

305 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

306 _mm_cmpord_ps(__m128 a, __m128 b)

307 {

308 return (__m128)__builtin_ia32_cmpps(a, b, 7);

309 }

310

311 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

312 _mm_cmpunord_ss(__m128 a, __m128 b)

313 {

314 return (__m128)__builtin_ia32_cmpss(a, b, 3);

315 }

316

317 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

318 _mm_cmpunord_ps(__m128 a, __m128 b)

319 {

320 return (__m128)__builtin_ia32_cmpps(a, b, 3);

321 }

322

323 static __inline__ int __attribute__((__always_inline__, __nodebug__))

324 _mm_comieq_ss(__m128 a, __m128 b)

325 {

326 return __builtin_ia32_comieq(a, b);

327 }

328

329 static __inline__ int __attribute__((__always_inline__, __nodebug__))

330 _mm_comilt_ss(__m128 a, __m128 b)

331 {

332 return __builtin_ia32_comilt(a, b);

333 }

334

335 static __inline__ int __attribute__((__always_inline__, __nodebug__))

336 _mm_comile_ss(__m128 a, __m128 b)

337 {

338 return __builtin_ia32_comile(a, b);

339 }

340

341 static __inline__ int __attribute__((__always_inline__, __nodebug__))

342 _mm_comigt_ss(__m128 a, __m128 b)

343 {

344 return __builtin_ia32_comigt(a, b);

345 }

346

347 static __inline__ int __attribute__((__always_inline__, __nodebug__))

348 _mm_comige_ss(__m128 a, __m128 b)

349 {

350 return __builtin_ia32_comige(a, b);

351 }

352

353 static __inline__ int __attribute__((__always_inline__, __nodebug__))

354 _mm_comineq_ss(__m128 a, __m128 b)

355 {

356 return __builtin_ia32_comineq(a, b);

357 }

358

359 static __inline__ int __attribute__((__always_inline__, __nodebug__))

360 _mm_ucomieq_ss(__m128 a, __m128 b)

361 {

362 return __builtin_ia32_ucomieq(a, b);

363 }

364

365 static __inline__ int __attribute__((__always_inline__, __nodebug__))

366 _mm_ucomilt_ss(__m128 a, __m128 b)

367 {

368 return __builtin_ia32_ucomilt(a, b);

369 }

370

371 static __inline__ int __attribute__((__always_inline__, __nodebug__))

372 _mm_ucomile_ss(__m128 a, __m128 b)

373 {

374 return __builtin_ia32_ucomile(a, b);

375 }

376

377 static __inline__ int __attribute__((__always_inline__, __nodebug__))

378 _mm_ucomigt_ss(__m128 a, __m128 b)

379 {

380 return __builtin_ia32_ucomigt(a, b);

381 }

382

383 static __inline__ int __attribute__((__always_inline__, __nodebug__))

384 _mm_ucomige_ss(__m128 a, __m128 b)

385 {

386 return __builtin_ia32_ucomige(a, b);

387 }

388

389 static __inline__ int __attribute__((__always_inline__, __nodebug__))

390 _mm_ucomineq_ss(__m128 a, __m128 b)

391 {

392 return __builtin_ia32_ucomineq(a, b);

393 }

394

395 static __inline__ int __attribute__((__always_inline__, __nodebug__))

396 _mm_cvtss_si32(__m128 a)

397 {

398 return __builtin_ia32_cvtss2si(a);

399 }

400

401 static __inline__ int __attribute__((__always_inline__, __nodebug__))

402 _mm_cvt_ss2si(__m128 a)

403 {

404 return _mm_cvtss_si32(a);

405 }

406

407 #ifdef __x86_64__

408

409 static __inline__ long long __attribute__((__always_inline__, __nodebug__))

410 _mm_cvtss_si64(__m128 a)

411 {

412 return __builtin_ia32_cvtss2si64(a);

413 }

414

415 #endif

416

417 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

418 _mm_cvtps_pi32(__m128 a)

419 {

420 return (__m64)__builtin_ia32_cvtps2pi(a);

421 }

422

423 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

424 _mm_cvt_ps2pi(__m128 a)

425 {

426 return _mm_cvtps_pi32(a);

427 }

428

429 static __inline__ int __attribute__((__always_inline__, __nodebug__))

430 _mm_cvttss_si32(__m128 a)

431 {

432 return a[0];

433 }

434

435 static __inline__ int __attribute__((__always_inline__, __nodebug__))

436 _mm_cvtt_ss2si(__m128 a)

437 {

438 return _mm_cvttss_si32(a);

439 }

440

441 static __inline__ long long __attribute__((__always_inline__, __nodebug__))

442 _mm_cvttss_si64(__m128 a)

443 {

444 return a[0];

445 }

446

447 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

448 _mm_cvttps_pi32(__m128 a)

449 {

450 return (__m64)__builtin_ia32_cvttps2pi(a);

451 }

452

453 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

454 _mm_cvtt_ps2pi(__m128 a)

455 {

456 return _mm_cvttps_pi32(a);

457 }

458

459 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

460 _mm_cvtsi32_ss(__m128 a, int b)

461 {

462 a[0] = b;

463 return a;

464 }

465

466 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

467 _mm_cvt_si2ss(__m128 a, int b)

468 {

469 return _mm_cvtsi32_ss(a, b);

470 }

471

472 #ifdef __x86_64__

473

474 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

475 _mm_cvtsi64_ss(__m128 a, long long b)

476 {

477 a[0] = b;

478 return a;

479 }

480

481 #endif

482

483 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

484 _mm_cvtpi32_ps(__m128 a, __m64 b)

485 {

486 return __builtin_ia32_cvtpi2ps(a, (__v2si)b);

487 }

488

489 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

490 _mm_cvt_pi2ps(__m128 a, __m64 b)

491 {

492 return _mm_cvtpi32_ps(a, b);

493 }

494

495 static __inline__ float __attribute__((__always_inline__, __nodebug__))

496 _mm_cvtss_f32(__m128 a)

497 {

498 return a[0];

499 }

500

501 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

502 _mm_loadh_pi(__m128 a, const __m64 *p)

503 {

504 typedef float __mm_loadh_pi_v2f32 __attribute__((__vector_size__(8)));

505 struct __mm_loadh_pi_struct {

506 __mm_loadh_pi_v2f32 u;

507 } __attribute__((__packed__, __may_alias__));

508 __mm_loadh_pi_v2f32 b = ((struct __mm_loadh_pi_struct*)p)->u;

509 __m128 bb = __builtin_shufflevector(b, b, 0, 1, 0, 1);

510 return __builtin_shufflevector(a, bb, 0, 1, 4, 5);

511 }

512

513 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

514 _mm_loadl_pi(__m128 a, const __m64 *p)

515 {

516 typedef float __mm_loadl_pi_v2f32 __attribute__((__vector_size__(8)));

517 struct __mm_loadl_pi_struct {

518 __mm_loadl_pi_v2f32 u;

519 } __attribute__((__packed__, __may_alias__));

520 __mm_loadl_pi_v2f32 b = ((struct __mm_loadl_pi_struct*)p)->u;

521 __m128 bb = __builtin_shufflevector(b, b, 0, 1, 0, 1);

522 return __builtin_shufflevector(a, bb, 4, 5, 2, 3);

523 }

524

525 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

526 _mm_load_ss(const float *p)

527 {

528 struct __mm_load_ss_struct {

529 float u;

530 } __attribute__((__packed__, __may_alias__));

531 float u = ((struct __mm_load_ss_struct*)p)->u;

532 return (__m128){ u, 0, 0, 0 };

533 }

534

535 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

536 _mm_load1_ps(const float *p)

537 {

538 struct __mm_load1_ps_struct {

539 float u;

540 } __attribute__((__packed__, __may_alias__));

541 float u = ((struct __mm_load1_ps_struct*)p)->u;

542 return (__m128){ u, u, u, u };

543 }

544

545 #define _mm_load_ps1(p) _mm_load1_ps(p)

546

547 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

548 _mm_load_ps(const float *p)

549 {

550 return (__m128)p;

551 }

552

553 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

554 _mm_loadu_ps(const float *p)

555 {

556 struct __loadu_ps {

557 __m128 v;

558 } __attribute__((__packed__, __may_alias__));

559 return ((struct __loadu_ps*)p)->v;

560 }

561

562 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

563 _mm_loadr_ps(const float *p)

564 {

565 __m128 a = _mm_load_ps(p);

566 return __builtin_shufflevector(a, a, 3, 2, 1, 0);

567 }

568

569 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

570 _mm_set_ss(float w)

571 {

572 return (__m128){ w, 0, 0, 0 };

573 }

574

575 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

576 _mm_set1_ps(float w)

577 {

578 return (__m128){ w, w, w, w };

579 }

580

581 // Microsoft specific.

582 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

583 _mm_set_ps1(float w)

584 {

585 return _mm_set1_ps(w);

586 }

587

588 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

589 _mm_set_ps(float z, float y, float x, float w)

590 {

591 return (__m128){ w, x, y, z };

592 }

593

594 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

595 _mm_setr_ps(float z, float y, float x, float w)

596 {

597 return (__m128){ z, y, x, w };

598 }

599

600 static __inline__ __m128 __attribute__((__always_inline__))

601 _mm_setzero_ps(void)

602 {

603 return (__m128){ 0, 0, 0, 0 };

604 }

605

606 static __inline__ void __attribute__((__always_inline__))

607 _mm_storeh_pi(__m64 *p, __m128 a)

608 {

609 __builtin_ia32_storehps((__v2si *)p, a);

610 }

611

612 static __inline__ void __attribute__((__always_inline__))

613 _mm_storel_pi(__m64 *p, __m128 a)

614 {

615 __builtin_ia32_storelps((__v2si *)p, a);

616 }

617

618 static __inline__ void __attribute__((__always_inline__))

619 _mm_store_ss(float *p, __m128 a)

620 {

621 struct __mm_store_ss_struct {

622 float u;

623 } __attribute__((__packed__, __may_alias__));

624 ((struct __mm_store_ss_struct*)p)->u = a[0];

625 }

626

627 static __inline__ void __attribute__((__always_inline__, __nodebug__))

628 _mm_storeu_ps(float *p, __m128 a)

629 {

630 __builtin_ia32_storeups(p, a);

631 }

632

633 static __inline__ void __attribute__((__always_inline__, __nodebug__))

634 _mm_store1_ps(float *p, __m128 a)

635 {

636 a = __builtin_shufflevector(a, a, 0, 0, 0, 0);

637 _mm_storeu_ps(p, a);

638 }

639

640 static __inline__ void __attribute__((__always_inline__, __nodebug__))

641 _mm_store_ps1(float *p, __m128 a)

642 {

643 return _mm_store1_ps(p, a);

644 }

645

646 static __inline__ void __attribute__((__always_inline__, __nodebug__))

647 _mm_store_ps(float *p, __m128 a)

648 {

649 (__m128 )p = a;

650 }

651

652 static __inline__ void __attribute__((__always_inline__, __nodebug__))

653 _mm_storer_ps(float *p, __m128 a)

654 {

655 a = __builtin_shufflevector(a, a, 3, 2, 1, 0);

656 _mm_store_ps(p, a);

657 }

658

659 #define _MM_HINT_T0 3

660 #define _MM_HINT_T1 2

661 #define _MM_HINT_T2 1

662 #define _MM_HINT_NTA 0

663

664 /* FIXME: We have to #define this because "sel" must be a constant integer, and

665 Sema doesn't do any form of constant propagation yet. */

666

667 #define _mm_prefetch(a, sel) (__builtin_prefetch((void *)(a), 0, sel))

668

669 static __inline__ void __attribute__((__always_inline__, __nodebug__))

670 _mm_stream_pi(__m64 *p, __m64 a)

671 {

672 __builtin_ia32_movntq(p, a);

673 }

674

675 static __inline__ void __attribute__((__always_inline__, __nodebug__))

676 _mm_stream_ps(float *p, __m128 a)

677 {

678 __builtin_ia32_movntps(p, a);

679 }

680

681 static __inline__ void __attribute__((__always_inline__, __nodebug__))

682 _mm_sfence(void)

683 {

684 __builtin_ia32_sfence();

685 }

686

687 static __inline__ int __attribute__((__always_inline__, __nodebug__))

688 _mm_extract_pi16(__m64 a, int n)

689 {

690 __v4hi b = (__v4hi)a;

691 return (unsigned short)b[n & 3];

692 }

693

694 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

695 _mm_insert_pi16(__m64 a, int d, int n)

696 {

697 __v4hi b = (__v4hi)a;

698 b[n & 3] = d;

699 return (__m64)b;

700 }

701

702 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

703 _mm_max_pi16(__m64 a, __m64 b)

704 {

705 return (__m64)__builtin_ia32_pmaxsw((__v4hi)a, (__v4hi)b);

706 }

707

708 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

709 _mm_max_pu8(__m64 a, __m64 b)

710 {

711 return (__m64)__builtin_ia32_pmaxub((__v8qi)a, (__v8qi)b);

712 }

713

714 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

715 _mm_min_pi16(__m64 a, __m64 b)

716 {

717 return (__m64)__builtin_ia32_pminsw((__v4hi)a, (__v4hi)b);

718 }

719

720 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

721 _mm_min_pu8(__m64 a, __m64 b)

722 {

723 return (__m64)__builtin_ia32_pminub((__v8qi)a, (__v8qi)b);

724 }

725

726 static __inline__ int __attribute__((__always_inline__, __nodebug__))

727 _mm_movemask_pi8(__m64 a)

728 {

729 return __builtin_ia32_pmovmskb((__v8qi)a);

730 }

731

732 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

733 _mm_mulhi_pu16(__m64 a, __m64 b)

734 {

735 return (__m64)__builtin_ia32_pmulhuw((__v4hi)a, (__v4hi)b);

736 }

737

738 #define _mm_shuffle_pi16(a, n) \

739 ((__m64)__builtin_ia32_pshufw(a, n))

740

741 static __inline__ void __attribute__((__always_inline__, __nodebug__))

742 _mm_maskmove_si64(__m64 d, __m64 n, char *p)

743 {

744 __builtin_ia32_maskmovq((__v8qi)d, (__v8qi)n, p);

745 }

746

747 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

748 _mm_avg_pu8(__m64 a, __m64 b)

749 {

750 return (__m64)__builtin_ia32_pavgb((__v8qi)a, (__v8qi)b);

751 }

752

753 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

754 _mm_avg_pu16(__m64 a, __m64 b)

755 {

756 return (__m64)__builtin_ia32_pavgw((__v4hi)a, (__v4hi)b);

757 }

758

759 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

760 _mm_sad_pu8(__m64 a, __m64 b)

761 {

762 return (__m64)__builtin_ia32_psadbw((__v8qi)a, (__v8qi)b);

763 }

764

765 static __inline__ unsigned int __attribute__((__always_inline__, __nodebug__))

766 _mm_getcsr(void)

767 {

768 return __builtin_ia32_stmxcsr();

769 }

770

771 static __inline__ void __attribute__((__always_inline__, __nodebug__))

772 _mm_setcsr(unsigned int i)

773 {

774 __builtin_ia32_ldmxcsr(i);

775 }

776

777 #define _mm_shuffle_ps(a, b, mask) \

778 (__builtin_shufflevector((__v4sf)(a), (__v4sf)(b), \

779 (mask) & 0x3, ((mask) & 0xc) >> 2, \

780 (((mask) & 0x30) >> 4) + 4, \

781 (((mask) & 0xc0) >> 6) + 4))

782

783 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

784 _mm_unpackhi_ps(__m128 a, __m128 b)

785 {

786 return __builtin_shufflevector(a, b, 2, 6, 3, 7);

787 }

788

789 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

790 _mm_unpacklo_ps(__m128 a, __m128 b)

791 {

792 return __builtin_shufflevector(a, b, 0, 4, 1, 5);

793 }

794

795 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

796 _mm_move_ss(__m128 a, __m128 b)

797 {

798 return __builtin_shufflevector(a, b, 4, 1, 2, 3);

799 }

800

801 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

802 _mm_movehl_ps(__m128 a, __m128 b)

803 {

804 return __builtin_shufflevector(a, b, 6, 7, 2, 3);

805 }

806

807 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

808 _mm_movelh_ps(__m128 a, __m128 b)

809 {

810 return __builtin_shufflevector(a, b, 0, 1, 4, 5);

811 }

812

813 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

814 _mm_cvtpi16_ps(__m64 a)

815 {

816 __m64 b, c;

817 __m128 r;

818

819 b = _mm_setzero_si64();

820 b = _mm_cmpgt_pi16(b, a);

821 c = _mm_unpackhi_pi16(a, b);

822 r = _mm_setzero_ps();

823 r = _mm_cvtpi32_ps(r, c);

824 r = _mm_movelh_ps(r, r);

825 c = _mm_unpacklo_pi16(a, b);

826 r = _mm_cvtpi32_ps(r, c);

827

828 return r;

829 }

830

831 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

832 _mm_cvtpu16_ps(__m64 a)

833 {

834 __m64 b, c;

835 __m128 r;

836

837 b = _mm_setzero_si64();

838 c = _mm_unpackhi_pi16(a, b);

839 r = _mm_setzero_ps();

840 r = _mm_cvtpi32_ps(r, c);

841 r = _mm_movelh_ps(r, r);

842 c = _mm_unpacklo_pi16(a, b);

843 r = _mm_cvtpi32_ps(r, c);

844

845 return r;

846 }

847

848 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

849 _mm_cvtpi8_ps(__m64 a)

850 {

851 __m64 b;

852

853 b = _mm_setzero_si64();

854 b = _mm_cmpgt_pi8(b, a);

855 b = _mm_unpacklo_pi8(a, b);

856

857 return _mm_cvtpi16_ps(b);

858 }

859

860 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

861 _mm_cvtpu8_ps(__m64 a)

862 {

863 __m64 b;

864

865 b = _mm_setzero_si64();

866 b = _mm_unpacklo_pi8(a, b);

867

868 return _mm_cvtpi16_ps(b);

869 }

870

871 static __inline__ __m128 __attribute__((__always_inline__, __nodebug__))

872 _mm_cvtpi32x2_ps(__m64 a, __m64 b)

873 {

874 __m128 c;

875

876 c = _mm_setzero_ps();

877 c = _mm_cvtpi32_ps(c, b);

878 c = _mm_movelh_ps(c, c);

879

880 return _mm_cvtpi32_ps(c, a);

881 }

882

883 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

884 _mm_cvtps_pi16(__m128 a)

885 {

886 __m64 b, c;

887

888 b = _mm_cvtps_pi32(a);

889 a = _mm_movehl_ps(a, a);

890 c = _mm_cvtps_pi32(a);

891

892 return _mm_packs_pi16(b, c);

893 }

894

895 static __inline__ __m64 __attribute__((__always_inline__, __nodebug__))

896 _mm_cvtps_pi8(__m128 a)

897 {

898 __m64 b, c;

899

900 b = _mm_cvtps_pi16(a);

901 c = _mm_setzero_si64();

902

903 return _mm_packs_pi16(b, c);

904 }

905

906 static __inline__ int __attribute__((__always_inline__, __nodebug__))

907 _mm_movemask_ps(__m128 a)

908 {

909 return __builtin_ia32_movmskps(a);

910 }

911

912 #define _MM_SHUFFLE(z, y, x, w) (((z) << 6) \| ((y) << 4) \| ((x) << 2) \| (w))

913

914 #define _MM_EXCEPT_INVALID (0x0001)

915 #define _MM_EXCEPT_DENORM (0x0002)

916 #define _MM_EXCEPT_DIV_ZERO (0x0004)

917 #define _MM_EXCEPT_OVERFLOW (0x0008)

918 #define _MM_EXCEPT_UNDERFLOW (0x0010)

919 #define _MM_EXCEPT_INEXACT (0x0020)

920 #define _MM_EXCEPT_MASK (0x003f)

921

922 #define _MM_MASK_INVALID (0x0080)

923 #define _MM_MASK_DENORM (0x0100)

924 #define _MM_MASK_DIV_ZERO (0x0200)

925 #define _MM_MASK_OVERFLOW (0x0400)

926 #define _MM_MASK_UNDERFLOW (0x0800)

927 #define _MM_MASK_INEXACT (0x1000)

928 #define _MM_MASK_MASK (0x1f80)

929

930 #define _MM_ROUND_NEAREST (0x0000)

931 #define _MM_ROUND_DOWN (0x2000)

932 #define _MM_ROUND_UP (0x4000)

933 #define _MM_ROUND_TOWARD_ZERO (0x6000)

934 #define _MM_ROUND_MASK (0x6000)

935

936 #define _MM_FLUSH_ZERO_MASK (0x8000)

937 #define _MM_FLUSH_ZERO_ON (0x8000)

938 #define _MM_FLUSH_ZERO_OFF (0x8000)

939

940 #define _MM_GET_EXCEPTION_MASK() (_mm_getcsr() & _MM_MASK_MASK)

941 #define _MM_GET_EXCEPTION_STATE() (_mm_getcsr() & _MM_EXCEPT_MASK)

942 #define _MM_GET_FLUSH_ZERO_MODE() (_mm_getcsr() & _MM_FLUSH_ZERO_MASK)

943 #define _MM_GET_ROUNDING_MODE() (_mm_getcsr() & _MM_ROUND_MASK)

944

945 #define _MM_SET_EXCEPTION_MASK(x) (_mm_setcsr((_mm_getcsr() & ~_MM_MASK_MASK) \| (x)))

946 #define _MM_SET_EXCEPTION_STATE(x) (_mm_setcsr((_mm_getcsr() & ~_MM_EXCEPT_MASK) \| (x)))

947 #define _MM_SET_FLUSH_ZERO_MODE(x) (_mm_setcsr((_mm_getcsr() & ~_MM_FLUSH_ZERO_M ASK) \| (x)))

948 #define _MM_SET_ROUNDING_MODE(x) (_mm_setcsr((_mm_getcsr() & ~_MM_ROUND_MASK) \| (x)))

949

950 #define _MM_TRANSPOSE4_PS(row0, row1, row2, row3) \

951 do { \

952 __m128 tmp3, tmp2, tmp1, tmp0; \

953 tmp0 = _mm_unpacklo_ps((row0), (row1)); \

954 tmp2 = _mm_unpacklo_ps((row2), (row3)); \

955 tmp1 = _mm_unpackhi_ps((row0), (row1)); \

956 tmp3 = _mm_unpackhi_ps((row2), (row3)); \

957 (row0) = _mm_movelh_ps(tmp0, tmp2); \

958 (row1) = _mm_movehl_ps(tmp2, tmp0); \

959 (row2) = _mm_movelh_ps(tmp1, tmp3); \

960 (row3) = _mm_movehl_ps(tmp3, tmp1); \

961 } while (0)

962

963 /* Aliases for compatibility. */

964 #define _m_pextrw _mm_extract_pi16

965 #define _m_pinsrw _mm_insert_pi16

966 #define _m_pmaxsw _mm_max_pi16

967 #define _m_pmaxub _mm_max_pu8

968 #define _m_pminsw _mm_min_pi16

969 #define _m_pminub _mm_min_pu8

970 #define _m_pmovmskb _mm_movemask_pi8

971 #define _m_pmulhuw _mm_mulhi_pu16

972 #define _m_pshufw _mm_shuffle_pi16

973 #define _m_maskmovq _mm_maskmove_si64

974 #define _m_pavgb _mm_avg_pu8

975 #define _m_pavgw _mm_avg_pu16

976 #define _m_psadbw _mm_sad_pu8

977 #define _m_ _mm_

978 #define _m_ _mm_

979

980 /* Ugly hack for backwards-compatibility (compatible with gcc) */

981 #ifdef __SSE2__

982 #include <emmintrin.h>

983 #endif

984

985 #endif /* __SSE__ */

986

987 #endif /* __XMMINTRIN_H */

OLD	NEW