source/row_msa.cc - Issue 2641153003: Add MSA optimized ARGB/ABGR/BGRA/RGBA To Y/UV row functions

Unified Diff: source/row_msa.cc

Issue 2641153003: Add MSA optimized ARGB/ABGR/BGRA/RGBA To Y/UV row functions (Closed)

Patch Set: Fixed loop increments Created 3 years, 11 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

View side-by-side diff with in-line comments

Index: source/row_msa.cc

diff --git a/source/row_msa.cc b/source/row_msa.cc

index c5c0e98c5cf6960a2f9432002671ff75b7489339..f62c34599a3dd1b5a26acefb030ab369a06137b9 100644

--- a/source/row_msa.cc

+++ b/source/row_msa.cc

@@ -52,15 +52,15 @@ extern "C" {

v8i16 vec0_m, vec1_m; \

v4i32 reg0_m, reg1_m, reg2_m, reg3_m, reg4_m; \

v4i32 reg5_m, reg6_m, reg7_m; \

- v4i32 max = __msa_ldi_w(255); \

- v16i8 zero = {0}; \

+ v4i32 max_m = __msa_ldi_w(255); \

+ v16i8 zero_m = {0}; \

vec0_m = (v8i16)__msa_ilvr_b((v16i8)in_y, (v16i8)in_y); \

- vec1_m = (v8i16)__msa_ilvr_b((v16i8)zero, (v16i8)in_uv); \

- reg0_m = (v4i32)__msa_ilvr_h((v8i16)zero, (v8i16)vec0_m); \

- reg1_m = (v4i32)__msa_ilvl_h((v8i16)zero, (v8i16)vec0_m); \

- reg2_m = (v4i32)__msa_ilvr_h((v8i16)zero, (v8i16)vec1_m); \

- reg3_m = (v4i32)__msa_ilvl_h((v8i16)zero, (v8i16)vec1_m); \

+ vec1_m = (v8i16)__msa_ilvr_b((v16i8)zero_m, (v16i8)in_uv); \

+ reg0_m = (v4i32)__msa_ilvr_h((v8i16)zero_m, (v8i16)vec0_m); \

+ reg1_m = (v4i32)__msa_ilvl_h((v8i16)zero_m, (v8i16)vec0_m); \

+ reg2_m = (v4i32)__msa_ilvr_h((v8i16)zero_m, (v8i16)vec1_m); \

+ reg3_m = (v4i32)__msa_ilvl_h((v8i16)zero_m, (v8i16)vec1_m); \

reg0_m *= yg; \

reg1_m *= yg; \

reg2_m *= ubvr; \

@@ -98,12 +98,12 @@ extern "C" {

reg4_m = __msa_maxi_s_w(reg4_m, 0); \

reg2_m = __msa_maxi_s_w(reg2_m, 0); \

reg3_m = __msa_maxi_s_w(reg3_m, 0); \

- reg5_m = __msa_min_s_w(max, reg5_m); \

- reg6_m = __msa_min_s_w(max, reg6_m); \

- reg7_m = __msa_min_s_w(max, reg7_m); \

- reg4_m = __msa_min_s_w(max, reg4_m); \

- reg2_m = __msa_min_s_w(max, reg2_m); \

- reg3_m = __msa_min_s_w(max, reg3_m); \

+ reg5_m = __msa_min_s_w(max_m, reg5_m); \

+ reg6_m = __msa_min_s_w(max_m, reg6_m); \

+ reg7_m = __msa_min_s_w(max_m, reg7_m); \

+ reg4_m = __msa_min_s_w(max_m, reg4_m); \

+ reg2_m = __msa_min_s_w(max_m, reg2_m); \

+ reg3_m = __msa_min_s_w(max_m, reg3_m); \

out_b = __msa_pckev_h((v8i16)reg6_m, (v8i16)reg5_m); \

out_g = __msa_pckev_h((v8i16)reg4_m, (v8i16)reg7_m); \

out_r = __msa_pckev_h((v8i16)reg3_m, (v8i16)reg2_m); \

@@ -121,6 +121,146 @@ extern "C" {

ST_UB2(dst0_m, dst1_m, pdst_argb, 16); \

}

+// Takes ARGB input and calculates Y.

+#define ARGBTOY(argb0, argb1, argb2, argb3, const0, const1, const2, shift, \

+ y_out) \

+ { \

+ v16u8 vec0_m, vec1_m, vec2_m, vec3_m; \

+ v8u16 reg0_m, reg1_m; \

+ \

+ vec0_m = (v16u8)__msa_pckev_h((v8i16)argb1, (v8i16)argb0); \

+ vec1_m = (v16u8)__msa_pckev_h((v8i16)argb3, (v8i16)argb2); \

+ vec2_m = (v16u8)__msa_pckod_h((v8i16)argb1, (v8i16)argb0); \

+ vec3_m = (v16u8)__msa_pckod_h((v8i16)argb3, (v8i16)argb2); \

+ reg0_m = __msa_dotp_u_h(vec0_m, const0); \

+ reg1_m = __msa_dotp_u_h(vec1_m, const0); \

+ reg0_m = __msa_dpadd_u_h(reg0_m, vec2_m, const1); \

+ reg1_m = __msa_dpadd_u_h(reg1_m, vec3_m, const1); \

+ reg0_m += const2; \

+ reg1_m += const2; \

+ reg0_m = (v8u16)__msa_srai_h((v8i16)reg0_m, shift); \

+ reg1_m = (v8u16)__msa_srai_h((v8i16)reg1_m, shift); \

+ y_out = (v16u8)__msa_pckev_b((v16i8)reg1_m, (v16i8)reg0_m); \

+ }

+// Loads current and next row of ARGB input and averages it to calculate U and V

+#define READ_ARGB(s_ptr, t_ptr, argb0, argb1, argb2, argb3) \

+ { \

+ v16u8 src0_m, src1_m, src2_m, src3_m, src4_m, src5_m, src6_m, src7_m; \

+ v16u8 vec0_m, vec1_m, vec2_m, vec3_m, vec4_m, vec5_m, vec6_m, vec7_m; \

+ v16u8 vec8_m, vec9_m; \

+ v8u16 reg0_m, reg1_m, reg2_m, reg3_m, reg4_m, reg5_m, reg6_m, reg7_m; \

+ v8u16 reg8_m, reg9_m; \

+ \

+ src0_m = (v16u8)__msa_ld_b((v16i8*)s, 0); \

+ src1_m = (v16u8)__msa_ld_b((v16i8*)s, 16); \

+ src2_m = (v16u8)__msa_ld_b((v16i8*)s, 32); \

+ src3_m = (v16u8)__msa_ld_b((v16i8*)s, 48); \

+ src4_m = (v16u8)__msa_ld_b((v16i8*)t, 0); \

+ src5_m = (v16u8)__msa_ld_b((v16i8*)t, 16); \

+ src6_m = (v16u8)__msa_ld_b((v16i8*)t, 32); \

+ src7_m = (v16u8)__msa_ld_b((v16i8*)t, 48); \

+ vec0_m = (v16u8)__msa_ilvr_b((v16i8)src0_m, (v16i8)src4_m); \

+ vec1_m = (v16u8)__msa_ilvr_b((v16i8)src1_m, (v16i8)src5_m); \

+ vec2_m = (v16u8)__msa_ilvr_b((v16i8)src2_m, (v16i8)src6_m); \

+ vec3_m = (v16u8)__msa_ilvr_b((v16i8)src3_m, (v16i8)src7_m); \

+ vec4_m = (v16u8)__msa_ilvl_b((v16i8)src0_m, (v16i8)src4_m); \

+ vec5_m = (v16u8)__msa_ilvl_b((v16i8)src1_m, (v16i8)src5_m); \

+ vec6_m = (v16u8)__msa_ilvl_b((v16i8)src2_m, (v16i8)src6_m); \

+ vec7_m = (v16u8)__msa_ilvl_b((v16i8)src3_m, (v16i8)src7_m); \

+ reg0_m = __msa_hadd_u_h(vec0_m, vec0_m); \

+ reg1_m = __msa_hadd_u_h(vec1_m, vec1_m); \

+ reg2_m = __msa_hadd_u_h(vec2_m, vec2_m); \

+ reg3_m = __msa_hadd_u_h(vec3_m, vec3_m); \

+ reg4_m = __msa_hadd_u_h(vec4_m, vec4_m); \

+ reg5_m = __msa_hadd_u_h(vec5_m, vec5_m); \

+ reg6_m = __msa_hadd_u_h(vec6_m, vec6_m); \

+ reg7_m = __msa_hadd_u_h(vec7_m, vec7_m); \

+ reg8_m = (v8u16)__msa_pckev_d((v2i64)reg4_m, (v2i64)reg0_m); \

+ reg9_m = (v8u16)__msa_pckev_d((v2i64)reg5_m, (v2i64)reg1_m); \

+ reg8_m += (v8u16)__msa_pckod_d((v2i64)reg4_m, (v2i64)reg0_m); \

+ reg9_m += (v8u16)__msa_pckod_d((v2i64)reg5_m, (v2i64)reg1_m); \

+ reg0_m = (v8u16)__msa_pckev_d((v2i64)reg6_m, (v2i64)reg2_m); \

+ reg1_m = (v8u16)__msa_pckev_d((v2i64)reg7_m, (v2i64)reg3_m); \

+ reg0_m += (v8u16)__msa_pckod_d((v2i64)reg6_m, (v2i64)reg2_m); \

+ reg1_m += (v8u16)__msa_pckod_d((v2i64)reg7_m, (v2i64)reg3_m); \

+ reg8_m = (v8u16)__msa_srai_h((v8i16)reg8_m, 2); \

+ reg9_m = (v8u16)__msa_srai_h((v8i16)reg9_m, 2); \

+ reg0_m = (v8u16)__msa_srai_h((v8i16)reg0_m, 2); \

+ reg1_m = (v8u16)__msa_srai_h((v8i16)reg1_m, 2); \

+ argb0 = (v16u8)__msa_pckev_b((v16i8)reg9_m, (v16i8)reg8_m); \

+ argb1 = (v16u8)__msa_pckev_b((v16i8)reg1_m, (v16i8)reg0_m); \

+ src0_m = (v16u8)__msa_ld_b((v16i8*)s, 64); \

+ src1_m = (v16u8)__msa_ld_b((v16i8*)s, 80); \

+ src2_m = (v16u8)__msa_ld_b((v16i8*)s, 96); \

+ src3_m = (v16u8)__msa_ld_b((v16i8*)s, 112); \

+ src4_m = (v16u8)__msa_ld_b((v16i8*)t, 64); \

+ src5_m = (v16u8)__msa_ld_b((v16i8*)t, 80); \

+ src6_m = (v16u8)__msa_ld_b((v16i8*)t, 96); \

+ src7_m = (v16u8)__msa_ld_b((v16i8*)t, 112); \

+ vec2_m = (v16u8)__msa_ilvr_b((v16i8)src0_m, (v16i8)src4_m); \

+ vec3_m = (v16u8)__msa_ilvr_b((v16i8)src1_m, (v16i8)src5_m); \

+ vec4_m = (v16u8)__msa_ilvr_b((v16i8)src2_m, (v16i8)src6_m); \

+ vec5_m = (v16u8)__msa_ilvr_b((v16i8)src3_m, (v16i8)src7_m); \

+ vec6_m = (v16u8)__msa_ilvl_b((v16i8)src0_m, (v16i8)src4_m); \

+ vec7_m = (v16u8)__msa_ilvl_b((v16i8)src1_m, (v16i8)src5_m); \

+ vec8_m = (v16u8)__msa_ilvl_b((v16i8)src2_m, (v16i8)src6_m); \

+ vec9_m = (v16u8)__msa_ilvl_b((v16i8)src3_m, (v16i8)src7_m); \

+ reg0_m = __msa_hadd_u_h(vec2_m, vec2_m); \

+ reg1_m = __msa_hadd_u_h(vec3_m, vec3_m); \

+ reg2_m = __msa_hadd_u_h(vec4_m, vec4_m); \

+ reg3_m = __msa_hadd_u_h(vec5_m, vec5_m); \

+ reg4_m = __msa_hadd_u_h(vec6_m, vec6_m); \

+ reg5_m = __msa_hadd_u_h(vec7_m, vec7_m); \

+ reg6_m = __msa_hadd_u_h(vec8_m, vec8_m); \

+ reg7_m = __msa_hadd_u_h(vec9_m, vec9_m); \