source/libvpx/vp9/common/arm/neon/vp9_mb_lpf_neon.asm - Issue 23600008: libvpx: Pull from upstream

Unified Diff: source/libvpx/vp9/common/arm/neon/vp9_mb_lpf_neon.asm

Issue 23600008: libvpx: Pull from upstream (Closed) Base URL: svn://chrome-svn/chrome/trunk/deps/third_party/libvpx/

Patch Set: Created 7 years, 4 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

View side-by-side diff with in-line comments

Download patch

« no previous file with comments | « source/libvpx/vp9/common/arm/neon/vp9_idct16x16_neon.c ('k') | source/libvpx/vp9/common/arm/neon/vp9_short_idct16x16_add_neon.asm » ('j') | no next file with comments »
Expand Comments ('e') | Collapse Comments ('c') | Hide Comments ('s')

Index: source/libvpx/vp9/common/arm/neon/vp9_mb_lpf_neon.asm

===================================================================

--- source/libvpx/vp9/common/arm/neon/vp9_mb_lpf_neon.asm (revision 0)

+++ source/libvpx/vp9/common/arm/neon/vp9_mb_lpf_neon.asm (revision 0)

@@ -0,0 +1,603 @@

+; Use of this source code is governed by a BSD-style license

+; that can be found in the LICENSE file in the root of the source

+; tree. An additional intellectual property rights grant can be found

+; in the file PATENTS. All contributing project authors may

+; be found in the AUTHORS file in the root of the source tree.

+ EXPORT |vp9_mb_lpf_horizontal_edge_w_neon|

+ EXPORT |vp9_mb_lpf_vertical_edge_w_neon|

+ ARM

+ AREA ||.text||, CODE, READONLY, ALIGN=2

+; void vp9_mb_lpf_horizontal_edge_w_neon(uint8_t *s, int p,

+; const uint8_t *blimit,

+; const uint8_t *limit,

+; const uint8_t *thresh

+; int count)

+; r0 uint8_t *s,

+; r1 int p, /* pitch */

+; r2 const uint8_t *blimit,

+; r3 const uint8_t *limit,

+; sp const uint8_t *thresh,

+|vp9_mb_lpf_horizontal_edge_w_neon| PROC

+ push {r4-r8, lr}

+ vpush {d8-d15}

+ ldr r4, [sp, #88] ; load thresh

+ ldr r12, [sp, #92] ; load count

+h_count

+ vld1.8 {d16[]}, [r2] ; load *blimit

+ vld1.8 {d17[]}, [r3] ; load *limit

+ vld1.8 {d18[]}, [r4] ; load *thresh

+ sub r8, r0, r1, lsl #3 ; move src pointer down by 8 lines

+ vld1.u8 {d0}, [r8@64], r1 ; p7

+ vld1.u8 {d1}, [r8@64], r1 ; p6

+ vld1.u8 {d2}, [r8@64], r1 ; p5

+ vld1.u8 {d3}, [r8@64], r1 ; p4

+ vld1.u8 {d4}, [r8@64], r1 ; p3

+ vld1.u8 {d5}, [r8@64], r1 ; p2

+ vld1.u8 {d6}, [r8@64], r1 ; p1

+ vld1.u8 {d7}, [r8@64], r1 ; p0

+ vld1.u8 {d8}, [r8@64], r1 ; q0

+ vld1.u8 {d9}, [r8@64], r1 ; q1

+ vld1.u8 {d10}, [r8@64], r1 ; q2

+ vld1.u8 {d11}, [r8@64], r1 ; q3

+ vld1.u8 {d12}, [r8@64], r1 ; q4

+ vld1.u8 {d13}, [r8@64], r1 ; q5

+ vld1.u8 {d14}, [r8@64], r1 ; q6

+ vld1.u8 {d15}, [r8@64], r1 ; q7

+ bl vp9_wide_mbfilter_neon

+ tst r7, #1

+ beq h_mbfilter

+ ; flat && mask were not set for any of the channels. Just store the values

+ ; from filter.

+ sub r8, r0, r1, lsl #1

+ vst1.u8 {d25}, [r8@64], r1 ; store op1

+ vst1.u8 {d24}, [r8@64], r1 ; store op0

+ vst1.u8 {d23}, [r8@64], r1 ; store oq0

+ vst1.u8 {d26}, [r8@64], r1 ; store oq1

+ b h_next

+h_mbfilter

+ tst r7, #2

+ beq h_wide_mbfilter

+ ; flat2 was not set for any of the channels. Just store the values from

+ ; mbfilter.

+ sub r8, r0, r1, lsl #1

+ sub r8, r8, r1

+ vst1.u8 {d18}, [r8@64], r1 ; store op2

+ vst1.u8 {d19}, [r8@64], r1 ; store op1

+ vst1.u8 {d20}, [r8@64], r1 ; store op0

+ vst1.u8 {d21}, [r8@64], r1 ; store oq0

+ vst1.u8 {d22}, [r8@64], r1 ; store oq1

+ vst1.u8 {d23}, [r8@64], r1 ; store oq2

+ b h_next

+h_wide_mbfilter

+ sub r8, r0, r1, lsl #3

+ add r8, r8, r1

+ vst1.u8 {d16}, [r8@64], r1 ; store op6

+ vst1.u8 {d24}, [r8@64], r1 ; store op5

+ vst1.u8 {d25}, [r8@64], r1 ; store op4

+ vst1.u8 {d26}, [r8@64], r1 ; store op3

+ vst1.u8 {d27}, [r8@64], r1 ; store op2

+ vst1.u8 {d18}, [r8@64], r1 ; store op1

+ vst1.u8 {d19}, [r8@64], r1 ; store op0

+ vst1.u8 {d20}, [r8@64], r1 ; store oq0

+ vst1.u8 {d21}, [r8@64], r1 ; store oq1

+ vst1.u8 {d22}, [r8@64], r1 ; store oq2

+ vst1.u8 {d23}, [r8@64], r1 ; store oq3

+ vst1.u8 {d1}, [r8@64], r1 ; store oq4

+ vst1.u8 {d2}, [r8@64], r1 ; store oq5

+ vst1.u8 {d3}, [r8@64], r1 ; store oq6

+h_next

+ add r0, r0, #8

+ subs r12, r12, #1

+ bne h_count

+ vpop {d8-d15}

+ pop {r4-r8, pc}

+ ENDP ; |vp9_mb_lpf_horizontal_edge_w_neon|

+; void vp9_mb_lpf_vertical_edge_w_neon(uint8_t *s, int p,

+; const uint8_t *blimit,

+; const uint8_t *limit,

+; const uint8_t *thresh)

+; r0 uint8_t *s,

+; r1 int p, /* pitch */

+; r2 const uint8_t *blimit,

+; r3 const uint8_t *limit,

+; sp const uint8_t *thresh,

+|vp9_mb_lpf_vertical_edge_w_neon| PROC

+ push {r4-r8, lr}

+ vpush {d8-d15}

+ ldr r4, [sp, #88] ; load thresh

+ vld1.8 {d16[]}, [r2] ; load *blimit

+ vld1.8 {d17[]}, [r3] ; load *limit

+ vld1.8 {d18[]}, [r4] ; load *thresh

+ sub r8, r0, #8

+ vld1.8 {d0}, [r8@64], r1

+ vld1.8 {d8}, [r0@64], r1

+ vld1.8 {d1}, [r8@64], r1

+ vld1.8 {d9}, [r0@64], r1

+ vld1.8 {d2}, [r8@64], r1

+ vld1.8 {d10}, [r0@64], r1

+ vld1.8 {d3}, [r8@64], r1

+ vld1.8 {d11}, [r0@64], r1

+ vld1.8 {d4}, [r8@64], r1

+ vld1.8 {d12}, [r0@64], r1

+ vld1.8 {d5}, [r8@64], r1

+ vld1.8 {d13}, [r0@64], r1

+ vld1.8 {d6}, [r8@64], r1

+ vld1.8 {d14}, [r0@64], r1

+ vld1.8 {d7}, [r8@64], r1

+ vld1.8 {d15}, [r0@64], r1

+ sub r0, r0, r1, lsl #3

+ vtrn.32 q0, q2

+ vtrn.32 q1, q3

+ vtrn.32 q4, q6

+ vtrn.32 q5, q7

+ vtrn.16 q0, q1

+ vtrn.16 q2, q3

+ vtrn.16 q4, q5

+ vtrn.16 q6, q7

+ vtrn.8 d0, d1

+ vtrn.8 d2, d3

+ vtrn.8 d4, d5

+ vtrn.8 d6, d7

+ vtrn.8 d8, d9

+ vtrn.8 d10, d11

+ vtrn.8 d12, d13

+ vtrn.8 d14, d15

+ bl vp9_wide_mbfilter_neon

+ tst r7, #1

+ beq v_mbfilter

+ ; flat && mask were not set for any of the channels. Just store the values

+ ; from filter.

+ sub r8, r0, #2

+ vswp d23, d25

+ vst4.8 {d23[0], d24[0], d25[0], d26[0]}, [r8], r1

+ vst4.8 {d23[1], d24[1], d25[1], d26[1]}, [r8], r1

+ vst4.8 {d23[2], d24[2], d25[2], d26[2]}, [r8], r1

+ vst4.8 {d23[3], d24[3], d25[3], d26[3]}, [r8], r1

+ vst4.8 {d23[4], d24[4], d25[4], d26[4]}, [r8], r1

+ vst4.8 {d23[5], d24[5], d25[5], d26[5]}, [r8], r1

+ vst4.8 {d23[6], d24[6], d25[6], d26[6]}, [r8], r1

+ vst4.8 {d23[7], d24[7], d25[7], d26[7]}, [r8], r1

+ b v_end

+v_mbfilter

+ tst r7, #2

+ beq v_wide_mbfilter

+ ; flat2 was not set for any of the channels. Just store the values from

+ ; mbfilter.

+ sub r8, r0, #3

+ vst3.8 {d18[0], d19[0], d20[0]}, [r8], r1

+ vst3.8 {d21[0], d22[0], d23[0]}, [r0], r1

+ vst3.8 {d18[1], d19[1], d20[1]}, [r8], r1

+ vst3.8 {d21[1], d22[1], d23[1]}, [r0], r1

+ vst3.8 {d18[2], d19[2], d20[2]}, [r8], r1

+ vst3.8 {d21[2], d22[2], d23[2]}, [r0], r1

+ vst3.8 {d18[3], d19[3], d20[3]}, [r8], r1

+ vst3.8 {d21[3], d22[3], d23[3]}, [r0], r1

+ vst3.8 {d18[4], d19[4], d20[4]}, [r8], r1

+ vst3.8 {d21[4], d22[4], d23[4]}, [r0], r1

+ vst3.8 {d18[5], d19[5], d20[5]}, [r8], r1

+ vst3.8 {d21[5], d22[5], d23[5]}, [r0], r1

+ vst3.8 {d18[6], d19[6], d20[6]}, [r8], r1

+ vst3.8 {d21[6], d22[6], d23[6]}, [r0], r1

+ vst3.8 {d18[7], d19[7], d20[7]}, [r8], r1

+ vst3.8 {d21[7], d22[7], d23[7]}, [r0], r1

+ b v_end

+v_wide_mbfilter

+ sub r8, r0, #8

+ vtrn.32 d0, d26

+ vtrn.32 d16, d27

+ vtrn.32 d24, d18

+ vtrn.32 d25, d19

+ vtrn.16 d0, d24

+ vtrn.16 d16, d25

+ vtrn.16 d26, d18

+ vtrn.16 d27, d19

+ vtrn.8 d0, d16

+ vtrn.8 d24, d25

+ vtrn.8 d26, d27

+ vtrn.8 d18, d19

+ vtrn.32 d20, d1

+ vtrn.32 d21, d2

+ vtrn.32 d22, d3

+ vtrn.32 d23, d15

+ vtrn.16 d20, d22

+ vtrn.16 d21, d23

+ vtrn.16 d1, d3

+ vtrn.16 d2, d15

+ vtrn.8 d20, d21

+ vtrn.8 d22, d23

+ vtrn.8 d1, d2

+ vtrn.8 d3, d15

+ vst1.8 {d0}, [r8@64], r1

+ vst1.8 {d20}, [r0@64], r1

+ vst1.8 {d16}, [r8@64], r1

+ vst1.8 {d21}, [r0@64], r1

+ vst1.8 {d24}, [r8@64], r1

+ vst1.8 {d22}, [r0@64], r1

+ vst1.8 {d25}, [r8@64], r1

+ vst1.8 {d23}, [r0@64], r1

+ vst1.8 {d26}, [r8@64], r1

+ vst1.8 {d1}, [r0@64], r1

+ vst1.8 {d27}, [r8@64], r1

+ vst1.8 {d2}, [r0@64], r1

+ vst1.8 {d18}, [r8@64], r1

+ vst1.8 {d3}, [r0@64], r1

+ vst1.8 {d19}, [r8@64], r1

+ vst1.8 {d15}, [r0@64], r1

+v_end

+ vpop {d8-d15}

+ pop {r4-r8, pc}

+ ENDP ; |vp9_mb_lpf_vertical_edge_w_neon|

+; void vp9_wide_mbfilter_neon();

+; This is a helper function for the loopfilters. The invidual functions do the

+; necessary load, transpose (if necessary) and store.

+; r0-r3 PRESERVE

+; d16 blimit

+; d17 limit

+; d18 thresh

+; d0 p7

+; d1 p6

+; d2 p5

+; d3 p4

+; d4 p3

+; d5 p2

+; d6 p1

+; d7 p0

+; d8 q0

+; d9 q1

+; d10 q2

+; d11 q3

+; d12 q4

+; d13 q5

+; d14 q6

+; d15 q7

+|vp9_wide_mbfilter_neon| PROC

+ mov r7, #0

+ ; filter_mask

+ vabd.u8 d19, d4, d5 ; abs(p3 - p2)

+ vabd.u8 d20, d5, d6 ; abs(p2 - p1)

+ vabd.u8 d21, d6, d7 ; abs(p1 - p0)

+ vabd.u8 d22, d9, d8 ; abs(q1 - q0)

+ vabd.u8 d23, d10, d9 ; abs(q2 - q1)

+ vabd.u8 d24, d11, d10 ; abs(q3 - q2)

+ ; only compare the largest value to limit

+ vmax.u8 d19, d19, d20 ; max(abs(p3 - p2), abs(p2 - p1))

+ vmax.u8 d20, d21, d22 ; max(abs(p1 - p0), abs(q1 - q0))

+ vmax.u8 d23, d23, d24 ; max(abs(q2 - q1), abs(q3 - q2))

+ vmax.u8 d19, d19, d20

+ vabd.u8 d24, d7, d8 ; abs(p0 - q0)

+ vmax.u8 d19, d19, d23

+ vabd.u8 d23, d6, d9 ; a = abs(p1 - q1)

+ vqadd.u8 d24, d24, d24 ; b = abs(p0 - q0) * 2

+ ; abs () > limit

+ vcge.u8 d19, d17, d19

+ ; flatmask4

+ vabd.u8 d25, d7, d5 ; abs(p0 - p2)

+ vabd.u8 d26, d8, d10 ; abs(q0 - q2)

+ vabd.u8 d27, d4, d7 ; abs(p3 - p0)

+ vabd.u8 d28, d11, d8 ; abs(q3 - q0)

+ ; only compare the largest value to thresh

+ vmax.u8 d25, d25, d26 ; max(abs(p0 - p2), abs(q0 - q2))

+ vmax.u8 d26, d27, d28 ; max(abs(p3 - p0), abs(q3 - q0))

+ vmax.u8 d25, d25, d26

+ vmax.u8 d20, d20, d25

+ vshr.u8 d23, d23, #1 ; a = a / 2

+ vqadd.u8 d24, d24, d23 ; a = b + a

+ vmov.u8 d30, #1

+ vcge.u8 d24, d16, d24 ; (a > blimit * 2 + limit) * -1

+ vcge.u8 d20, d30, d20 ; flat

+ vand d19, d19, d24 ; mask

+ ; hevmask

+ vcgt.u8 d21, d21, d18 ; (abs(p1 - p0) > thresh)*-1

+ vcgt.u8 d22, d22, d18 ; (abs(q1 - q0) > thresh)*-1

+ vorr d21, d21, d22 ; hev

+ vand d16, d20, d19 ; flat && mask

+ vmov r5, r6, d16

+ ; flatmask5(1, p7, p6, p5, p4, p0, q0, q4, q5, q6, q7)

+ vabd.u8 d22, d3, d7 ; abs(p4 - p0)

+ vabd.u8 d23, d12, d8 ; abs(q4 - q0)

+ vabd.u8 d24, d7, d2 ; abs(p0 - p5)

+ vabd.u8 d25, d8, d13 ; abs(q0 - q5)

+ vabd.u8 d26, d1, d7 ; abs(p6 - p0)

+ vabd.u8 d27, d14, d8 ; abs(q6 - q0)

+ vabd.u8 d28, d0, d7 ; abs(p7 - p0)

+ vabd.u8 d29, d15, d8 ; abs(q7 - q0)

+ ; only compare the largest value to thresh

+ vmax.u8 d22, d22, d23 ; max(abs(p4 - p0), abs(q4 - q0))

+ vmax.u8 d23, d24, d25 ; max(abs(p0 - p5), abs(q0 - q5))

+ vmax.u8 d24, d26, d27 ; max(abs(p6 - p0), abs(q6 - q0))

+ vmax.u8 d25, d28, d29 ; max(abs(p7 - p0), abs(q7 - q0))

+ vmax.u8 d26, d22, d23

+ vmax.u8 d27, d24, d25

+ vmax.u8 d23, d26, d27

+ vcge.u8 d18, d30, d23 ; flat2

+ vmov.u8 d22, #0x80

+ orrs r5, r5, r6 ; Check for 0

+ orreq r7, r7, #1 ; Only do filter branch

+ vand d17, d18, d16 ; flat2 && flat && mask

+ vmov r5, r6, d17

+ ; mbfilter() function

+ ; filter() function

+ ; convert to signed

+ veor d23, d8, d22 ; qs0

+ veor d24, d7, d22 ; ps0

+ veor d25, d6, d22 ; ps1

+ veor d26, d9, d22 ; qs1

+ vmov.u8 d27, #3

+ vsub.s8 d28, d23, d24 ; ( qs0 - ps0)

+ vqsub.s8 d29, d25, d26 ; filter = clamp(ps1-qs1)

+ vmull.s8 q15, d28, d27 ; 3 * ( qs0 - ps0)

+ vand d29, d29, d21 ; filter &= hev

+ vaddw.s8 q15, q15, d29 ; filter + 3 * (qs0 - ps0)

+ vmov.u8 d29, #4

+ ; filter = clamp(filter + 3 * ( qs0 - ps0))

+ vqmovn.s16 d28, q15

+ vand d28, d28, d19 ; filter &= mask

+ vqadd.s8 d30, d28, d27 ; filter2 = clamp(filter+3)

+ vqadd.s8 d29, d28, d29 ; filter1 = clamp(filter+4)

+ vshr.s8 d30, d30, #3 ; filter2 >>= 3

+ vshr.s8 d29, d29, #3 ; filter1 >>= 3

+ vqadd.s8 d24, d24, d30 ; op0 = clamp(ps0 + filter2)

+ vqsub.s8 d23, d23, d29 ; oq0 = clamp(qs0 - filter1)

+ ; outer tap adjustments: ++filter1 >> 1

+ vrshr.s8 d29, d29, #1

+ vbic d29, d29, d21 ; filter &= ~hev

+ vqadd.s8 d25, d25, d29 ; op1 = clamp(ps1 + filter)

+ vqsub.s8 d26, d26, d29 ; oq1 = clamp(qs1 - filter)

+ veor d24, d24, d22 ; *f_op0 = u^0x80

+ veor d23, d23, d22 ; *f_oq0 = u^0x80

+ veor d25, d25, d22 ; *f_op1 = u^0x80

+ veor d26, d26, d22 ; *f_oq1 = u^0x80

+ tst r7, #1

+ bxne lr

+ ; mbfilter flat && mask branch

+ ; TODO(fgalligan): Can I decrease the cycles shifting to consective d's

+ ; and using vibt on the q's?

+ vmov.u8 d29, #2

+ vaddl.u8 q15, d7, d8 ; op2 = p0 + q0

+ vmlal.u8 q15, d4, d27 ; op2 = p0 + q0 + p3 * 3

+ vmlal.u8 q15, d5, d29 ; op2 = p0 + q0 + p3 * 3 + p2 * 2

+ vaddl.u8 q10, d4, d5

+ vaddw.u8 q15, d6 ; op2=p1 + p0 + q0 + p3 * 3 + p2 *2

+ vaddl.u8 q14, d6, d9

+ vqrshrn.u16 d18, q15, #3 ; r_op2

+ vsub.i16 q15, q10

+ vaddl.u8 q10, d4, d6

+ vadd.i16 q15, q14

+ vaddl.u8 q14, d7, d10

+ vqrshrn.u16 d19, q15, #3 ; r_op1

+ vsub.i16 q15, q10

+ vadd.i16 q15, q14

+ vaddl.u8 q14, d8, d11

+ vqrshrn.u16 d20, q15, #3 ; r_op0

+ vsubw.u8 q15, d4 ; oq0 = op0 - p3

+ vsubw.u8 q15, d7 ; oq0 -= p0

+ vadd.i16 q15, q14

+ vaddl.u8 q14, d9, d11

+ vqrshrn.u16 d21, q15, #3 ; r_oq0

+ vsubw.u8 q15, d5 ; oq1 = oq0 - p2

+ vsubw.u8 q15, d8 ; oq1 -= q0

+ vadd.i16 q15, q14

+ vaddl.u8 q14, d10, d11

+ vqrshrn.u16 d22, q15, #3 ; r_oq1

+ vsubw.u8 q15, d6 ; oq2 = oq0 - p1

+ vsubw.u8 q15, d9 ; oq2 -= q1

+ vadd.i16 q15, q14

+ vqrshrn.u16 d27, q15, #3 ; r_oq2

+ ; Filter does not set op2 or oq2, so use p2 and q2.

+ vbif d18, d5, d16 ; t_op2 |= p2 & ~(flat & mask)

+ vbif d19, d25, d16 ; t_op1 |= f_op1 & ~(flat & mask)

+ vbif d20, d24, d16 ; t_op0 |= f_op0 & ~(flat & mask)

+ vbif d21, d23, d16 ; t_oq0 |= f_oq0 & ~(flat & mask)

+ vbif d22, d26, d16 ; t_oq1 |= f_oq1 & ~(flat & mask)

+ vbit d23, d27, d16 ; t_oq2 |= r_oq2 & (flat & mask)

+ vbif d23, d10, d16 ; t_oq2 |= q2 & ~(flat & mask)

+ tst r7, #2

+ bxne lr

+ ; wide_mbfilter flat2 && flat && mask branch

+ vmov.u8 d16, #7

+ vaddl.u8 q15, d7, d8 ; op6 = p0 + q0

+ vaddl.u8 q12, d2, d3

+ vaddl.u8 q13, d4, d5

+ vaddl.u8 q14, d1, d6

+ vmlal.u8 q15, d0, d16 ; op6 += p7 * 3

+ vadd.i16 q12, q13

+ vadd.i16 q15, q14

+ vaddl.u8 q14, d2, d9

+ vadd.i16 q15, q12

+ vaddl.u8 q12, d0, d1

+ vaddw.u8 q15, d1

+ vaddl.u8 q13, d0, d2

+ vadd.i16 q14, q15, q14

+ vqrshrn.u16 d16, q15, #4 ; w_op6

+ vsub.i16 q15, q14, q12

+ vaddl.u8 q14, d3, d10

+ vqrshrn.u16 d24, q15, #4 ; w_op5

+ vsub.i16 q15, q13

+ vaddl.u8 q13, d0, d3

+ vadd.i16 q15, q14

+ vaddl.u8 q14, d4, d11

+ vqrshrn.u16 d25, q15, #4 ; w_op4

+ vadd.i16 q15, q14

+ vaddl.u8 q14, d0, d4

+ vsub.i16 q15, q13

+ vsub.i16 q14, q15, q14

+ vqrshrn.u16 d26, q15, #4 ; w_op3

+ vaddw.u8 q15, q14, d5 ; op2 += p2

+ vaddl.u8 q14, d0, d5

+ vaddw.u8 q15, d12 ; op2 += q4

+ vbif d26, d4, d17 ; op3 |= p3 & ~(f2 & f & m)

+ vqrshrn.u16 d27, q15, #4 ; w_op2

+ vsub.i16 q15, q14

+ vaddl.u8 q14, d0, d6

+ vaddw.u8 q15, d6 ; op1 += p1

+ vaddw.u8 q15, d13 ; op1 += q5

+ vbif d27, d18, d17 ; op2 |= t_op2 & ~(f2 & f & m)

+ vqrshrn.u16 d18, q15, #4 ; w_op1

+ vsub.i16 q15, q14

+ vaddl.u8 q14, d0, d7

+ vaddw.u8 q15, d7 ; op0 += p0

+ vaddw.u8 q15, d14 ; op0 += q6

+ vbif d18, d19, d17 ; op1 |= t_op1 & ~(f2 & f & m)

+ vqrshrn.u16 d19, q15, #4 ; w_op0

+ vsub.i16 q15, q14

+ vaddl.u8 q14, d1, d8

+ vaddw.u8 q15, d8 ; oq0 += q0

+ vaddw.u8 q15, d15 ; oq0 += q7

+ vbif d19, d20, d17 ; op0 |= t_op0 & ~(f2 & f & m)

+ vqrshrn.u16 d20, q15, #4 ; w_oq0

+ vsub.i16 q15, q14

+ vaddl.u8 q14, d2, d9

+ vaddw.u8 q15, d9 ; oq1 += q1

+ vaddl.u8 q4, d10, d15

+ vaddw.u8 q15, d15 ; oq1 += q7

+ vbif d20, d21, d17 ; oq0 |= t_oq0 & ~(f2 & f & m)

+ vqrshrn.u16 d21, q15, #4 ; w_oq1

+ vsub.i16 q15, q14

+ vaddl.u8 q14, d3, d10

+ vadd.i16 q15, q4

+ vaddl.u8 q4, d11, d15

+ vbif d21, d22, d17 ; oq1 |= t_oq1 & ~(f2 & f & m)

+ vqrshrn.u16 d22, q15, #4 ; w_oq2

+ vsub.i16 q15, q14

+ vaddl.u8 q14, d4, d11

+ vadd.i16 q15, q4

+ vaddl.u8 q4, d12, d15

+ vbif d22, d23, d17 ; oq2 |= t_oq2 & ~(f2 & f & m)

+ vqrshrn.u16 d23, q15, #4 ; w_oq3

+ vsub.i16 q15, q14

+ vaddl.u8 q14, d5, d12

+ vadd.i16 q15, q4

+ vaddl.u8 q4, d13, d15

+ vbif d16, d1, d17 ; op6 |= p6 & ~(f2 & f & m)

+ vqrshrn.u16 d1, q15, #4 ; w_oq4

+ vsub.i16 q15, q14

+ vaddl.u8 q14, d6, d13

+ vadd.i16 q15, q4

+ vaddl.u8 q4, d14, d15

+ vbif d24, d2, d17 ; op5 |= p5 & ~(f2 & f & m)

+ vqrshrn.u16 d2, q15, #4 ; w_oq5

+ vsub.i16 q15, q14

+ vbif d25, d3, d17 ; op4 |= p4 & ~(f2 & f & m)

+ vadd.i16 q15, q4

+ vbif d23, d11, d17 ; oq3 |= q3 & ~(f2 & f & m)

+ vqrshrn.u16 d3, q15, #4 ; w_oq6

+ vbif d1, d12, d17 ; oq4 |= q4 & ~(f2 & f & m)

+ vbif d2, d13, d17 ; oq5 |= q5 & ~(f2 & f & m)

+ vbif d3, d14, d17 ; oq6 |= q6 & ~(f2 & f & m)

+ bx lr

+ ENDP ; |vp9_wide_mbfilter_neon|

+ END