source/libvpx/vp8/encoder/arm/neon/shortfdct_neon.asm - Issue 554673004: libvpx: Pull from upstream

Unified Diff: source/libvpx/vp8/encoder/arm/neon/shortfdct_neon.asm

Issue 554673004: libvpx: Pull from upstream (Closed) Base URL: svn://svn.chromium.org/chrome/trunk/deps/third_party/libvpx/

Patch Set: Created 6 years, 3 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

View side-by-side diff with in-line comments

Download patch

Index: source/libvpx/vp8/encoder/arm/neon/shortfdct_neon.asm

===================================================================

--- source/libvpx/vp8/encoder/arm/neon/shortfdct_neon.asm (revision 291857)

+++ source/libvpx/vp8/encoder/arm/neon/shortfdct_neon.asm (working copy)

@@ -1,221 +0,0 @@

-; Use of this source code is governed by a BSD-style license

-; that can be found in the LICENSE file in the root of the source

-; tree. An additional intellectual property rights grant can be found

-; in the file PATENTS. All contributing project authors may

-; be found in the AUTHORS file in the root of the source tree.

- EXPORT |vp8_short_fdct4x4_neon|

- EXPORT |vp8_short_fdct8x4_neon|

- ARM

- REQUIRE8

- PRESERVE8

- AREA ||.text||, CODE, READONLY, ALIGN=4

- ALIGN 16 ; enable use of @128 bit aligned loads

-coeff

- DCW 5352, 5352, 5352, 5352

- DCW 2217, 2217, 2217, 2217

- DCD 14500, 14500, 14500, 14500

- DCD 7500, 7500, 7500, 7500

- DCD 12000, 12000, 12000, 12000

- DCD 51000, 51000, 51000, 51000

-;void vp8_short_fdct4x4_c(short *input, short *output, int pitch)

-|vp8_short_fdct4x4_neon| PROC

- ; Part one

- vld1.16 {d0}, [r0@64], r2

- adr r12, coeff

- vld1.16 {d1}, [r0@64], r2

- vld1.16 {q8}, [r12@128]! ; d16=5352, d17=2217

- vld1.16 {d2}, [r0@64], r2

- vld1.32 {q9, q10}, [r12@128]! ; q9=14500, q10=7500

- vld1.16 {d3}, [r0@64], r2

- ; transpose d0=ip[0], d1=ip[1], d2=ip[2], d3=ip[3]

- vtrn.32 d0, d2

- vtrn.32 d1, d3

- vld1.32 {q11,q12}, [r12@128] ; q11=12000, q12=51000

- vtrn.16 d0, d1

- vtrn.16 d2, d3

- vadd.s16 d4, d0, d3 ; a1 = ip[0] + ip[3]

- vadd.s16 d5, d1, d2 ; b1 = ip[1] + ip[2]

- vsub.s16 d6, d1, d2 ; c1 = ip[1] - ip[2]

- vsub.s16 d7, d0, d3 ; d1 = ip[0] - ip[3]

- vshl.s16 q2, q2, #3 ; (a1, b1) << 3

- vshl.s16 q3, q3, #3 ; (c1, d1) << 3

- vadd.s16 d0, d4, d5 ; op[0] = a1 + b1

- vsub.s16 d2, d4, d5 ; op[2] = a1 - b1

- vmlal.s16 q9, d7, d16 ; d1*5352 + 14500

- vmlal.s16 q10, d7, d17 ; d1*2217 + 7500

- vmlal.s16 q9, d6, d17 ; c1*2217 + d1*5352 + 14500

- vmlsl.s16 q10, d6, d16 ; d1*2217 - c1*5352 + 7500

- vshrn.s32 d1, q9, #12 ; op[1] = (c1*2217 + d1*5352 + 14500)>>12

- vshrn.s32 d3, q10, #12 ; op[3] = (d1*2217 - c1*5352 + 7500)>>12

- ; Part two

- ; transpose d0=ip[0], d1=ip[4], d2=ip[8], d3=ip[12]

- vtrn.32 d0, d2

- vtrn.32 d1, d3

- vtrn.16 d0, d1

- vtrn.16 d2, d3

- vmov.s16 d26, #7

- vadd.s16 d4, d0, d3 ; a1 = ip[0] + ip[12]

- vadd.s16 d5, d1, d2 ; b1 = ip[4] + ip[8]

- vsub.s16 d6, d1, d2 ; c1 = ip[4] - ip[8]

- vadd.s16 d4, d4, d26 ; a1 + 7

- vsub.s16 d7, d0, d3 ; d1 = ip[0] - ip[12]

- vadd.s16 d0, d4, d5 ; op[0] = a1 + b1 + 7

- vsub.s16 d2, d4, d5 ; op[8] = a1 - b1 + 7

- vmlal.s16 q11, d7, d16 ; d1*5352 + 12000

- vmlal.s16 q12, d7, d17 ; d1*2217 + 51000

- vceq.s16 d4, d7, #0

- vshr.s16 d0, d0, #4

- vshr.s16 d2, d2, #4

- vmlal.s16 q11, d6, d17 ; c1*2217 + d1*5352 + 12000

- vmlsl.s16 q12, d6, d16 ; d1*2217 - c1*5352 + 51000

- vmvn d4, d4

- vshrn.s32 d1, q11, #16 ; op[4] = (c1*2217 + d1*5352 + 12000)>>16

- vsub.s16 d1, d1, d4 ; op[4] += (d1!=0)

- vshrn.s32 d3, q12, #16 ; op[12]= (d1*2217 - c1*5352 + 51000)>>16

- vst1.16 {q0, q1}, [r1@128]

- bx lr

- ENDP

-;void vp8_short_fdct8x4_c(short *input, short *output, int pitch)

-|vp8_short_fdct8x4_neon| PROC

- ; Part one

- vld1.16 {q0}, [r0@128], r2

- adr r12, coeff

- vld1.16 {q1}, [r0@128], r2

- vld1.16 {q8}, [r12@128]! ; d16=5352, d17=2217

- vld1.16 {q2}, [r0@128], r2

- vld1.32 {q9, q10}, [r12@128]! ; q9=14500, q10=7500

- vld1.16 {q3}, [r0@128], r2

- ; transpose q0=ip[0], q1=ip[1], q2=ip[2], q3=ip[3]

- vtrn.32 q0, q2 ; [A0|B0]

- vtrn.32 q1, q3 ; [A1|B1]

- vtrn.16 q0, q1 ; [A2|B2]

- vtrn.16 q2, q3 ; [A3|B3]

- vadd.s16 q11, q0, q3 ; a1 = ip[0] + ip[3]

- vadd.s16 q12, q1, q2 ; b1 = ip[1] + ip[2]

- vsub.s16 q13, q1, q2 ; c1 = ip[1] - ip[2]

- vsub.s16 q14, q0, q3 ; d1 = ip[0] - ip[3]

- vshl.s16 q11, q11, #3 ; a1 << 3

- vshl.s16 q12, q12, #3 ; b1 << 3

- vshl.s16 q13, q13, #3 ; c1 << 3

- vshl.s16 q14, q14, #3 ; d1 << 3

- vadd.s16 q0, q11, q12 ; [A0 | B0] = a1 + b1

- vsub.s16 q2, q11, q12 ; [A2 | B2] = a1 - b1

- vmov.s16 q11, q9 ; 14500

- vmov.s16 q12, q10 ; 7500

- vmlal.s16 q9, d28, d16 ; A[1] = d1*5352 + 14500

- vmlal.s16 q10, d28, d17 ; A[3] = d1*2217 + 7500

- vmlal.s16 q11, d29, d16 ; B[1] = d1*5352 + 14500

- vmlal.s16 q12, d29, d17 ; B[3] = d1*2217 + 7500

- vmlal.s16 q9, d26, d17 ; A[1] = c1*2217 + d1*5352 + 14500

- vmlsl.s16 q10, d26, d16 ; A[3] = d1*2217 - c1*5352 + 7500

- vmlal.s16 q11, d27, d17 ; B[1] = c1*2217 + d1*5352 + 14500

- vmlsl.s16 q12, d27, d16 ; B[3] = d1*2217 - c1*5352 + 7500

- vshrn.s32 d2, q9, #12 ; A[1] = (c1*2217 + d1*5352 + 14500)>>12

- vshrn.s32 d6, q10, #12 ; A[3] = (d1*2217 - c1*5352 + 7500)>>12

- vshrn.s32 d3, q11, #12 ; B[1] = (c1*2217 + d1*5352 + 14500)>>12

- vshrn.s32 d7, q12, #12 ; B[3] = (d1*2217 - c1*5352 + 7500)>>12

- ; Part two

- vld1.32 {q9,q10}, [r12@128] ; q9=12000, q10=51000

- ; transpose q0=ip[0], q1=ip[4], q2=ip[8], q3=ip[12]

- vtrn.32 q0, q2 ; q0=[A0 | B0]

- vtrn.32 q1, q3 ; q1=[A4 | B4]

- vtrn.16 q0, q1 ; q2=[A8 | B8]

- vtrn.16 q2, q3 ; q3=[A12|B12]

- vmov.s16 q15, #7

- vadd.s16 q11, q0, q3 ; a1 = ip[0] + ip[12]

- vadd.s16 q12, q1, q2 ; b1 = ip[4] + ip[8]

- vadd.s16 q11, q11, q15 ; a1 + 7

- vsub.s16 q13, q1, q2 ; c1 = ip[4] - ip[8]

- vsub.s16 q14, q0, q3 ; d1 = ip[0] - ip[12]

- vadd.s16 q0, q11, q12 ; a1 + b1 + 7

- vsub.s16 q1, q11, q12 ; a1 - b1 + 7

- vmov.s16 q11, q9 ; 12000

- vmov.s16 q12, q10 ; 51000

- vshr.s16 d0, d0, #4 ; A[0] = (a1 + b1 + 7)>>4

- vshr.s16 d4, d1, #4 ; B[0] = (a1 + b1 + 7)>>4

- vshr.s16 d2, d2, #4 ; A[8] = (a1 + b1 + 7)>>4

- vshr.s16 d6, d3, #4 ; B[8] = (a1 + b1 + 7)>>4

- vmlal.s16 q9, d28, d16 ; A[4] = d1*5352 + 12000

- vmlal.s16 q10, d28, d17 ; A[12] = d1*2217 + 51000

- vmlal.s16 q11, d29, d16 ; B[4] = d1*5352 + 12000

- vmlal.s16 q12, d29, d17 ; B[12] = d1*2217 + 51000

- vceq.s16 q14, q14, #0

- vmlal.s16 q9, d26, d17 ; A[4] = c1*2217 + d1*5352 + 12000

- vmlsl.s16 q10, d26, d16 ; A[12] = d1*2217 - c1*5352 + 51000

- vmlal.s16 q11, d27, d17 ; B[4] = c1*2217 + d1*5352 + 12000

- vmlsl.s16 q12, d27, d16 ; B[12] = d1*2217 - c1*5352 + 51000

- vmvn q14, q14

- vshrn.s32 d1, q9, #16 ; A[4] = (c1*2217 + d1*5352 + 12000)>>16

- vshrn.s32 d3, q10, #16 ; A[12]= (d1*2217 - c1*5352 + 51000)>>16

- vsub.s16 d1, d1, d28 ; A[4] += (d1!=0)

- vshrn.s32 d5, q11, #16 ; B[4] = (c1*2217 + d1*5352 + 12000)>>16

- vshrn.s32 d7, q12, #16 ; B[12]= (d1*2217 - c1*5352 + 51000)>>16

- vsub.s16 d5, d5, d29 ; B[4] += (d1!=0)

- vst1.16 {q0, q1}, [r1@128]! ; block A

- vst1.16 {q2, q3}, [r1@128]! ; block B

- bx lr

- ENDP

- END

« no previous file with comments | « source/libvpx/vp8/encoder/arm/neon/picklpf_arm.c ('k') | source/libvpx/vp8/encoder/arm/neon/shortfdct_neon.c » ('j') | no next file with comments »