third_party/boringssl/linux-arm/crypto/aes/bsaes-armv7.S - Issue 377783004: Add BoringSSL GYP files.

Unified Diff: third_party/boringssl/linux-arm/crypto/aes/bsaes-armv7.S

Issue 377783004: Add BoringSSL GYP files. (Closed) Base URL: svn://svn.chromium.org/chrome/trunk/src

Patch Set: Final Python fix. Created 6 years, 5 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

View side-by-side diff with in-line comments

« no previous file with comments | « third_party/boringssl/linux-arm/crypto/aes/aes-armv4.S ('k') | third_party/boringssl/linux-arm/crypto/bn/armv4-mont.S » ('j') | no next file with comments »
Expand Comments ('e') | Collapse Comments ('c') | Hide Comments ('s')

Index: third_party/boringssl/linux-arm/crypto/aes/bsaes-armv7.S

diff --git a/third_party/boringssl/linux-arm/crypto/aes/bsaes-armv7.S b/third_party/boringssl/linux-arm/crypto/aes/bsaes-armv7.S

new file mode 100644

index 0000000000000000000000000000000000000000..fa6f69a7724f207fa73e30e79740f99e276d1d55

--- /dev/null

+++ b/third_party/boringssl/linux-arm/crypto/aes/bsaes-armv7.S

@@ -0,0 +1,2546 @@

+@ ====================================================================

+@ Written by Andy Polyakov <appro@openssl.org> for the OpenSSL

+@ project. The module is, however, dual licensed under OpenSSL and

+@ CRYPTOGAMS licenses depending on where you obtain it. For further

+@ details see http://www.openssl.org/~appro/cryptogams/.

+@ Specific modes and adaptation for Linux kernel by Ard Biesheuvel

+@ <ard.biesheuvel@linaro.org>. Permission to use under GPL terms is

+@ granted.

+@ ====================================================================

+@ Bit-sliced AES for ARM NEON

+@ February 2012.

+@ This implementation is direct adaptation of bsaes-x86_64 module for

+@ ARM NEON. Except that this module is endian-neutral [in sense that

+@ it can be compiled for either endianness] by courtesy of vld1.8's

+@ neutrality. Initial version doesn't implement interface to OpenSSL,

+@ only low-level primitives and unsupported entry points, just enough

+@ to collect performance results, which for Cortex-A8 core are:

+@ encrypt 19.5 cycles per byte processed with 128-bit key

+@ decrypt 22.1 cycles per byte processed with 128-bit key

+@ key conv. 440 cycles per 128-bit key/0.18 of 8x block

+@ Snapdragon S4 encrypts byte in 17.6 cycles and decrypts in 19.7,

+@ which is [much] worse than anticipated (for further details see

+@ http://www.openssl.org/~appro/Snapdragon-S4.html).

+@ Cortex-A15 manages in 14.2/16.1 cycles [when integer-only code

+@ manages in 20.0 cycles].

+@ When comparing to x86_64 results keep in mind that NEON unit is

+@ [mostly] single-issue and thus can't [fully] benefit from

+@ instruction-level parallelism. And when comparing to aes-armv4

+@ results keep in mind key schedule conversion overhead (see

+@ bsaes-x86_64.pl for further details)...

+@ <appro@openssl.org>

+@ April-August 2013

+@ Add CBC, CTR and XTS subroutines, adapt for kernel use.

+@ <ard.biesheuvel@linaro.org>

+#if defined(__arm__)

+#ifndef __KERNEL__

+# include "arm_arch.h"

+# define VFP_ABI_PUSH vstmdb sp!,{d8-d15}

+# define VFP_ABI_POP vldmia sp!,{d8-d15}

+# define VFP_ABI_FRAME 0x40

+#else

+# define VFP_ABI_PUSH

+# define VFP_ABI_POP

+# define VFP_ABI_FRAME 0

+# define BSAES_ASM_EXTENDED_KEY

+# define XTS_CHAIN_TWEAK

+# define __ARM_ARCH__ __LINUX_ARM_ARCH__

+#endif

+#ifdef __thumb__

+# define adrl adr

+#endif

+#if __ARM_ARCH__>=7

+.text

+.syntax unified @ ARMv7-capable assembler is expected to handle this

+#ifdef __thumb2__

+.thumb

+#else

+.code 32

+#endif

+.fpu neon

+.type _bsaes_decrypt8,%function

+.align 4

+_bsaes_decrypt8:

+ adr r6,_bsaes_decrypt8

+ vldmia r4!, {q9} @ round 0 key

+ add r6,r6,#.LM0ISR-_bsaes_decrypt8

+ vldmia r6!, {q8} @ .LM0ISR

+ veor q10, q0, q9 @ xor with round0 key

+ veor q11, q1, q9

+ vtbl.8 d0, {q10}, d16

+ vtbl.8 d1, {q10}, d17

+ veor q12, q2, q9

+ vtbl.8 d2, {q11}, d16

+ vtbl.8 d3, {q11}, d17

+ veor q13, q3, q9

+ vtbl.8 d4, {q12}, d16

+ vtbl.8 d5, {q12}, d17

+ veor q14, q4, q9

+ vtbl.8 d6, {q13}, d16

+ vtbl.8 d7, {q13}, d17

+ veor q15, q5, q9

+ vtbl.8 d8, {q14}, d16

+ vtbl.8 d9, {q14}, d17

+ veor q10, q6, q9

+ vtbl.8 d10, {q15}, d16

+ vtbl.8 d11, {q15}, d17

+ veor q11, q7, q9

+ vtbl.8 d12, {q10}, d16

+ vtbl.8 d13, {q10}, d17

+ vtbl.8 d14, {q11}, d16

+ vtbl.8 d15, {q11}, d17

+ vmov.i8 q8,#0x55 @ compose .LBS0

+ vmov.i8 q9,#0x33 @ compose .LBS1

+ vshr.u64 q10, q6, #1

+ vshr.u64 q11, q4, #1

+ veor q10, q10, q7

+ veor q11, q11, q5

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q7, q7, q10

+ vshl.u64 q10, q10, #1

+ veor q5, q5, q11

+ vshl.u64 q11, q11, #1

+ veor q6, q6, q10

+ veor q4, q4, q11

+ vshr.u64 q10, q2, #1

+ vshr.u64 q11, q0, #1

+ veor q10, q10, q3

+ veor q11, q11, q1

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q3, q3, q10

+ vshl.u64 q10, q10, #1

+ veor q1, q1, q11

+ vshl.u64 q11, q11, #1

+ veor q2, q2, q10

+ veor q0, q0, q11

+ vmov.i8 q8,#0x0f @ compose .LBS2

+ vshr.u64 q10, q5, #2

+ vshr.u64 q11, q4, #2

+ veor q10, q10, q7

+ veor q11, q11, q6

+ vand q10, q10, q9

+ vand q11, q11, q9

+ veor q7, q7, q10

+ vshl.u64 q10, q10, #2

+ veor q6, q6, q11

+ vshl.u64 q11, q11, #2

+ veor q5, q5, q10

+ veor q4, q4, q11

+ vshr.u64 q10, q1, #2

+ vshr.u64 q11, q0, #2

+ veor q10, q10, q3

+ veor q11, q11, q2

+ vand q10, q10, q9

+ vand q11, q11, q9

+ veor q3, q3, q10

+ vshl.u64 q10, q10, #2

+ veor q2, q2, q11

+ vshl.u64 q11, q11, #2

+ veor q1, q1, q10

+ veor q0, q0, q11

+ vshr.u64 q10, q3, #4

+ vshr.u64 q11, q2, #4

+ veor q10, q10, q7

+ veor q11, q11, q6

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q7, q7, q10

+ vshl.u64 q10, q10, #4

+ veor q6, q6, q11

+ vshl.u64 q11, q11, #4

+ veor q3, q3, q10

+ veor q2, q2, q11

+ vshr.u64 q10, q1, #4

+ vshr.u64 q11, q0, #4

+ veor q10, q10, q5

+ veor q11, q11, q4

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q5, q5, q10

+ vshl.u64 q10, q10, #4

+ veor q4, q4, q11

+ vshl.u64 q11, q11, #4

+ veor q1, q1, q10

+ veor q0, q0, q11

+ sub r5,r5,#1

+ b .Ldec_sbox

+.align 4

+.Ldec_loop:

+ vldmia r4!, {q8-q11}

+ veor q8, q8, q0

+ veor q9, q9, q1

+ vtbl.8 d0, {q8}, d24

+ vtbl.8 d1, {q8}, d25

+ vldmia r4!, {q8}

+ veor q10, q10, q2

+ vtbl.8 d2, {q9}, d24

+ vtbl.8 d3, {q9}, d25

+ vldmia r4!, {q9}

+ veor q11, q11, q3

+ vtbl.8 d4, {q10}, d24

+ vtbl.8 d5, {q10}, d25

+ vldmia r4!, {q10}

+ vtbl.8 d6, {q11}, d24

+ vtbl.8 d7, {q11}, d25

+ vldmia r4!, {q11}

+ veor q8, q8, q4

+ veor q9, q9, q5

+ vtbl.8 d8, {q8}, d24

+ vtbl.8 d9, {q8}, d25

+ veor q10, q10, q6

+ vtbl.8 d10, {q9}, d24

+ vtbl.8 d11, {q9}, d25

+ veor q11, q11, q7

+ vtbl.8 d12, {q10}, d24

+ vtbl.8 d13, {q10}, d25

+ vtbl.8 d14, {q11}, d24

+ vtbl.8 d15, {q11}, d25

+.Ldec_sbox:

+ veor q1, q1, q4

+ veor q3, q3, q4

+ veor q4, q4, q7

+ veor q1, q1, q6

+ veor q2, q2, q7

+ veor q6, q6, q4

+ veor q0, q0, q1

+ veor q2, q2, q5

+ veor q7, q7, q6

+ veor q3, q3, q0

+ veor q5, q5, q0

+ veor q1, q1, q3

+ veor q11, q3, q0

+ veor q10, q7, q4

+ veor q9, q1, q6

+ veor q13, q4, q0

+ vmov q8, q10

+ veor q12, q5, q2

+ vorr q10, q10, q9

+ veor q15, q11, q8

+ vand q14, q11, q12

+ vorr q11, q11, q12

+ veor q12, q12, q9

+ vand q8, q8, q9

+ veor q9, q6, q2

+ vand q15, q15, q12

+ vand q13, q13, q9

+ veor q9, q3, q7

+ veor q12, q1, q5

+ veor q11, q11, q13

+ veor q10, q10, q13

+ vand q13, q9, q12

+ vorr q9, q9, q12

+ veor q11, q11, q15

+ veor q8, q8, q13

+ veor q10, q10, q14

+ veor q9, q9, q15

+ veor q8, q8, q14

+ vand q12, q4, q6

+ veor q9, q9, q14

+ vand q13, q0, q2

+ vand q14, q7, q1

+ vorr q15, q3, q5

+ veor q11, q11, q12

+ veor q9, q9, q14

+ veor q8, q8, q15

+ veor q10, q10, q13

+ @ Inv_GF16 0, 1, 2, 3, s0, s1, s2, s3

+ @ new smaller inversion

+ vand q14, q11, q9

+ vmov q12, q8

+ veor q13, q10, q14

+ veor q15, q8, q14

+ veor q14, q8, q14 @ q14=q15

+ vbsl q13, q9, q8

+ vbsl q15, q11, q10

+ veor q11, q11, q10

+ vbsl q12, q13, q14

+ vbsl q8, q14, q13

+ vand q14, q12, q15

+ veor q9, q9, q8

+ veor q14, q14, q11

+ veor q12, q5, q2

+ veor q8, q1, q6

+ veor q10, q15, q14

+ vand q10, q10, q5

+ veor q5, q5, q1

+ vand q11, q1, q15

+ vand q5, q5, q14

+ veor q1, q11, q10

+ veor q5, q5, q11

+ veor q15, q15, q13

+ veor q14, q14, q9

+ veor q11, q15, q14

+ veor q10, q13, q9

+ vand q11, q11, q12

+ vand q10, q10, q2

+ veor q12, q12, q8

+ veor q2, q2, q6

+ vand q8, q8, q15

+ vand q6, q6, q13

+ vand q12, q12, q14

+ vand q2, q2, q9

+ veor q8, q8, q12

+ veor q2, q2, q6

+ veor q12, q12, q11

+ veor q6, q6, q10

+ veor q5, q5, q12

+ veor q2, q2, q12

+ veor q1, q1, q8

+ veor q6, q6, q8

+ veor q12, q3, q0

+ veor q8, q7, q4

+ veor q11, q15, q14

+ veor q10, q13, q9

+ vand q11, q11, q12

+ vand q10, q10, q0

+ veor q12, q12, q8

+ veor q0, q0, q4

+ vand q8, q8, q15

+ vand q4, q4, q13

+ vand q12, q12, q14

+ vand q0, q0, q9

+ veor q8, q8, q12

+ veor q0, q0, q4

+ veor q12, q12, q11

+ veor q4, q4, q10

+ veor q15, q15, q13

+ veor q14, q14, q9

+ veor q10, q15, q14

+ vand q10, q10, q3

+ veor q3, q3, q7

+ vand q11, q7, q15

+ vand q3, q3, q14

+ veor q7, q11, q10

+ veor q3, q3, q11

+ veor q3, q3, q12

+ veor q0, q0, q12

+ veor q7, q7, q8

+ veor q4, q4, q8

+ veor q1, q1, q7

+ veor q6, q6, q5

+ veor q4, q4, q1

+ veor q2, q2, q7

+ veor q5, q5, q7

+ veor q4, q4, q2

+ veor q7, q7, q0

+ veor q4, q4, q5

+ veor q3, q3, q6

+ veor q6, q6, q1

+ veor q3, q3, q4

+ veor q4, q4, q0

+ veor q7, q7, q3

+ subs r5,r5,#1

+ bcc .Ldec_done

+ @ multiplication by 0x05-0x00-0x04-0x00

+ vext.8 q8, q0, q0, #8

+ vext.8 q14, q3, q3, #8

+ vext.8 q15, q5, q5, #8

+ veor q8, q8, q0

+ vext.8 q9, q1, q1, #8

+ veor q14, q14, q3

+ vext.8 q10, q6, q6, #8

+ veor q15, q15, q5

+ vext.8 q11, q4, q4, #8

+ veor q9, q9, q1

+ vext.8 q12, q2, q2, #8

+ veor q10, q10, q6

+ vext.8 q13, q7, q7, #8

+ veor q11, q11, q4

+ veor q12, q12, q2

+ veor q13, q13, q7

+ veor q0, q0, q14

+ veor q1, q1, q14

+ veor q6, q6, q8

+ veor q2, q2, q10

+ veor q4, q4, q9

+ veor q1, q1, q15

+ veor q6, q6, q15

+ veor q2, q2, q14

+ veor q7, q7, q11

+ veor q4, q4, q14

+ veor q3, q3, q12

+ veor q2, q2, q15

+ veor q7, q7, q15

+ veor q5, q5, q13

+ vext.8 q8, q0, q0, #12 @ x0 <<< 32

+ vext.8 q9, q1, q1, #12

+ veor q0, q0, q8 @ x0 ^ (x0 <<< 32)

+ vext.8 q10, q6, q6, #12

+ veor q1, q1, q9

+ vext.8 q11, q4, q4, #12

+ veor q6, q6, q10

+ vext.8 q12, q2, q2, #12

+ veor q4, q4, q11

+ vext.8 q13, q7, q7, #12

+ veor q2, q2, q12

+ vext.8 q14, q3, q3, #12

+ veor q7, q7, q13

+ vext.8 q15, q5, q5, #12

+ veor q3, q3, q14

+ veor q9, q9, q0

+ veor q5, q5, q15

+ vext.8 q0, q0, q0, #8 @ (x0 ^ (x0 <<< 32)) <<< 64)

+ veor q10, q10, q1

+ veor q8, q8, q5

+ veor q9, q9, q5

+ vext.8 q1, q1, q1, #8

+ veor q13, q13, q2

+ veor q0, q0, q8

+ veor q14, q14, q7

+ veor q1, q1, q9

+ vext.8 q8, q2, q2, #8

+ veor q12, q12, q4

+ vext.8 q9, q7, q7, #8

+ veor q15, q15, q3

+ vext.8 q2, q4, q4, #8

+ veor q11, q11, q6

+ vext.8 q7, q5, q5, #8

+ veor q12, q12, q5

+ vext.8 q4, q3, q3, #8

+ veor q11, q11, q5

+ vext.8 q3, q6, q6, #8

+ veor q5, q9, q13

+ veor q11, q11, q2

+ veor q7, q7, q15

+ veor q6, q4, q14

+ veor q4, q8, q12

+ veor q2, q3, q10

+ vmov q3, q11

+ @ vmov q5, q9

+ vldmia r6, {q12} @ .LISR

+ ite eq @ Thumb2 thing, sanity check in ARM

+ addeq r6,r6,#0x10

+ bne .Ldec_loop

+ vldmia r6, {q12} @ .LISRM0

+ b .Ldec_loop

+.align 4

+.Ldec_done:

+ vmov.i8 q8,#0x55 @ compose .LBS0

+ vmov.i8 q9,#0x33 @ compose .LBS1

+ vshr.u64 q10, q3, #1

+ vshr.u64 q11, q2, #1

+ veor q10, q10, q5

+ veor q11, q11, q7

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q5, q5, q10

+ vshl.u64 q10, q10, #1

+ veor q7, q7, q11

+ vshl.u64 q11, q11, #1

+ veor q3, q3, q10

+ veor q2, q2, q11

+ vshr.u64 q10, q6, #1

+ vshr.u64 q11, q0, #1

+ veor q10, q10, q4

+ veor q11, q11, q1

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q4, q4, q10

+ vshl.u64 q10, q10, #1

+ veor q1, q1, q11

+ vshl.u64 q11, q11, #1

+ veor q6, q6, q10

+ veor q0, q0, q11

+ vmov.i8 q8,#0x0f @ compose .LBS2

+ vshr.u64 q10, q7, #2

+ vshr.u64 q11, q2, #2

+ veor q10, q10, q5

+ veor q11, q11, q3

+ vand q10, q10, q9

+ vand q11, q11, q9

+ veor q5, q5, q10

+ vshl.u64 q10, q10, #2

+ veor q3, q3, q11

+ vshl.u64 q11, q11, #2

+ veor q7, q7, q10

+ veor q2, q2, q11

+ vshr.u64 q10, q1, #2

+ vshr.u64 q11, q0, #2

+ veor q10, q10, q4

+ veor q11, q11, q6

+ vand q10, q10, q9

+ vand q11, q11, q9

+ veor q4, q4, q10

+ vshl.u64 q10, q10, #2

+ veor q6, q6, q11

+ vshl.u64 q11, q11, #2

+ veor q1, q1, q10

+ veor q0, q0, q11

+ vshr.u64 q10, q4, #4

+ vshr.u64 q11, q6, #4

+ veor q10, q10, q5

+ veor q11, q11, q3

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q5, q5, q10

+ vshl.u64 q10, q10, #4

+ veor q3, q3, q11

+ vshl.u64 q11, q11, #4

+ veor q4, q4, q10

+ veor q6, q6, q11

+ vshr.u64 q10, q1, #4

+ vshr.u64 q11, q0, #4

+ veor q10, q10, q7

+ veor q11, q11, q2

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q7, q7, q10

+ vshl.u64 q10, q10, #4

+ veor q2, q2, q11

+ vshl.u64 q11, q11, #4

+ veor q1, q1, q10

+ veor q0, q0, q11

+ vldmia r4, {q8} @ last round key

+ veor q6, q6, q8

+ veor q4, q4, q8

+ veor q2, q2, q8

+ veor q7, q7, q8

+ veor q3, q3, q8

+ veor q5, q5, q8

+ veor q0, q0, q8

+ veor q1, q1, q8

+ bx lr

+.size _bsaes_decrypt8,.-_bsaes_decrypt8

+.type _bsaes_const,%object

+.align 6

+_bsaes_const:

+.LM0ISR: @ InvShiftRows constants

+ .quad 0x0a0e0206070b0f03, 0x0004080c0d010509

+.LISR:

+ .quad 0x0504070602010003, 0x0f0e0d0c080b0a09

+.LISRM0:

+ .quad 0x01040b0e0205080f, 0x0306090c00070a0d

+.LM0SR: @ ShiftRows constants

+ .quad 0x0a0e02060f03070b, 0x0004080c05090d01

+.LSR:

+ .quad 0x0504070600030201, 0x0f0e0d0c0a09080b

+.LSRM0:

+ .quad 0x0304090e00050a0f, 0x01060b0c0207080d

+.LM0:

+ .quad 0x02060a0e03070b0f, 0x0004080c0105090d

+.LREVM0SR:

+ .quad 0x090d01050c000408, 0x03070b0f060a0e02

+.asciz "Bit-sliced AES for NEON, CRYPTOGAMS by <appro@openssl.org>"

+.align 6

+.size _bsaes_const,.-_bsaes_const

+.type _bsaes_encrypt8,%function

+.align 4

+_bsaes_encrypt8:

+ adr r6,_bsaes_encrypt8

+ vldmia r4!, {q9} @ round 0 key

+ sub r6,r6,#_bsaes_encrypt8-.LM0SR

+ vldmia r6!, {q8} @ .LM0SR

+_bsaes_encrypt8_alt:

+ veor q10, q0, q9 @ xor with round0 key

+ veor q11, q1, q9

+ vtbl.8 d0, {q10}, d16

+ vtbl.8 d1, {q10}, d17

+ veor q12, q2, q9

+ vtbl.8 d2, {q11}, d16

+ vtbl.8 d3, {q11}, d17

+ veor q13, q3, q9

+ vtbl.8 d4, {q12}, d16

+ vtbl.8 d5, {q12}, d17

+ veor q14, q4, q9

+ vtbl.8 d6, {q13}, d16

+ vtbl.8 d7, {q13}, d17

+ veor q15, q5, q9

+ vtbl.8 d8, {q14}, d16

+ vtbl.8 d9, {q14}, d17

+ veor q10, q6, q9

+ vtbl.8 d10, {q15}, d16

+ vtbl.8 d11, {q15}, d17

+ veor q11, q7, q9

+ vtbl.8 d12, {q10}, d16

+ vtbl.8 d13, {q10}, d17

+ vtbl.8 d14, {q11}, d16

+ vtbl.8 d15, {q11}, d17

+_bsaes_encrypt8_bitslice:

+ vmov.i8 q8,#0x55 @ compose .LBS0

+ vmov.i8 q9,#0x33 @ compose .LBS1

+ vshr.u64 q10, q6, #1

+ vshr.u64 q11, q4, #1

+ veor q10, q10, q7

+ veor q11, q11, q5

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q7, q7, q10

+ vshl.u64 q10, q10, #1

+ veor q5, q5, q11

+ vshl.u64 q11, q11, #1

+ veor q6, q6, q10

+ veor q4, q4, q11

+ vshr.u64 q10, q2, #1

+ vshr.u64 q11, q0, #1

+ veor q10, q10, q3

+ veor q11, q11, q1

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q3, q3, q10

+ vshl.u64 q10, q10, #1

+ veor q1, q1, q11

+ vshl.u64 q11, q11, #1

+ veor q2, q2, q10

+ veor q0, q0, q11

+ vmov.i8 q8,#0x0f @ compose .LBS2

+ vshr.u64 q10, q5, #2

+ vshr.u64 q11, q4, #2

+ veor q10, q10, q7

+ veor q11, q11, q6

+ vand q10, q10, q9

+ vand q11, q11, q9

+ veor q7, q7, q10

+ vshl.u64 q10, q10, #2

+ veor q6, q6, q11

+ vshl.u64 q11, q11, #2

+ veor q5, q5, q10

+ veor q4, q4, q11

+ vshr.u64 q10, q1, #2

+ vshr.u64 q11, q0, #2

+ veor q10, q10, q3

+ veor q11, q11, q2

+ vand q10, q10, q9

+ vand q11, q11, q9

+ veor q3, q3, q10

+ vshl.u64 q10, q10, #2

+ veor q2, q2, q11

+ vshl.u64 q11, q11, #2

+ veor q1, q1, q10

+ veor q0, q0, q11

+ vshr.u64 q10, q3, #4

+ vshr.u64 q11, q2, #4

+ veor q10, q10, q7

+ veor q11, q11, q6

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q7, q7, q10

+ vshl.u64 q10, q10, #4

+ veor q6, q6, q11

+ vshl.u64 q11, q11, #4

+ veor q3, q3, q10

+ veor q2, q2, q11

+ vshr.u64 q10, q1, #4

+ vshr.u64 q11, q0, #4

+ veor q10, q10, q5

+ veor q11, q11, q4

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q5, q5, q10

+ vshl.u64 q10, q10, #4

+ veor q4, q4, q11

+ vshl.u64 q11, q11, #4

+ veor q1, q1, q10

+ veor q0, q0, q11

+ sub r5,r5,#1

+ b .Lenc_sbox

+.align 4

+.Lenc_loop:

+ vldmia r4!, {q8-q11}

+ veor q8, q8, q0

+ veor q9, q9, q1

+ vtbl.8 d0, {q8}, d24

+ vtbl.8 d1, {q8}, d25

+ vldmia r4!, {q8}

+ veor q10, q10, q2

+ vtbl.8 d2, {q9}, d24

+ vtbl.8 d3, {q9}, d25

+ vldmia r4!, {q9}

+ veor q11, q11, q3

+ vtbl.8 d4, {q10}, d24

+ vtbl.8 d5, {q10}, d25

+ vldmia r4!, {q10}

+ vtbl.8 d6, {q11}, d24

+ vtbl.8 d7, {q11}, d25

+ vldmia r4!, {q11}

+ veor q8, q8, q4

+ veor q9, q9, q5

+ vtbl.8 d8, {q8}, d24

+ vtbl.8 d9, {q8}, d25

+ veor q10, q10, q6

+ vtbl.8 d10, {q9}, d24

+ vtbl.8 d11, {q9}, d25

+ veor q11, q11, q7

+ vtbl.8 d12, {q10}, d24

+ vtbl.8 d13, {q10}, d25

+ vtbl.8 d14, {q11}, d24

+ vtbl.8 d15, {q11}, d25

+.Lenc_sbox:

+ veor q2, q2, q1

+ veor q5, q5, q6

+ veor q3, q3, q0

+ veor q6, q6, q2

+ veor q5, q5, q0

+ veor q6, q6, q3

+ veor q3, q3, q7

+ veor q7, q7, q5

+ veor q3, q3, q4

+ veor q4, q4, q5

+ veor q2, q2, q7

+ veor q3, q3, q1

+ veor q1, q1, q5

+ veor q11, q7, q4

+ veor q10, q1, q2

+ veor q9, q5, q3

+ veor q13, q2, q4

+ vmov q8, q10

+ veor q12, q6, q0

+ vorr q10, q10, q9

+ veor q15, q11, q8

+ vand q14, q11, q12

+ vorr q11, q11, q12

+ veor q12, q12, q9

+ vand q8, q8, q9

+ veor q9, q3, q0

+ vand q15, q15, q12

+ vand q13, q13, q9

+ veor q9, q7, q1

+ veor q12, q5, q6

+ veor q11, q11, q13

+ veor q10, q10, q13

+ vand q13, q9, q12

+ vorr q9, q9, q12

+ veor q11, q11, q15

+ veor q8, q8, q13

+ veor q10, q10, q14

+ veor q9, q9, q15

+ veor q8, q8, q14

+ vand q12, q2, q3

+ veor q9, q9, q14

+ vand q13, q4, q0

+ vand q14, q1, q5

+ vorr q15, q7, q6

+ veor q11, q11, q12

+ veor q9, q9, q14

+ veor q8, q8, q15

+ veor q10, q10, q13

+ @ Inv_GF16 0, 1, 2, 3, s0, s1, s2, s3

+ @ new smaller inversion

+ vand q14, q11, q9

+ vmov q12, q8

+ veor q13, q10, q14

+ veor q15, q8, q14

+ veor q14, q8, q14 @ q14=q15

+ vbsl q13, q9, q8

+ vbsl q15, q11, q10

+ veor q11, q11, q10

+ vbsl q12, q13, q14

+ vbsl q8, q14, q13

+ vand q14, q12, q15

+ veor q9, q9, q8

+ veor q14, q14, q11

+ veor q12, q6, q0

+ veor q8, q5, q3

+ veor q10, q15, q14

+ vand q10, q10, q6

+ veor q6, q6, q5

+ vand q11, q5, q15

+ vand q6, q6, q14

+ veor q5, q11, q10

+ veor q6, q6, q11

+ veor q15, q15, q13

+ veor q14, q14, q9

+ veor q11, q15, q14

+ veor q10, q13, q9

+ vand q11, q11, q12

+ vand q10, q10, q0

+ veor q12, q12, q8

+ veor q0, q0, q3

+ vand q8, q8, q15

+ vand q3, q3, q13

+ vand q12, q12, q14

+ vand q0, q0, q9

+ veor q8, q8, q12

+ veor q0, q0, q3

+ veor q12, q12, q11

+ veor q3, q3, q10

+ veor q6, q6, q12

+ veor q0, q0, q12

+ veor q5, q5, q8

+ veor q3, q3, q8

+ veor q12, q7, q4

+ veor q8, q1, q2

+ veor q11, q15, q14

+ veor q10, q13, q9

+ vand q11, q11, q12

+ vand q10, q10, q4

+ veor q12, q12, q8

+ veor q4, q4, q2

+ vand q8, q8, q15

+ vand q2, q2, q13

+ vand q12, q12, q14

+ vand q4, q4, q9

+ veor q8, q8, q12

+ veor q4, q4, q2

+ veor q12, q12, q11

+ veor q2, q2, q10

+ veor q15, q15, q13

+ veor q14, q14, q9

+ veor q10, q15, q14

+ vand q10, q10, q7

+ veor q7, q7, q1

+ vand q11, q1, q15

+ vand q7, q7, q14

+ veor q1, q11, q10

+ veor q7, q7, q11

+ veor q7, q7, q12

+ veor q4, q4, q12

+ veor q1, q1, q8

+ veor q2, q2, q8

+ veor q7, q7, q0

+ veor q1, q1, q6

+ veor q6, q6, q0

+ veor q4, q4, q7

+ veor q0, q0, q1

+ veor q1, q1, q5

+ veor q5, q5, q2

+ veor q2, q2, q3

+ veor q3, q3, q5

+ veor q4, q4, q5

+ veor q6, q6, q3

+ subs r5,r5,#1

+ bcc .Lenc_done

+ vext.8 q8, q0, q0, #12 @ x0 <<< 32

+ vext.8 q9, q1, q1, #12

+ veor q0, q0, q8 @ x0 ^ (x0 <<< 32)

+ vext.8 q10, q4, q4, #12

+ veor q1, q1, q9

+ vext.8 q11, q6, q6, #12

+ veor q4, q4, q10

+ vext.8 q12, q3, q3, #12

+ veor q6, q6, q11

+ vext.8 q13, q7, q7, #12

+ veor q3, q3, q12

+ vext.8 q14, q2, q2, #12

+ veor q7, q7, q13

+ vext.8 q15, q5, q5, #12

+ veor q2, q2, q14

+ veor q9, q9, q0

+ veor q5, q5, q15

+ vext.8 q0, q0, q0, #8 @ (x0 ^ (x0 <<< 32)) <<< 64)

+ veor q10, q10, q1

+ veor q8, q8, q5

+ veor q9, q9, q5

+ vext.8 q1, q1, q1, #8

+ veor q13, q13, q3

+ veor q0, q0, q8

+ veor q14, q14, q7

+ veor q1, q1, q9

+ vext.8 q8, q3, q3, #8

+ veor q12, q12, q6

+ vext.8 q9, q7, q7, #8

+ veor q15, q15, q2

+ vext.8 q3, q6, q6, #8

+ veor q11, q11, q4

+ vext.8 q7, q5, q5, #8

+ veor q12, q12, q5

+ vext.8 q6, q2, q2, #8

+ veor q11, q11, q5

+ vext.8 q2, q4, q4, #8

+ veor q5, q9, q13

+ veor q4, q8, q12

+ veor q3, q3, q11

+ veor q7, q7, q15

+ veor q6, q6, q14

+ @ vmov q4, q8

+ veor q2, q2, q10

+ @ vmov q5, q9

+ vldmia r6, {q12} @ .LSR

+ ite eq @ Thumb2 thing, samity check in ARM

+ addeq r6,r6,#0x10

+ bne .Lenc_loop

+ vldmia r6, {q12} @ .LSRM0

+ b .Lenc_loop

+.align 4

+.Lenc_done:

+ vmov.i8 q8,#0x55 @ compose .LBS0

+ vmov.i8 q9,#0x33 @ compose .LBS1

+ vshr.u64 q10, q2, #1

+ vshr.u64 q11, q3, #1

+ veor q10, q10, q5

+ veor q11, q11, q7

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q5, q5, q10

+ vshl.u64 q10, q10, #1

+ veor q7, q7, q11

+ vshl.u64 q11, q11, #1

+ veor q2, q2, q10

+ veor q3, q3, q11

+ vshr.u64 q10, q4, #1

+ vshr.u64 q11, q0, #1

+ veor q10, q10, q6

+ veor q11, q11, q1

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q6, q6, q10

+ vshl.u64 q10, q10, #1

+ veor q1, q1, q11

+ vshl.u64 q11, q11, #1

+ veor q4, q4, q10

+ veor q0, q0, q11

+ vmov.i8 q8,#0x0f @ compose .LBS2

+ vshr.u64 q10, q7, #2

+ vshr.u64 q11, q3, #2

+ veor q10, q10, q5

+ veor q11, q11, q2

+ vand q10, q10, q9

+ vand q11, q11, q9

+ veor q5, q5, q10

+ vshl.u64 q10, q10, #2

+ veor q2, q2, q11

+ vshl.u64 q11, q11, #2

+ veor q7, q7, q10

+ veor q3, q3, q11

+ vshr.u64 q10, q1, #2

+ vshr.u64 q11, q0, #2

+ veor q10, q10, q6

+ veor q11, q11, q4

+ vand q10, q10, q9

+ vand q11, q11, q9

+ veor q6, q6, q10

+ vshl.u64 q10, q10, #2

+ veor q4, q4, q11

+ vshl.u64 q11, q11, #2

+ veor q1, q1, q10

+ veor q0, q0, q11

+ vshr.u64 q10, q6, #4

+ vshr.u64 q11, q4, #4

+ veor q10, q10, q5

+ veor q11, q11, q2

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q5, q5, q10

+ vshl.u64 q10, q10, #4

+ veor q2, q2, q11

+ vshl.u64 q11, q11, #4

+ veor q6, q6, q10

+ veor q4, q4, q11

+ vshr.u64 q10, q1, #4

+ vshr.u64 q11, q0, #4

+ veor q10, q10, q7

+ veor q11, q11, q3

+ vand q10, q10, q8

+ vand q11, q11, q8

+ veor q7, q7, q10

+ vshl.u64 q10, q10, #4

+ veor q3, q3, q11

+ vshl.u64 q11, q11, #4

+ veor q1, q1, q10

+ veor q0, q0, q11

+ vldmia r4, {q8} @ last round key

+ veor q4, q4, q8

+ veor q6, q6, q8

+ veor q3, q3, q8

+ veor q7, q7, q8

+ veor q2, q2, q8

+ veor q5, q5, q8

+ veor q0, q0, q8

+ veor q1, q1, q8

+ bx lr

+.size _bsaes_encrypt8,.-_bsaes_encrypt8

+.type _bsaes_key_convert,%function

+.align 4

+_bsaes_key_convert:

+ adr r6,_bsaes_key_convert

+ vld1.8 {q7}, [r4]! @ load round 0 key

+ sub r6,r6,#_bsaes_key_convert-.LM0

+ vld1.8 {q15}, [r4]! @ load round 1 key

+ vmov.i8 q8, #0x01 @ bit masks

+ vmov.i8 q9, #0x02

+ vmov.i8 q10, #0x04

+ vmov.i8 q11, #0x08

+ vmov.i8 q12, #0x10

+ vmov.i8 q13, #0x20

+ vldmia r6, {q14} @ .LM0

+#ifdef __ARMEL__

+ vrev32.8 q7, q7

+ vrev32.8 q15, q15

+#endif

+ sub r5,r5,#1

+ vstmia r12!, {q7} @ save round 0 key

+ b .Lkey_loop

+.align 4

+.Lkey_loop:

+ vtbl.8 d14,{q15},d28

+ vtbl.8 d15,{q15},d29

+ vmov.i8 q6, #0x40

+ vmov.i8 q15, #0x80

+ vtst.8 q0, q7, q8

+ vtst.8 q1, q7, q9

+ vtst.8 q2, q7, q10

+ vtst.8 q3, q7, q11

+ vtst.8 q4, q7, q12

+ vtst.8 q5, q7, q13

+ vtst.8 q6, q7, q6

+ vtst.8 q7, q7, q15

+ vld1.8 {q15}, [r4]! @ load next round key

+ vmvn q0, q0 @ "pnot"

+ vmvn q1, q1

+ vmvn q5, q5

+ vmvn q6, q6

+#ifdef __ARMEL__

+ vrev32.8 q15, q15

+#endif

+ subs r5,r5,#1

+ vstmia r12!,{q0-q7} @ write bit-sliced round key

+ bne .Lkey_loop

+ vmov.i8 q7,#0x63 @ compose .L63

+ @ don't save last round key

+ bx lr

+.size _bsaes_key_convert,.-_bsaes_key_convert

+.extern AES_cbc_encrypt

+.extern AES_decrypt

+.global bsaes_cbc_encrypt

+.type bsaes_cbc_encrypt,%function

+.align 5

+bsaes_cbc_encrypt:

+#ifndef __KERNEL__

+ cmp r2, #128

+#ifndef __thumb__

+ blo AES_cbc_encrypt

+#else

+ bhs 1f

+ b AES_cbc_encrypt

+1:

+#endif

+ @ it is up to the caller to make sure we are called with enc == 0

+ mov ip, sp

+ stmdb sp!, {r4-r10, lr}

+ VFP_ABI_PUSH

+ ldr r8, [ip] @ IV is 1st arg on the stack

+ mov r2, r2, lsr#4 @ len in 16 byte blocks

+ sub sp, #0x10 @ scratch space to carry over the IV

+ mov r9, sp @ save sp

+ ldr r10, [r3, #240] @ get # of rounds

+#ifndef BSAES_ASM_EXTENDED_KEY

+ @ allocate the key schedule on the stack

+ sub r12, sp, r10, lsl#7 @ 128 bytes per inner round key

+ add r12, #96 @ sifze of bit-slices key schedule

+ @ populate the key schedule

+ mov r4, r3 @ pass key

+ mov r5, r10 @ pass # of rounds

+ mov sp, r12 @ sp is sp

+ bl _bsaes_key_convert

+ vldmia sp, {q6}

+ vstmia r12, {q15} @ save last round key

+ veor q7, q7, q6 @ fix up round 0 key

+ vstmia sp, {q7}

+#else

+ ldr r12, [r3, #244]

+ eors r12, #1

+ beq 0f

+ @ populate the key schedule

+ str r12, [r3, #244]

+ mov r4, r3 @ pass key

+ mov r5, r10 @ pass # of rounds

+ add r12, r3, #248 @ pass key schedule

+ bl _bsaes_key_convert

+ add r4, r3, #248

+ vldmia r4, {q6}

+ vstmia r12, {q15} @ save last round key

+ veor q7, q7, q6 @ fix up round 0 key

+ vstmia r4, {q7}

+.align 2

+0:

+#endif

+ vld1.8 {q15}, [r8] @ load IV

+ b .Lcbc_dec_loop

+.align 4

+.Lcbc_dec_loop:

+ subs r2, r2, #0x8

+ bmi .Lcbc_dec_loop_finish

+ vld1.8 {q0-q1}, [r0]! @ load input

+ vld1.8 {q2-q3}, [r0]!

+#ifndef BSAES_ASM_EXTENDED_KEY

+ mov r4, sp @ pass the key

+#else

+ add r4, r3, #248

+#endif

+ vld1.8 {q4-q5}, [r0]!

+ mov r5, r10

+ vld1.8 {q6-q7}, [r0]

+ sub r0, r0, #0x60

+ vstmia r9, {q15} @ put aside IV

+ bl _bsaes_decrypt8

+ vldmia r9, {q14} @ reload IV

+ vld1.8 {q8-q9}, [r0]! @ reload input

+ veor q0, q0, q14 @ ^= IV

+ vld1.8 {q10-q11}, [r0]!

+ veor q1, q1, q8

+ veor q6, q6, q9

+ vld1.8 {q12-q13}, [r0]!

+ veor q4, q4, q10

+ veor q2, q2, q11

+ vld1.8 {q14-q15}, [r0]!

+ veor q7, q7, q12

+ vst1.8 {q0-q1}, [r1]! @ write output

+ veor q3, q3, q13

+ vst1.8 {q6}, [r1]!

+ veor q5, q5, q14

+ vst1.8 {q4}, [r1]!

+ vst1.8 {q2}, [r1]!

+ vst1.8 {q7}, [r1]!

+ vst1.8 {q3}, [r1]!

+ vst1.8 {q5}, [r1]!

+ b .Lcbc_dec_loop

+.Lcbc_dec_loop_finish:

+ adds r2, r2, #8

+ beq .Lcbc_dec_done

+ vld1.8 {q0}, [r0]! @ load input

+ cmp r2, #2

+ blo .Lcbc_dec_one

+ vld1.8 {q1}, [r0]!

+#ifndef BSAES_ASM_EXTENDED_KEY

+ mov r4, sp @ pass the key

+#else

+ add r4, r3, #248

+#endif

+ mov r5, r10

+ vstmia r9, {q15} @ put aside IV

+ beq .Lcbc_dec_two

+ vld1.8 {q2}, [r0]!

+ cmp r2, #4

+ blo .Lcbc_dec_three

+ vld1.8 {q3}, [r0]!

+ beq .Lcbc_dec_four

+ vld1.8 {q4}, [r0]!

+ cmp r2, #6

+ blo .Lcbc_dec_five

+ vld1.8 {q5}, [r0]!

+ beq .Lcbc_dec_six

+ vld1.8 {q6}, [r0]!

+ sub r0, r0, #0x70

+ bl _bsaes_decrypt8

+ vldmia r9, {q14} @ reload IV

+ vld1.8 {q8-q9}, [r0]! @ reload input

+ veor q0, q0, q14 @ ^= IV

+ vld1.8 {q10-q11}, [r0]!

+ veor q1, q1, q8

+ veor q6, q6, q9

+ vld1.8 {q12-q13}, [r0]!

+ veor q4, q4, q10

+ veor q2, q2, q11

+ vld1.8 {q15}, [r0]!

+ veor q7, q7, q12

+ vst1.8 {q0-q1}, [r1]! @ write output

+ veor q3, q3, q13

+ vst1.8 {q6}, [r1]!

+ vst1.8 {q4}, [r1]!

+ vst1.8 {q2}, [r1]!

+ vst1.8 {q7}, [r1]!

+ vst1.8 {q3}, [r1]!

+ b .Lcbc_dec_done

+.align 4

+.Lcbc_dec_six:

+ sub r0, r0, #0x60

+ bl _bsaes_decrypt8

+ vldmia r9,{q14} @ reload IV

+ vld1.8 {q8-q9}, [r0]! @ reload input

+ veor q0, q0, q14 @ ^= IV

+ vld1.8 {q10-q11}, [r0]!

+ veor q1, q1, q8

+ veor q6, q6, q9

+ vld1.8 {q12}, [r0]!

+ veor q4, q4, q10

+ veor q2, q2, q11

+ vld1.8 {q15}, [r0]!

+ veor q7, q7, q12

+ vst1.8 {q0-q1}, [r1]! @ write output

+ vst1.8 {q6}, [r1]!

+ vst1.8 {q4}, [r1]!

+ vst1.8 {q2}, [r1]!

+ vst1.8 {q7}, [r1]!

+ b .Lcbc_dec_done

+.align 4

+.Lcbc_dec_five:

+ sub r0, r0, #0x50

+ bl _bsaes_decrypt8

+ vldmia r9, {q14} @ reload IV

+ vld1.8 {q8-q9}, [r0]! @ reload input

+ veor q0, q0, q14 @ ^= IV

+ vld1.8 {q10-q11}, [r0]!

+ veor q1, q1, q8

+ veor q6, q6, q9

+ vld1.8 {q15}, [r0]!

+ veor q4, q4, q10

+ vst1.8 {q0-q1}, [r1]! @ write output

+ veor q2, q2, q11

+ vst1.8 {q6}, [r1]!

+ vst1.8 {q4}, [r1]!

+ vst1.8 {q2}, [r1]!

+ b .Lcbc_dec_done

+.align 4

+.Lcbc_dec_four:

+ sub r0, r0, #0x40

+ bl _bsaes_decrypt8

+ vldmia r9, {q14} @ reload IV

+ vld1.8 {q8-q9}, [r0]! @ reload input

+ veor q0, q0, q14 @ ^= IV

+ vld1.8 {q10}, [r0]!

+ veor q1, q1, q8

+ veor q6, q6, q9

+ vld1.8 {q15}, [r0]!

+ veor q4, q4, q10

+ vst1.8 {q0-q1}, [r1]! @ write output

+ vst1.8 {q6}, [r1]!

+ vst1.8 {q4}, [r1]!

+ b .Lcbc_dec_done

+.align 4

+.Lcbc_dec_three:

+ sub r0, r0, #0x30

+ bl _bsaes_decrypt8

+ vldmia r9, {q14} @ reload IV

+ vld1.8 {q8-q9}, [r0]! @ reload input

+ veor q0, q0, q14 @ ^= IV

+ vld1.8 {q15}, [r0]!

+ veor q1, q1, q8

+ veor q6, q6, q9

+ vst1.8 {q0-q1}, [r1]! @ write output

+ vst1.8 {q6}, [r1]!

+ b .Lcbc_dec_done

+.align 4

+.Lcbc_dec_two:

+ sub r0, r0, #0x20

+ bl _bsaes_decrypt8

+ vldmia r9, {q14} @ reload IV

+ vld1.8 {q8}, [r0]! @ reload input

+ veor q0, q0, q14 @ ^= IV

+ vld1.8 {q15}, [r0]! @ reload input

+ veor q1, q1, q8

+ vst1.8 {q0-q1}, [r1]! @ write output

+ b .Lcbc_dec_done

+.align 4

+.Lcbc_dec_one:

+ sub r0, r0, #0x10

+ mov r10, r1 @ save original out pointer

+ mov r1, r9 @ use the iv scratch space as out buffer

+ mov r2, r3

+ vmov q4,q15 @ just in case ensure that IV

+ vmov q5,q0 @ and input are preserved

+ bl AES_decrypt

+ vld1.8 {q0}, [r9,:64] @ load result

+ veor q0, q0, q4 @ ^= IV

+ vmov q15, q5 @ q5 holds input

+ vst1.8 {q0}, [r10] @ write output

+.Lcbc_dec_done:

+#ifndef BSAES_ASM_EXTENDED_KEY

+ vmov.i32 q0, #0

+ vmov.i32 q1, #0

+.Lcbc_dec_bzero: @ wipe key schedule [if any]

+ vstmia sp!, {q0-q1}

+ cmp sp, r9

+ bne .Lcbc_dec_bzero

+#endif

+ mov sp, r9

+ add sp, #0x10 @ add sp,r9,#0x10 is no good for thumb

+ vst1.8 {q15}, [r8] @ return IV

+ VFP_ABI_POP

+ ldmia sp!, {r4-r10, pc}

+.size bsaes_cbc_encrypt,.-bsaes_cbc_encrypt

+.extern AES_encrypt

+.global bsaes_ctr32_encrypt_blocks

+.type bsaes_ctr32_encrypt_blocks,%function

+.align 5

+bsaes_ctr32_encrypt_blocks:

+ cmp r2, #8 @ use plain AES for

+ blo .Lctr_enc_short @ small sizes

+ mov ip, sp

+ stmdb sp!, {r4-r10, lr}

+ VFP_ABI_PUSH

+ ldr r8, [ip] @ ctr is 1st arg on the stack

+ sub sp, sp, #0x10 @ scratch space to carry over the ctr

+ mov r9, sp @ save sp

+ ldr r10, [r3, #240] @ get # of rounds

+#ifndef BSAES_ASM_EXTENDED_KEY

+ @ allocate the key schedule on the stack

+ sub r12, sp, r10, lsl#7 @ 128 bytes per inner round key

+ add r12, #96 @ size of bit-sliced key schedule

+ @ populate the key schedule

+ mov r4, r3 @ pass key

+ mov r5, r10 @ pass # of rounds

+ mov sp, r12 @ sp is sp

+ bl _bsaes_key_convert

+ veor q7,q7,q15 @ fix up last round key

+ vstmia r12, {q7} @ save last round key

+ vld1.8 {q0}, [r8] @ load counter

+ add r8, r6, #.LREVM0SR-.LM0 @ borrow r8

+ vldmia sp, {q4} @ load round0 key

+#else

+ ldr r12, [r3, #244]

+ eors r12, #1

+ beq 0f

+ @ populate the key schedule

+ str r12, [r3, #244]

+ mov r4, r3 @ pass key

+ mov r5, r10 @ pass # of rounds

+ add r12, r3, #248 @ pass key schedule

+ bl _bsaes_key_convert

+ veor q7,q7,q15 @ fix up last round key

+ vstmia r12, {q7} @ save last round key

+.align 2

+0: add r12, r3, #248

+ vld1.8 {q0}, [r8] @ load counter

+ adrl r8, .LREVM0SR @ borrow r8

+ vldmia r12, {q4} @ load round0 key

+ sub sp, #0x10 @ place for adjusted round0 key

+#endif

+ vmov.i32 q8,#1 @ compose 1<<96

+ veor q9,q9,q9

+ vrev32.8 q0,q0

+ vext.8 q8,q9,q8,#4

+ vrev32.8 q4,q4

+ vadd.u32 q9,q8,q8 @ compose 2<<96

+ vstmia sp, {q4} @ save adjusted round0 key

+ b .Lctr_enc_loop

+.align 4

+.Lctr_enc_loop:

+ vadd.u32 q10, q8, q9 @ compose 3<<96

+ vadd.u32 q1, q0, q8 @ +1

+ vadd.u32 q2, q0, q9 @ +2

+ vadd.u32 q3, q0, q10 @ +3

+ vadd.u32 q4, q1, q10

+ vadd.u32 q5, q2, q10

+ vadd.u32 q6, q3, q10

+ vadd.u32 q7, q4, q10

+ vadd.u32 q10, q5, q10 @ next counter

+ @ Borrow prologue from _bsaes_encrypt8 to use the opportunity

+ @ to flip byte order in 32-bit counter

+ vldmia sp, {q9} @ load round0 key

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x10 @ pass next round key

+#else

+ add r4, r3, #264

+#endif

+ vldmia r8, {q8} @ .LREVM0SR

+ mov r5, r10 @ pass rounds

+ vstmia r9, {q10} @ save next counter

+ sub r6, r8, #.LREVM0SR-.LSR @ pass constants

+ bl _bsaes_encrypt8_alt

+ subs r2, r2, #8

+ blo .Lctr_enc_loop_done

+ vld1.8 {q8-q9}, [r0]! @ load input

+ vld1.8 {q10-q11}, [r0]!

+ veor q0, q8

+ veor q1, q9

+ vld1.8 {q12-q13}, [r0]!

+ veor q4, q10

+ veor q6, q11

+ vld1.8 {q14-q15}, [r0]!

+ veor q3, q12

+ vst1.8 {q0-q1}, [r1]! @ write output

+ veor q7, q13

+ veor q2, q14

+ vst1.8 {q4}, [r1]!

+ veor q5, q15

+ vst1.8 {q6}, [r1]!

+ vmov.i32 q8, #1 @ compose 1<<96

+ vst1.8 {q3}, [r1]!

+ veor q9, q9, q9

+ vst1.8 {q7}, [r1]!

+ vext.8 q8, q9, q8, #4

+ vst1.8 {q2}, [r1]!

+ vadd.u32 q9,q8,q8 @ compose 2<<96

+ vst1.8 {q5}, [r1]!

+ vldmia r9, {q0} @ load counter

+ bne .Lctr_enc_loop

+ b .Lctr_enc_done

+.align 4

+.Lctr_enc_loop_done:

+ add r2, r2, #8

+ vld1.8 {q8}, [r0]! @ load input

+ veor q0, q8

+ vst1.8 {q0}, [r1]! @ write output

+ cmp r2, #2

+ blo .Lctr_enc_done

+ vld1.8 {q9}, [r0]!

+ veor q1, q9

+ vst1.8 {q1}, [r1]!

+ beq .Lctr_enc_done

+ vld1.8 {q10}, [r0]!

+ veor q4, q10

+ vst1.8 {q4}, [r1]!

+ cmp r2, #4

+ blo .Lctr_enc_done

+ vld1.8 {q11}, [r0]!

+ veor q6, q11

+ vst1.8 {q6}, [r1]!

+ beq .Lctr_enc_done

+ vld1.8 {q12}, [r0]!

+ veor q3, q12

+ vst1.8 {q3}, [r1]!

+ cmp r2, #6

+ blo .Lctr_enc_done

+ vld1.8 {q13}, [r0]!

+ veor q7, q13

+ vst1.8 {q7}, [r1]!

+ beq .Lctr_enc_done

+ vld1.8 {q14}, [r0]

+ veor q2, q14

+ vst1.8 {q2}, [r1]!

+.Lctr_enc_done:

+ vmov.i32 q0, #0

+ vmov.i32 q1, #0

+#ifndef BSAES_ASM_EXTENDED_KEY

+.Lctr_enc_bzero: @ wipe key schedule [if any]

+ vstmia sp!, {q0-q1}

+ cmp sp, r9

+ bne .Lctr_enc_bzero

+#else

+ vstmia sp, {q0-q1}

+#endif

+ mov sp, r9

+ add sp, #0x10 @ add sp,r9,#0x10 is no good for thumb

+ VFP_ABI_POP

+ ldmia sp!, {r4-r10, pc} @ return

+.align 4

+.Lctr_enc_short:

+ ldr ip, [sp] @ ctr pointer is passed on stack

+ stmdb sp!, {r4-r8, lr}

+ mov r4, r0 @ copy arguments

+ mov r5, r1

+ mov r6, r2

+ mov r7, r3

+ ldr r8, [ip, #12] @ load counter LSW

+ vld1.8 {q1}, [ip] @ load whole counter value

+#ifdef __ARMEL__

+ rev r8, r8

+#endif

+ sub sp, sp, #0x10

+ vst1.8 {q1}, [sp,:64] @ copy counter value

+ sub sp, sp, #0x10

+.Lctr_enc_short_loop:

+ add r0, sp, #0x10 @ input counter value

+ mov r1, sp @ output on the stack

+ mov r2, r7 @ key

+ bl AES_encrypt

+ vld1.8 {q0}, [r4]! @ load input

+ vld1.8 {q1}, [sp,:64] @ load encrypted counter

+ add r8, r8, #1

+#ifdef __ARMEL__

+ rev r0, r8

+ str r0, [sp, #0x1c] @ next counter value

+#else

+ str r8, [sp, #0x1c] @ next counter value

+#endif

+ veor q0,q0,q1

+ vst1.8 {q0}, [r5]! @ store output

+ subs r6, r6, #1

+ bne .Lctr_enc_short_loop

+ vmov.i32 q0, #0

+ vmov.i32 q1, #0

+ vstmia sp!, {q0-q1}

+ ldmia sp!, {r4-r8, pc}

+.size bsaes_ctr32_encrypt_blocks,.-bsaes_ctr32_encrypt_blocks

+.globl bsaes_xts_encrypt

+.type bsaes_xts_encrypt,%function

+.align 4

+bsaes_xts_encrypt:

+ mov ip, sp

+ stmdb sp!, {r4-r10, lr} @ 0x20

+ VFP_ABI_PUSH

+ mov r6, sp @ future r3

+ mov r7, r0

+ mov r8, r1

+ mov r9, r2

+ mov r10, r3

+ sub r0, sp, #0x10 @ 0x10

+ bic r0, #0xf @ align at 16 bytes

+ mov sp, r0

+#ifdef XTS_CHAIN_TWEAK

+ ldr r0, [ip] @ pointer to input tweak

+#else

+ @ generate initial tweak

+ ldr r0, [ip, #4] @ iv[]

+ mov r1, sp

+ ldr r2, [ip, #0] @ key2

+ bl AES_encrypt

+ mov r0,sp @ pointer to initial tweak

+#endif

+ ldr r1, [r10, #240] @ get # of rounds

+ mov r3, r6

+#ifndef BSAES_ASM_EXTENDED_KEY

+ @ allocate the key schedule on the stack

+ sub r12, sp, r1, lsl#7 @ 128 bytes per inner round key

+ @ add r12, #96 @ size of bit-sliced key schedule

+ sub r12, #48 @ place for tweak[9]

+ @ populate the key schedule

+ mov r4, r10 @ pass key

+ mov r5, r1 @ pass # of rounds

+ mov sp, r12

+ add r12, #0x90 @ pass key schedule

+ bl _bsaes_key_convert

+ veor q7, q7, q15 @ fix up last round key

+ vstmia r12, {q7} @ save last round key

+#else

+ ldr r12, [r10, #244]

+ eors r12, #1

+ beq 0f

+ str r12, [r10, #244]

+ mov r4, r10 @ pass key

+ mov r5, r1 @ pass # of rounds

+ add r12, r10, #248 @ pass key schedule

+ bl _bsaes_key_convert

+ veor q7, q7, q15 @ fix up last round key

+ vstmia r12, {q7}

+.align 2

+0: sub sp, #0x90 @ place for tweak[9]

+#endif

+ vld1.8 {q8}, [r0] @ initial tweak

+ adr r2, .Lxts_magic

+ subs r9, #0x80

+ blo .Lxts_enc_short

+ b .Lxts_enc_loop

+.align 4

+.Lxts_enc_loop:

+ vldmia r2, {q5} @ load XTS magic

+ vshr.s64 q6, q8, #63

+ mov r0, sp

+ vand q6, q6, q5

+ vadd.u64 q9, q8, q8

+ vst1.64 {q8}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q9, #63

+ veor q9, q9, q6

+ vand q7, q7, q5

+ vadd.u64 q10, q9, q9

+ vst1.64 {q9}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q10, #63

+ veor q10, q10, q7

+ vand q6, q6, q5

+ vld1.8 {q0}, [r7]!

+ vadd.u64 q11, q10, q10

+ vst1.64 {q10}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q11, #63

+ veor q11, q11, q6

+ vand q7, q7, q5

+ vld1.8 {q1}, [r7]!

+ veor q0, q0, q8

+ vadd.u64 q12, q11, q11

+ vst1.64 {q11}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q12, #63

+ veor q12, q12, q7

+ vand q6, q6, q5

+ vld1.8 {q2}, [r7]!

+ veor q1, q1, q9

+ vadd.u64 q13, q12, q12

+ vst1.64 {q12}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q13, #63

+ veor q13, q13, q6

+ vand q7, q7, q5

+ vld1.8 {q3}, [r7]!

+ veor q2, q2, q10

+ vadd.u64 q14, q13, q13

+ vst1.64 {q13}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q14, #63

+ veor q14, q14, q7

+ vand q6, q6, q5

+ vld1.8 {q4}, [r7]!

+ veor q3, q3, q11

+ vadd.u64 q15, q14, q14

+ vst1.64 {q14}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q15, #63

+ veor q15, q15, q6

+ vand q7, q7, q5

+ vld1.8 {q5}, [r7]!

+ veor q4, q4, q12

+ vadd.u64 q8, q15, q15

+ vst1.64 {q15}, [r0,:128]!

+ vswp d15,d14

+ veor q8, q8, q7

+ vst1.64 {q8}, [r0,:128] @ next round tweak

+ vld1.8 {q6-q7}, [r7]!

+ veor q5, q5, q13

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q6, q6, q14

+ mov r5, r1 @ pass rounds

+ veor q7, q7, q15

+ mov r0, sp

+ bl _bsaes_encrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ vld1.64 {q12-q13}, [r0,:128]!

+ veor q1, q1, q9

+ veor q8, q4, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q6, q11

+ vld1.64 {q14-q15}, [r0,:128]!

+ veor q10, q3, q12

+ vst1.8 {q8-q9}, [r8]!

+ veor q11, q7, q13

+ veor q12, q2, q14

+ vst1.8 {q10-q11}, [r8]!

+ veor q13, q5, q15

+ vst1.8 {q12-q13}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ subs r9, #0x80

+ bpl .Lxts_enc_loop

+.Lxts_enc_short:

+ adds r9, #0x70

+ bmi .Lxts_enc_done

+ vldmia r2, {q5} @ load XTS magic

+ vshr.s64 q7, q8, #63

+ mov r0, sp

+ vand q7, q7, q5

+ vadd.u64 q9, q8, q8

+ vst1.64 {q8}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q9, #63

+ veor q9, q9, q7

+ vand q6, q6, q5

+ vadd.u64 q10, q9, q9

+ vst1.64 {q9}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q10, #63

+ veor q10, q10, q6

+ vand q7, q7, q5

+ vld1.8 {q0}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_enc_1

+ vadd.u64 q11, q10, q10

+ vst1.64 {q10}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q11, #63

+ veor q11, q11, q7

+ vand q6, q6, q5

+ vld1.8 {q1}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_enc_2

+ veor q0, q0, q8

+ vadd.u64 q12, q11, q11

+ vst1.64 {q11}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q12, #63

+ veor q12, q12, q6

+ vand q7, q7, q5

+ vld1.8 {q2}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_enc_3

+ veor q1, q1, q9

+ vadd.u64 q13, q12, q12

+ vst1.64 {q12}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q13, #63

+ veor q13, q13, q7

+ vand q6, q6, q5

+ vld1.8 {q3}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_enc_4

+ veor q2, q2, q10

+ vadd.u64 q14, q13, q13

+ vst1.64 {q13}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q14, #63

+ veor q14, q14, q6

+ vand q7, q7, q5

+ vld1.8 {q4}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_enc_5

+ veor q3, q3, q11

+ vadd.u64 q15, q14, q14

+ vst1.64 {q14}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q15, #63

+ veor q15, q15, q7

+ vand q6, q6, q5

+ vld1.8 {q5}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_enc_6

+ veor q4, q4, q12

+ sub r9, #0x10

+ vst1.64 {q15}, [r0,:128] @ next round tweak

+ vld1.8 {q6}, [r7]!

+ veor q5, q5, q13

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q6, q6, q14

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_encrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ vld1.64 {q12-q13}, [r0,:128]!

+ veor q1, q1, q9

+ veor q8, q4, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q6, q11

+ vld1.64 {q14}, [r0,:128]!

+ veor q10, q3, q12

+ vst1.8 {q8-q9}, [r8]!

+ veor q11, q7, q13

+ veor q12, q2, q14

+ vst1.8 {q10-q11}, [r8]!

+ vst1.8 {q12}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_enc_done

+.align 4

+.Lxts_enc_6:

+ vst1.64 {q14}, [r0,:128] @ next round tweak

+ veor q4, q4, q12

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q5, q5, q13

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_encrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ vld1.64 {q12-q13}, [r0,:128]!

+ veor q1, q1, q9

+ veor q8, q4, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q6, q11

+ veor q10, q3, q12

+ vst1.8 {q8-q9}, [r8]!

+ veor q11, q7, q13

+ vst1.8 {q10-q11}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_enc_done

+@ put this in range for both ARM and Thumb mode adr instructions

+.align 5

+.Lxts_magic:

+ .quad 1, 0x87

+.align 5

+.Lxts_enc_5:

+ vst1.64 {q13}, [r0,:128] @ next round tweak

+ veor q3, q3, q11

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q4, q4, q12

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_encrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ vld1.64 {q12}, [r0,:128]!

+ veor q1, q1, q9

+ veor q8, q4, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q6, q11

+ veor q10, q3, q12

+ vst1.8 {q8-q9}, [r8]!

+ vst1.8 {q10}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_enc_done

+.align 4

+.Lxts_enc_4:

+ vst1.64 {q12}, [r0,:128] @ next round tweak

+ veor q2, q2, q10

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q3, q3, q11

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_encrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ veor q1, q1, q9

+ veor q8, q4, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q6, q11

+ vst1.8 {q8-q9}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_enc_done

+.align 4

+.Lxts_enc_3:

+ vst1.64 {q11}, [r0,:128] @ next round tweak

+ veor q1, q1, q9

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q2, q2, q10

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_encrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10}, [r0,:128]!

+ veor q0, q0, q8

+ veor q1, q1, q9

+ veor q8, q4, q10

+ vst1.8 {q0-q1}, [r8]!

+ vst1.8 {q8}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_enc_done

+.align 4

+.Lxts_enc_2:

+ vst1.64 {q10}, [r0,:128] @ next round tweak

+ veor q0, q0, q8

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q1, q1, q9

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_encrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ veor q0, q0, q8

+ veor q1, q1, q9

+ vst1.8 {q0-q1}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_enc_done

+.align 4

+.Lxts_enc_1:

+ mov r0, sp

+ veor q0, q8

+ mov r1, sp

+ vst1.8 {q0}, [sp,:128]

+ mov r2, r10

+ mov r4, r3 @ preserve fp

+ bl AES_encrypt

+ vld1.8 {q0}, [sp,:128]

+ veor q0, q0, q8

+ vst1.8 {q0}, [r8]!

+ mov r3, r4

+ vmov q8, q9 @ next round tweak

+.Lxts_enc_done:

+#ifndef XTS_CHAIN_TWEAK

+ adds r9, #0x10

+ beq .Lxts_enc_ret

+ sub r6, r8, #0x10

+.Lxts_enc_steal:

+ ldrb r0, [r7], #1

+ ldrb r1, [r8, #-0x10]

+ strb r0, [r8, #-0x10]

+ strb r1, [r8], #1

+ subs r9, #1

+ bhi .Lxts_enc_steal

+ vld1.8 {q0}, [r6]

+ mov r0, sp

+ veor q0, q0, q8

+ mov r1, sp

+ vst1.8 {q0}, [sp,:128]

+ mov r2, r10

+ mov r4, r3 @ preserve fp

+ bl AES_encrypt

+ vld1.8 {q0}, [sp,:128]

+ veor q0, q0, q8

+ vst1.8 {q0}, [r6]

+ mov r3, r4

+#endif

+.Lxts_enc_ret:

+ bic r0, r3, #0xf

+ vmov.i32 q0, #0

+ vmov.i32 q1, #0

+#ifdef XTS_CHAIN_TWEAK

+ ldr r1, [r3, #0x20+VFP_ABI_FRAME] @ chain tweak

+#endif

+.Lxts_enc_bzero: @ wipe key schedule [if any]

+ vstmia sp!, {q0-q1}

+ cmp sp, r0

+ bne .Lxts_enc_bzero

+ mov sp, r3

+#ifdef XTS_CHAIN_TWEAK

+ vst1.8 {q8}, [r1]

+#endif

+ VFP_ABI_POP

+ ldmia sp!, {r4-r10, pc} @ return

+.size bsaes_xts_encrypt,.-bsaes_xts_encrypt

+.globl bsaes_xts_decrypt

+.type bsaes_xts_decrypt,%function

+.align 4

+bsaes_xts_decrypt:

+ mov ip, sp

+ stmdb sp!, {r4-r10, lr} @ 0x20

+ VFP_ABI_PUSH

+ mov r6, sp @ future r3

+ mov r7, r0

+ mov r8, r1

+ mov r9, r2

+ mov r10, r3

+ sub r0, sp, #0x10 @ 0x10

+ bic r0, #0xf @ align at 16 bytes

+ mov sp, r0

+#ifdef XTS_CHAIN_TWEAK

+ ldr r0, [ip] @ pointer to input tweak

+#else

+ @ generate initial tweak

+ ldr r0, [ip, #4] @ iv[]

+ mov r1, sp

+ ldr r2, [ip, #0] @ key2

+ bl AES_encrypt

+ mov r0, sp @ pointer to initial tweak

+#endif

+ ldr r1, [r10, #240] @ get # of rounds

+ mov r3, r6

+#ifndef BSAES_ASM_EXTENDED_KEY

+ @ allocate the key schedule on the stack

+ sub r12, sp, r1, lsl#7 @ 128 bytes per inner round key

+ @ add r12, #96 @ size of bit-sliced key schedule

+ sub r12, #48 @ place for tweak[9]

+ @ populate the key schedule

+ mov r4, r10 @ pass key

+ mov r5, r1 @ pass # of rounds

+ mov sp, r12

+ add r12, #0x90 @ pass key schedule

+ bl _bsaes_key_convert

+ add r4, sp, #0x90

+ vldmia r4, {q6}

+ vstmia r12, {q15} @ save last round key

+ veor q7, q7, q6 @ fix up round 0 key

+ vstmia r4, {q7}

+#else

+ ldr r12, [r10, #244]

+ eors r12, #1

+ beq 0f

+ str r12, [r10, #244]

+ mov r4, r10 @ pass key

+ mov r5, r1 @ pass # of rounds

+ add r12, r10, #248 @ pass key schedule

+ bl _bsaes_key_convert

+ add r4, r10, #248

+ vldmia r4, {q6}

+ vstmia r12, {q15} @ save last round key

+ veor q7, q7, q6 @ fix up round 0 key

+ vstmia r4, {q7}

+.align 2

+0: sub sp, #0x90 @ place for tweak[9]

+#endif

+ vld1.8 {q8}, [r0] @ initial tweak

+ adr r2, .Lxts_magic

+ tst r9, #0xf @ if not multiple of 16

+ it ne @ Thumb2 thing, sanity check in ARM

+ subne r9, #0x10 @ subtract another 16 bytes

+ subs r9, #0x80

+ blo .Lxts_dec_short

+ b .Lxts_dec_loop

+.align 4

+.Lxts_dec_loop:

+ vldmia r2, {q5} @ load XTS magic

+ vshr.s64 q6, q8, #63

+ mov r0, sp

+ vand q6, q6, q5

+ vadd.u64 q9, q8, q8

+ vst1.64 {q8}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q9, #63

+ veor q9, q9, q6

+ vand q7, q7, q5

+ vadd.u64 q10, q9, q9

+ vst1.64 {q9}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q10, #63

+ veor q10, q10, q7

+ vand q6, q6, q5

+ vld1.8 {q0}, [r7]!

+ vadd.u64 q11, q10, q10

+ vst1.64 {q10}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q11, #63

+ veor q11, q11, q6

+ vand q7, q7, q5

+ vld1.8 {q1}, [r7]!

+ veor q0, q0, q8

+ vadd.u64 q12, q11, q11

+ vst1.64 {q11}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q12, #63

+ veor q12, q12, q7

+ vand q6, q6, q5

+ vld1.8 {q2}, [r7]!

+ veor q1, q1, q9

+ vadd.u64 q13, q12, q12

+ vst1.64 {q12}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q13, #63

+ veor q13, q13, q6

+ vand q7, q7, q5

+ vld1.8 {q3}, [r7]!

+ veor q2, q2, q10

+ vadd.u64 q14, q13, q13

+ vst1.64 {q13}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q14, #63

+ veor q14, q14, q7

+ vand q6, q6, q5

+ vld1.8 {q4}, [r7]!

+ veor q3, q3, q11

+ vadd.u64 q15, q14, q14

+ vst1.64 {q14}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q15, #63

+ veor q15, q15, q6

+ vand q7, q7, q5

+ vld1.8 {q5}, [r7]!

+ veor q4, q4, q12

+ vadd.u64 q8, q15, q15

+ vst1.64 {q15}, [r0,:128]!

+ vswp d15,d14

+ veor q8, q8, q7

+ vst1.64 {q8}, [r0,:128] @ next round tweak

+ vld1.8 {q6-q7}, [r7]!

+ veor q5, q5, q13

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q6, q6, q14

+ mov r5, r1 @ pass rounds

+ veor q7, q7, q15

+ mov r0, sp

+ bl _bsaes_decrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ vld1.64 {q12-q13}, [r0,:128]!

+ veor q1, q1, q9

+ veor q8, q6, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q4, q11

+ vld1.64 {q14-q15}, [r0,:128]!

+ veor q10, q2, q12

+ vst1.8 {q8-q9}, [r8]!

+ veor q11, q7, q13

+ veor q12, q3, q14

+ vst1.8 {q10-q11}, [r8]!

+ veor q13, q5, q15

+ vst1.8 {q12-q13}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ subs r9, #0x80

+ bpl .Lxts_dec_loop

+.Lxts_dec_short:

+ adds r9, #0x70

+ bmi .Lxts_dec_done

+ vldmia r2, {q5} @ load XTS magic

+ vshr.s64 q7, q8, #63

+ mov r0, sp

+ vand q7, q7, q5

+ vadd.u64 q9, q8, q8

+ vst1.64 {q8}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q9, #63

+ veor q9, q9, q7

+ vand q6, q6, q5

+ vadd.u64 q10, q9, q9

+ vst1.64 {q9}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q10, #63

+ veor q10, q10, q6

+ vand q7, q7, q5

+ vld1.8 {q0}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_dec_1

+ vadd.u64 q11, q10, q10

+ vst1.64 {q10}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q11, #63

+ veor q11, q11, q7

+ vand q6, q6, q5

+ vld1.8 {q1}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_dec_2

+ veor q0, q0, q8

+ vadd.u64 q12, q11, q11

+ vst1.64 {q11}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q12, #63

+ veor q12, q12, q6

+ vand q7, q7, q5

+ vld1.8 {q2}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_dec_3

+ veor q1, q1, q9

+ vadd.u64 q13, q12, q12

+ vst1.64 {q12}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q13, #63

+ veor q13, q13, q7

+ vand q6, q6, q5

+ vld1.8 {q3}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_dec_4

+ veor q2, q2, q10

+ vadd.u64 q14, q13, q13

+ vst1.64 {q13}, [r0,:128]!

+ vswp d13,d12

+ vshr.s64 q7, q14, #63

+ veor q14, q14, q6

+ vand q7, q7, q5

+ vld1.8 {q4}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_dec_5

+ veor q3, q3, q11

+ vadd.u64 q15, q14, q14

+ vst1.64 {q14}, [r0,:128]!

+ vswp d15,d14

+ vshr.s64 q6, q15, #63

+ veor q15, q15, q7

+ vand q6, q6, q5

+ vld1.8 {q5}, [r7]!

+ subs r9, #0x10

+ bmi .Lxts_dec_6

+ veor q4, q4, q12

+ sub r9, #0x10

+ vst1.64 {q15}, [r0,:128] @ next round tweak

+ vld1.8 {q6}, [r7]!

+ veor q5, q5, q13

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q6, q6, q14

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_decrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ vld1.64 {q12-q13}, [r0,:128]!

+ veor q1, q1, q9

+ veor q8, q6, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q4, q11

+ vld1.64 {q14}, [r0,:128]!

+ veor q10, q2, q12

+ vst1.8 {q8-q9}, [r8]!

+ veor q11, q7, q13

+ veor q12, q3, q14

+ vst1.8 {q10-q11}, [r8]!

+ vst1.8 {q12}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_dec_done

+.align 4

+.Lxts_dec_6:

+ vst1.64 {q14}, [r0,:128] @ next round tweak

+ veor q4, q4, q12

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q5, q5, q13

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_decrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ vld1.64 {q12-q13}, [r0,:128]!

+ veor q1, q1, q9

+ veor q8, q6, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q4, q11

+ veor q10, q2, q12

+ vst1.8 {q8-q9}, [r8]!

+ veor q11, q7, q13

+ vst1.8 {q10-q11}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_dec_done

+.align 4

+.Lxts_dec_5:

+ vst1.64 {q13}, [r0,:128] @ next round tweak

+ veor q3, q3, q11

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q4, q4, q12

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_decrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ vld1.64 {q12}, [r0,:128]!

+ veor q1, q1, q9

+ veor q8, q6, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q4, q11

+ veor q10, q2, q12

+ vst1.8 {q8-q9}, [r8]!

+ vst1.8 {q10}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_dec_done

+.align 4

+.Lxts_dec_4:

+ vst1.64 {q12}, [r0,:128] @ next round tweak

+ veor q2, q2, q10

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q3, q3, q11

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_decrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10-q11}, [r0,:128]!

+ veor q0, q0, q8

+ veor q1, q1, q9

+ veor q8, q6, q10

+ vst1.8 {q0-q1}, [r8]!

+ veor q9, q4, q11

+ vst1.8 {q8-q9}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_dec_done

+.align 4

+.Lxts_dec_3:

+ vst1.64 {q11}, [r0,:128] @ next round tweak

+ veor q1, q1, q9

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q2, q2, q10

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_decrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ vld1.64 {q10}, [r0,:128]!

+ veor q0, q0, q8

+ veor q1, q1, q9

+ veor q8, q6, q10

+ vst1.8 {q0-q1}, [r8]!

+ vst1.8 {q8}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_dec_done

+.align 4

+.Lxts_dec_2:

+ vst1.64 {q10}, [r0,:128] @ next round tweak

+ veor q0, q0, q8

+#ifndef BSAES_ASM_EXTENDED_KEY

+ add r4, sp, #0x90 @ pass key schedule

+#else

+ add r4, r10, #248 @ pass key schedule

+#endif

+ veor q1, q1, q9

+ mov r5, r1 @ pass rounds

+ mov r0, sp

+ bl _bsaes_decrypt8

+ vld1.64 {q8-q9}, [r0,:128]!

+ veor q0, q0, q8

+ veor q1, q1, q9

+ vst1.8 {q0-q1}, [r8]!

+ vld1.64 {q8}, [r0,:128] @ next round tweak

+ b .Lxts_dec_done

+.align 4

+.Lxts_dec_1:

+ mov r0, sp

+ veor q0, q8

+ mov r1, sp

+ vst1.8 {q0}, [sp,:128]

+ mov r2, r10

+ mov r4, r3 @ preserve fp

+ mov r5, r2 @ preserve magic

+ bl AES_decrypt

+ vld1.8 {q0}, [sp,:128]

+ veor q0, q0, q8

+ vst1.8 {q0}, [r8]!

+ mov r3, r4

+ mov r2, r5

+ vmov q8, q9 @ next round tweak

+.Lxts_dec_done:

+#ifndef XTS_CHAIN_TWEAK

+ adds r9, #0x10

+ beq .Lxts_dec_ret

+ @ calculate one round of extra tweak for the stolen ciphertext

+ vldmia r2, {q5}

+ vshr.s64 q6, q8, #63

+ vand q6, q6, q5

+ vadd.u64 q9, q8, q8

+ vswp d13,d12

+ veor q9, q9, q6

+ @ perform the final decryption with the last tweak value

+ vld1.8 {q0}, [r7]!

+ mov r0, sp

+ veor q0, q0, q9

+ mov r1, sp

+ vst1.8 {q0}, [sp,:128]

+ mov r2, r10

+ mov r4, r3 @ preserve fp

+ bl AES_decrypt

+ vld1.8 {q0}, [sp,:128]

+ veor q0, q0, q9

+ vst1.8 {q0}, [r8]

+ mov r6, r8

+.Lxts_dec_steal:

+ ldrb r1, [r8]

+ ldrb r0, [r7], #1

+ strb r1, [r8, #0x10]

+ strb r0, [r8], #1

+ subs r9, #1

+ bhi .Lxts_dec_steal

+ vld1.8 {q0}, [r6]

+ mov r0, sp

+ veor q0, q8

+ mov r1, sp

+ vst1.8 {q0}, [sp,:128]

+ mov r2, r10

+ bl AES_decrypt

+ vld1.8 {q0}, [sp,:128]

+ veor q0, q0, q8

+ vst1.8 {q0}, [r6]

+ mov r3, r4

+#endif

+.Lxts_dec_ret:

+ bic r0, r3, #0xf

+ vmov.i32 q0, #0

+ vmov.i32 q1, #0

+#ifdef XTS_CHAIN_TWEAK

+ ldr r1, [r3, #0x20+VFP_ABI_FRAME] @ chain tweak

+#endif

+.Lxts_dec_bzero: @ wipe key schedule [if any]

+ vstmia sp!, {q0-q1}

+ cmp sp, r0

+ bne .Lxts_dec_bzero

+ mov sp, r3

+#ifdef XTS_CHAIN_TWEAK

+ vst1.8 {q8}, [r1]

+#endif

+ VFP_ABI_POP

+ ldmia sp!, {r4-r10, pc} @ return

+.size bsaes_xts_decrypt,.-bsaes_xts_decrypt

+#endif

« no previous file with comments | « third_party/boringssl/linux-arm/crypto/aes/aes-armv4.S ('k') | third_party/boringssl/linux-arm/crypto/bn/armv4-mont.S » ('j') | no next file with comments »