third_party/boringssl/linux-arm/crypto/chacha/chacha-armv4.S - Issue 2219933002: Land BoringSSL roll on master

Side by Side Diff: third_party/boringssl/linux-arm/crypto/chacha/chacha-armv4.S

Issue 2219933002: Land BoringSSL roll on master (Closed) Base URL: git@github.com:dart-lang/sdk.git@master

Patch Set: Created 4 years, 4 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

OLD	NEW
(Empty)
	1 #if defined(__arm__)

	2 #include <openssl/arm_arch.h>

	3

	4 .text

	5 #if defined(__thumb2__)

	6 .syntax unified

	7 .thumb

	8 #else

	9 .code 32

	10 #endif

	11

	12 #if defined(__thumb2__) \|\| defined(__clang__)

	13 #define ldrhsb ldrbhs

	14 #endif

	15

	16 .align 5

	17 .Lsigma:

	18 .long 0x61707865,0x3320646e,0x79622d32,0x6b206574 @ endian-neutral

	19 .Lone:

	20 .long 1,0,0,0

	21 #if __ARM_MAX_ARCH__>=7

	22 .LOPENSSL_armcap:

	23 .word OPENSSL_armcap_P-.LChaCha20_ctr32

	24 #else

	25 .word -1

	26 #endif

	27

	28 .globl ChaCha20_ctr32

	29 .hidden ChaCha20_ctr32

	30 .type ChaCha20_ctr32,%function

	31 .align 5

	32 ChaCha20_ctr32:

	33 .LChaCha20_ctr32:

	34 ldr r12,[sp,#0] @ pull pointer to counter and nonce

	35 stmdb sp!,{r0,r1,r2,r4-r11,lr}

	36 #if __ARM_ARCH__<7 && !defined(__thumb2__)

	37 sub r14,pc,#16 @ ChaCha20_ctr32

	38 #else

	39 adr r14,.LChaCha20_ctr32

	40 #endif

	41 cmp r2,#0 @ len==0?

	42 #ifdef __thumb2__

	43 itt eq

	44 #endif

	45 addeq sp,sp,#4*3

	46 beq .Lno_data

	47 #if __ARM_MAX_ARCH__>=7

	48 cmp r2,#192 @ test len

	49 bls .Lshort

	50 ldr r4,[r14,#-32]

	51 ldr r4,[r14,r4]

	52 # ifdef __APPLE__

	53 ldr r4,[r4]

	54 # endif

	55 tst r4,#ARMV7_NEON

	56 bne .LChaCha20_neon

	57 .Lshort:

	58 #endif

	59 ldmia r12,{r4,r5,r6,r7} @ load counter and nonce

	60 sub sp,sp,#4*(16) @ off-load area

	61 sub r14,r14,#64 @ .Lsigma

	62 stmdb sp!,{r4,r5,r6,r7} @ copy counter and nonce

	63 ldmia r3,{r4,r5,r6,r7,r8,r9,r10,r11} @ load key

	64 ldmia r14,{r0,r1,r2,r3} @ load sigma

	65 stmdb sp!,{r4,r5,r6,r7,r8,r9,r10,r11} @ copy key

	66 stmdb sp!,{r0,r1,r2,r3} @ copy sigma

	67 str r10,[sp,#4*(16+10)] @ off-load "rx"

	68 str r11,[sp,#4*(16+11)] @ off-load "rx"

	69 b .Loop_outer_enter

	70

	71 .align 4

	72 .Loop_outer:

	73 ldmia sp,{r0,r1,r2,r3,r4,r5,r6,r7,r8,r9} @ load key mater ial

	74 str r11,[sp,#4*(32+2)] @ save len

	75 str r12, [sp,#4*(32+1)] @ save inp

	76 str r14, [sp,#4*(32+0)] @ save out

	77 .Loop_outer_enter:

	78 ldr r11, [sp,#4*(15)]

	79 ldr r12,[sp,#4*(12)] @ modulo-scheduled load

	80 ldr r10, [sp,#4*(13)]

	81 ldr r14,[sp,#4*(14)]

	82 str r11, [sp,#4*(16+15)]

	83 mov r11,#10

	84 b .Loop

	85

	86 .align 4

	87 .Loop:

	88 subs r11,r11,#1

	89 add r0,r0,r4

	90 mov r12,r12,ror#16

	91 add r1,r1,r5

	92 mov r10,r10,ror#16

	93 eor r12,r12,r0,ror#16

	94 eor r10,r10,r1,ror#16

	95 add r8,r8,r12

	96 mov r4,r4,ror#20

	97 add r9,r9,r10

	98 mov r5,r5,ror#20

	99 eor r4,r4,r8,ror#20

	100 eor r5,r5,r9,ror#20

	101 add r0,r0,r4

	102 mov r12,r12,ror#24

	103 add r1,r1,r5

	104 mov r10,r10,ror#24

	105 eor r12,r12,r0,ror#24

	106 eor r10,r10,r1,ror#24

	107 add r8,r8,r12

	108 mov r4,r4,ror#25

	109 add r9,r9,r10

	110 mov r5,r5,ror#25

	111 str r10,[sp,#4*(16+13)]

	112 ldr r10,[sp,#4*(16+15)]

	113 eor r4,r4,r8,ror#25

	114 eor r5,r5,r9,ror#25

	115 str r8,[sp,#4*(16+8)]

	116 ldr r8,[sp,#4*(16+10)]

	117 add r2,r2,r6

	118 mov r14,r14,ror#16

	119 str r9,[sp,#4*(16+9)]

	120 ldr r9,[sp,#4*(16+11)]

	121 add r3,r3,r7

	122 mov r10,r10,ror#16

	123 eor r14,r14,r2,ror#16

	124 eor r10,r10,r3,ror#16

	125 add r8,r8,r14

	126 mov r6,r6,ror#20

	127 add r9,r9,r10

	128 mov r7,r7,ror#20

	129 eor r6,r6,r8,ror#20

	130 eor r7,r7,r9,ror#20

	131 add r2,r2,r6

	132 mov r14,r14,ror#24

	133 add r3,r3,r7

	134 mov r10,r10,ror#24

	135 eor r14,r14,r2,ror#24

	136 eor r10,r10,r3,ror#24

	137 add r8,r8,r14

	138 mov r6,r6,ror#25

	139 add r9,r9,r10

	140 mov r7,r7,ror#25

	141 eor r6,r6,r8,ror#25

	142 eor r7,r7,r9,ror#25

	143 add r0,r0,r5

	144 mov r10,r10,ror#16

	145 add r1,r1,r6

	146 mov r12,r12,ror#16

	147 eor r10,r10,r0,ror#16

	148 eor r12,r12,r1,ror#16

	149 add r8,r8,r10

	150 mov r5,r5,ror#20

	151 add r9,r9,r12

	152 mov r6,r6,ror#20

	153 eor r5,r5,r8,ror#20

	154 eor r6,r6,r9,ror#20

	155 add r0,r0,r5

	156 mov r10,r10,ror#24

	157 add r1,r1,r6

	158 mov r12,r12,ror#24

	159 eor r10,r10,r0,ror#24

	160 eor r12,r12,r1,ror#24

	161 add r8,r8,r10

	162 mov r5,r5,ror#25

	163 str r10,[sp,#4*(16+15)]

	164 ldr r10,[sp,#4*(16+13)]

	165 add r9,r9,r12

	166 mov r6,r6,ror#25

	167 eor r5,r5,r8,ror#25

	168 eor r6,r6,r9,ror#25

	169 str r8,[sp,#4*(16+10)]

	170 ldr r8,[sp,#4*(16+8)]

	171 add r2,r2,r7

	172 mov r10,r10,ror#16

	173 str r9,[sp,#4*(16+11)]

	174 ldr r9,[sp,#4*(16+9)]

	175 add r3,r3,r4

	176 mov r14,r14,ror#16

	177 eor r10,r10,r2,ror#16

	178 eor r14,r14,r3,ror#16

	179 add r8,r8,r10

	180 mov r7,r7,ror#20

	181 add r9,r9,r14

	182 mov r4,r4,ror#20

	183 eor r7,r7,r8,ror#20

	184 eor r4,r4,r9,ror#20

	185 add r2,r2,r7

	186 mov r10,r10,ror#24

	187 add r3,r3,r4

	188 mov r14,r14,ror#24

	189 eor r10,r10,r2,ror#24

	190 eor r14,r14,r3,ror#24

	191 add r8,r8,r10

	192 mov r7,r7,ror#25

	193 add r9,r9,r14

	194 mov r4,r4,ror#25

	195 eor r7,r7,r8,ror#25

	196 eor r4,r4,r9,ror#25

	197 bne .Loop

	198

	199 ldr r11,[sp,#4*(32+2)] @ load len

	200

	201 str r8, [sp,#4*(16+8)] @ modulo-scheduled store

	202 str r9, [sp,#4*(16+9)]

	203 str r12,[sp,#4*(16+12)]

	204 str r10, [sp,#4*(16+13)]

	205 str r14,[sp,#4*(16+14)]

	206

	207 @ at this point we have first half of 512-bit result in

	208 @ rx and second half at sp+4*(16+8)

	209

	210 cmp r11,#64 @ done yet?

	211 #ifdef __thumb2__

	212 itete lo

	213 #endif

	214 addlo r12,sp,#4*(0) @ shortcut or ...

	215 ldrhs r12,[sp,#4*(32+1)] @ ... load inp

	216 addlo r14,sp,#4*(0) @ shortcut or ...

	217 ldrhs r14,[sp,#4*(32+0)] @ ... load out

	218

	219 ldr r8,[sp,#4*(0)] @ load key material

	220 ldr r9,[sp,#4*(1)]

	221

	222 #if __ARM_ARCH__>=6 \|\| !defined(__ARMEB__)

	223 # if __ARM_ARCH__<7

	224 orr r10,r12,r14

	225 tst r10,#3 @ are input and output aligned?

	226 ldr r10,[sp,#4*(2)]

	227 bne .Lunaligned

	228 cmp r11,#64 @ restore flags

	229 # else

	230 ldr r10,[sp,#4*(2)]

	231 # endif

	232 ldr r11,[sp,#4*(3)]

	233

	234 add r0,r0,r8 @ accumulate key material

	235 add r1,r1,r9

	236 # ifdef __thumb2__

	237 itt hs

	238 # endif

	239 ldrhs r8,[r12],#16 @ load input

	240 ldrhs r9,[r12,#-12]

	241

	242 add r2,r2,r10

	243 add r3,r3,r11

	244 # ifdef __thumb2__

	245 itt hs

	246 # endif

	247 ldrhs r10,[r12,#-8]

	248 ldrhs r11,[r12,#-4]

	249 # if __ARM_ARCH__>=6 && defined(__ARMEB__)

	250 rev r0,r0

	251 rev r1,r1

	252 rev r2,r2

	253 rev r3,r3

	254 # endif

	255 # ifdef __thumb2__

	256 itt hs

	257 # endif

	258 eorhs r0,r0,r8 @ xor with input

	259 eorhs r1,r1,r9

	260 add r8,sp,#4*(4)

	261 str r0,[r14],#16 @ store output

	262 # ifdef __thumb2__

	263 itt hs

	264 # endif

	265 eorhs r2,r2,r10

	266 eorhs r3,r3,r11

	267 ldmia r8,{r8,r9,r10,r11} @ load key material

	268 str r1,[r14,#-12]

	269 str r2,[r14,#-8]

	270 str r3,[r14,#-4]

	271

	272 add r4,r4,r8 @ accumulate key material

	273 add r5,r5,r9

	274 # ifdef __thumb2__

	275 itt hs

	276 # endif

	277 ldrhs r8,[r12],#16 @ load input

	278 ldrhs r9,[r12,#-12]

	279 add r6,r6,r10

	280 add r7,r7,r11

	281 # ifdef __thumb2__

	282 itt hs

	283 # endif

	284 ldrhs r10,[r12,#-8]

	285 ldrhs r11,[r12,#-4]

	286 # if __ARM_ARCH__>=6 && defined(__ARMEB__)

	287 rev r4,r4

	288 rev r5,r5

	289 rev r6,r6

	290 rev r7,r7

	291 # endif

	292 # ifdef __thumb2__

	293 itt hs

	294 # endif

	295 eorhs r4,r4,r8

	296 eorhs r5,r5,r9

	297 add r8,sp,#4*(8)

	298 str r4,[r14],#16 @ store output

	299 # ifdef __thumb2__

	300 itt hs

	301 # endif

	302 eorhs r6,r6,r10

	303 eorhs r7,r7,r11

	304 str r5,[r14,#-12]

	305 ldmia r8,{r8,r9,r10,r11} @ load key material

	306 str r6,[r14,#-8]

	307 add r0,sp,#4*(16+8)

	308 str r7,[r14,#-4]

	309

	310 ldmia r0,{r0,r1,r2,r3,r4,r5,r6,r7} @ load second half

	311

	312 add r0,r0,r8 @ accumulate key material

	313 add r1,r1,r9

	314 # ifdef __thumb2__

	315 itt hs

	316 # endif

	317 ldrhs r8,[r12],#16 @ load input

	318 ldrhs r9,[r12,#-12]

	319 # ifdef __thumb2__

	320 itt hi

	321 # endif

	322 strhi r10,[sp,#4*(16+10)] @ copy "rx" while at it

	323 strhi r11,[sp,#4*(16+11)] @ copy "rx" while at it

	324 add r2,r2,r10

	325 add r3,r3,r11

	326 # ifdef __thumb2__

	327 itt hs

	328 # endif

	329 ldrhs r10,[r12,#-8]

	330 ldrhs r11,[r12,#-4]

	331 # if __ARM_ARCH__>=6 && defined(__ARMEB__)

	332 rev r0,r0

	333 rev r1,r1

	334 rev r2,r2

	335 rev r3,r3

	336 # endif

	337 # ifdef __thumb2__

	338 itt hs

	339 # endif

	340 eorhs r0,r0,r8

	341 eorhs r1,r1,r9

	342 add r8,sp,#4*(12)

	343 str r0,[r14],#16 @ store output

	344 # ifdef __thumb2__

	345 itt hs

	346 # endif

	347 eorhs r2,r2,r10

	348 eorhs r3,r3,r11

	349 str r1,[r14,#-12]

	350 ldmia r8,{r8,r9,r10,r11} @ load key material

	351 str r2,[r14,#-8]

	352 str r3,[r14,#-4]

	353

	354 add r4,r4,r8 @ accumulate key material

	355 add r5,r5,r9

	356 # ifdef __thumb2__

	357 itt hi

	358 # endif

	359 addhi r8,r8,#1 @ next counter value

	360 strhi r8,[sp,#4*(12)] @ save next counter value

	361 # ifdef __thumb2__

	362 itt hs

	363 # endif

	364 ldrhs r8,[r12],#16 @ load input

	365 ldrhs r9,[r12,#-12]

	366 add r6,r6,r10

	367 add r7,r7,r11

	368 # ifdef __thumb2__

	369 itt hs

	370 # endif

	371 ldrhs r10,[r12,#-8]

	372 ldrhs r11,[r12,#-4]

	373 # if __ARM_ARCH__>=6 && defined(__ARMEB__)

	374 rev r4,r4

	375 rev r5,r5

	376 rev r6,r6

	377 rev r7,r7

	378 # endif

	379 # ifdef __thumb2__

	380 itt hs

	381 # endif

	382 eorhs r4,r4,r8

	383 eorhs r5,r5,r9

	384 # ifdef __thumb2__

	385 it ne

	386 # endif

	387 ldrne r8,[sp,#4*(32+2)] @ re-load len

	388 # ifdef __thumb2__

	389 itt hs

	390 # endif

	391 eorhs r6,r6,r10

	392 eorhs r7,r7,r11

	393 str r4,[r14],#16 @ store output

	394 str r5,[r14,#-12]

	395 # ifdef __thumb2__

	396 it hs

	397 # endif

	398 subhs r11,r8,#64 @ len-=64

	399 str r6,[r14,#-8]

	400 str r7,[r14,#-4]

	401 bhi .Loop_outer

	402

	403 beq .Ldone

	404 # if __ARM_ARCH__<7

	405 b .Ltail

	406

	407 .align 4

	408 .Lunaligned:@ unaligned endian-neutral path

	409 cmp r11,#64 @ restore flags

	410 # endif

	411 #endif

	412 #if __ARM_ARCH__<7

	413 ldr r11,[sp,#4*(3)]

	414 add r0,r0,r8 @ accumulate key material

	415 add r1,r1,r9

	416 add r2,r2,r10

	417 # ifdef __thumb2__

	418 itete lo

	419 # endif

	420 eorlo r8,r8,r8 @ zero or ...

	421 ldrhsb r8,[r12],#16 @ ... load input

	422 eorlo r9,r9,r9

	423 ldrhsb r9,[r12,#-12]

	424

	425 add r3,r3,r11

	426 # ifdef __thumb2__

	427 itete lo

	428 # endif

	429 eorlo r10,r10,r10

	430 ldrhsb r10,[r12,#-8]

	431 eorlo r11,r11,r11

	432 ldrhsb r11,[r12,#-4]

	433

	434 eor r0,r8,r0 @ xor with input (or zero)

	435 eor r1,r9,r1

	436 # ifdef __thumb2__

	437 itt hs

	438 # endif

	439 ldrhsb r8,[r12,#-15] @ load more input

	440 ldrhsb r9,[r12,#-11]

	441 eor r2,r10,r2

	442 strb r0,[r14],#16 @ store output

	443 eor r3,r11,r3

	444 # ifdef __thumb2__

	445 itt hs

	446 # endif

	447 ldrhsb r10,[r12,#-7]

	448 ldrhsb r11,[r12,#-3]

	449 strb r1,[r14,#-12]

	450 eor r0,r8,r0,lsr#8

	451 strb r2,[r14,#-8]

	452 eor r1,r9,r1,lsr#8

	453 # ifdef __thumb2__

	454 itt hs

	455 # endif

	456 ldrhsb r8,[r12,#-14] @ load more input

	457 ldrhsb r9,[r12,#-10]

	458 strb r3,[r14,#-4]

	459 eor r2,r10,r2,lsr#8

	460 strb r0,[r14,#-15]

	461 eor r3,r11,r3,lsr#8

	462 # ifdef __thumb2__

	463 itt hs

	464 # endif

	465 ldrhsb r10,[r12,#-6]

	466 ldrhsb r11,[r12,#-2]

	467 strb r1,[r14,#-11]

	468 eor r0,r8,r0,lsr#8

	469 strb r2,[r14,#-7]

	470 eor r1,r9,r1,lsr#8

	471 # ifdef __thumb2__

	472 itt hs

	473 # endif

	474 ldrhsb r8,[r12,#-13] @ load more input

	475 ldrhsb r9,[r12,#-9]

	476 strb r3,[r14,#-3]

	477 eor r2,r10,r2,lsr#8

	478 strb r0,[r14,#-14]

	479 eor r3,r11,r3,lsr#8

	480 # ifdef __thumb2__

	481 itt hs

	482 # endif

	483 ldrhsb r10,[r12,#-5]

	484 ldrhsb r11,[r12,#-1]

	485 strb r1,[r14,#-10]

	486 strb r2,[r14,#-6]

	487 eor r0,r8,r0,lsr#8

	488 strb r3,[r14,#-2]

	489 eor r1,r9,r1,lsr#8

	490 strb r0,[r14,#-13]

	491 eor r2,r10,r2,lsr#8

	492 strb r1,[r14,#-9]

	493 eor r3,r11,r3,lsr#8

	494 strb r2,[r14,#-5]

	495 strb r3,[r14,#-1]

	496 add r8,sp,#4*(4+0)

	497 ldmia r8,{r8,r9,r10,r11} @ load key material

	498 add r0,sp,#4*(16+8)

	499 add r4,r4,r8 @ accumulate key material

	500 add r5,r5,r9

	501 add r6,r6,r10

	502 # ifdef __thumb2__

	503 itete lo

	504 # endif

	505 eorlo r8,r8,r8 @ zero or ...

	506 ldrhsb r8,[r12],#16 @ ... load input

	507 eorlo r9,r9,r9

	508 ldrhsb r9,[r12,#-12]

	509

	510 add r7,r7,r11

	511 # ifdef __thumb2__

	512 itete lo

	513 # endif

	514 eorlo r10,r10,r10

	515 ldrhsb r10,[r12,#-8]

	516 eorlo r11,r11,r11

	517 ldrhsb r11,[r12,#-4]

	518

	519 eor r4,r8,r4 @ xor with input (or zero)

	520 eor r5,r9,r5

	521 # ifdef __thumb2__

	522 itt hs

	523 # endif

	524 ldrhsb r8,[r12,#-15] @ load more input

	525 ldrhsb r9,[r12,#-11]

	526 eor r6,r10,r6

	527 strb r4,[r14],#16 @ store output

	528 eor r7,r11,r7

	529 # ifdef __thumb2__

	530 itt hs

	531 # endif

	532 ldrhsb r10,[r12,#-7]

	533 ldrhsb r11,[r12,#-3]

	534 strb r5,[r14,#-12]

	535 eor r4,r8,r4,lsr#8

	536 strb r6,[r14,#-8]

	537 eor r5,r9,r5,lsr#8

	538 # ifdef __thumb2__

	539 itt hs

	540 # endif

	541 ldrhsb r8,[r12,#-14] @ load more input

	542 ldrhsb r9,[r12,#-10]

	543 strb r7,[r14,#-4]

	544 eor r6,r10,r6,lsr#8

	545 strb r4,[r14,#-15]

	546 eor r7,r11,r7,lsr#8

	547 # ifdef __thumb2__

	548 itt hs

	549 # endif

	550 ldrhsb r10,[r12,#-6]

	551 ldrhsb r11,[r12,#-2]

	552 strb r5,[r14,#-11]

	553 eor r4,r8,r4,lsr#8

	554 strb r6,[r14,#-7]

	555 eor r5,r9,r5,lsr#8

	556 # ifdef __thumb2__

	557 itt hs

	558 # endif

	559 ldrhsb r8,[r12,#-13] @ load more input

	560 ldrhsb r9,[r12,#-9]

	561 strb r7,[r14,#-3]

	562 eor r6,r10,r6,lsr#8

	563 strb r4,[r14,#-14]

	564 eor r7,r11,r7,lsr#8

	565 # ifdef __thumb2__

	566 itt hs

	567 # endif

	568 ldrhsb r10,[r12,#-5]

	569 ldrhsb r11,[r12,#-1]

	570 strb r5,[r14,#-10]

	571 strb r6,[r14,#-6]

	572 eor r4,r8,r4,lsr#8

	573 strb r7,[r14,#-2]

	574 eor r5,r9,r5,lsr#8

	575 strb r4,[r14,#-13]

	576 eor r6,r10,r6,lsr#8

	577 strb r5,[r14,#-9]

	578 eor r7,r11,r7,lsr#8

	579 strb r6,[r14,#-5]

	580 strb r7,[r14,#-1]

	581 add r8,sp,#4*(4+4)

	582 ldmia r8,{r8,r9,r10,r11} @ load key material

	583 ldmia r0,{r0,r1,r2,r3,r4,r5,r6,r7} @ load second half

	584 # ifdef __thumb2__

	585 itt hi

	586 # endif

	587 strhi r10,[sp,#4*(16+10)] @ copy "rx"

	588 strhi r11,[sp,#4*(16+11)] @ copy "rx"

	589 add r0,r0,r8 @ accumulate key material

	590 add r1,r1,r9

	591 add r2,r2,r10

	592 # ifdef __thumb2__

	593 itete lo

	594 # endif

	595 eorlo r8,r8,r8 @ zero or ...

	596 ldrhsb r8,[r12],#16 @ ... load input

	597 eorlo r9,r9,r9

	598 ldrhsb r9,[r12,#-12]

	599

	600 add r3,r3,r11

	601 # ifdef __thumb2__

	602 itete lo

	603 # endif

	604 eorlo r10,r10,r10

	605 ldrhsb r10,[r12,#-8]

	606 eorlo r11,r11,r11

	607 ldrhsb r11,[r12,#-4]

	608

	609 eor r0,r8,r0 @ xor with input (or zero)

	610 eor r1,r9,r1

	611 # ifdef __thumb2__

	612 itt hs

	613 # endif

	614 ldrhsb r8,[r12,#-15] @ load more input

	615 ldrhsb r9,[r12,#-11]

	616 eor r2,r10,r2

	617 strb r0,[r14],#16 @ store output

	618 eor r3,r11,r3

	619 # ifdef __thumb2__

	620 itt hs

	621 # endif

	622 ldrhsb r10,[r12,#-7]

	623 ldrhsb r11,[r12,#-3]

	624 strb r1,[r14,#-12]

	625 eor r0,r8,r0,lsr#8

	626 strb r2,[r14,#-8]

	627 eor r1,r9,r1,lsr#8

	628 # ifdef __thumb2__

	629 itt hs

	630 # endif

	631 ldrhsb r8,[r12,#-14] @ load more input

	632 ldrhsb r9,[r12,#-10]

	633 strb r3,[r14,#-4]

	634 eor r2,r10,r2,lsr#8

	635 strb r0,[r14,#-15]

	636 eor r3,r11,r3,lsr#8

	637 # ifdef __thumb2__

	638 itt hs

	639 # endif

	640 ldrhsb r10,[r12,#-6]

	641 ldrhsb r11,[r12,#-2]

	642 strb r1,[r14,#-11]

	643 eor r0,r8,r0,lsr#8

	644 strb r2,[r14,#-7]

	645 eor r1,r9,r1,lsr#8

	646 # ifdef __thumb2__

	647 itt hs

	648 # endif

	649 ldrhsb r8,[r12,#-13] @ load more input

	650 ldrhsb r9,[r12,#-9]

	651 strb r3,[r14,#-3]

	652 eor r2,r10,r2,lsr#8

	653 strb r0,[r14,#-14]

	654 eor r3,r11,r3,lsr#8

	655 # ifdef __thumb2__

	656 itt hs

	657 # endif

	658 ldrhsb r10,[r12,#-5]

	659 ldrhsb r11,[r12,#-1]

	660 strb r1,[r14,#-10]

	661 strb r2,[r14,#-6]

	662 eor r0,r8,r0,lsr#8

	663 strb r3,[r14,#-2]

	664 eor r1,r9,r1,lsr#8

	665 strb r0,[r14,#-13]

	666 eor r2,r10,r2,lsr#8

	667 strb r1,[r14,#-9]

	668 eor r3,r11,r3,lsr#8

	669 strb r2,[r14,#-5]

	670 strb r3,[r14,#-1]

	671 add r8,sp,#4*(4+8)

	672 ldmia r8,{r8,r9,r10,r11} @ load key material

	673 add r4,r4,r8 @ accumulate key material

	674 # ifdef __thumb2__

	675 itt hi

	676 # endif

	677 addhi r8,r8,#1 @ next counter value

	678 strhi r8,[sp,#4*(12)] @ save next counter value

	679 add r5,r5,r9

	680 add r6,r6,r10

	681 # ifdef __thumb2__

	682 itete lo

	683 # endif

	684 eorlo r8,r8,r8 @ zero or ...

	685 ldrhsb r8,[r12],#16 @ ... load input

	686 eorlo r9,r9,r9

	687 ldrhsb r9,[r12,#-12]

	688

	689 add r7,r7,r11

	690 # ifdef __thumb2__

	691 itete lo

	692 # endif

	693 eorlo r10,r10,r10

	694 ldrhsb r10,[r12,#-8]

	695 eorlo r11,r11,r11

	696 ldrhsb r11,[r12,#-4]

	697

	698 eor r4,r8,r4 @ xor with input (or zero)

	699 eor r5,r9,r5

	700 # ifdef __thumb2__

	701 itt hs

	702 # endif

	703 ldrhsb r8,[r12,#-15] @ load more input

	704 ldrhsb r9,[r12,#-11]

	705 eor r6,r10,r6

	706 strb r4,[r14],#16 @ store output

	707 eor r7,r11,r7

	708 # ifdef __thumb2__

	709 itt hs

	710 # endif

	711 ldrhsb r10,[r12,#-7]

	712 ldrhsb r11,[r12,#-3]

	713 strb r5,[r14,#-12]

	714 eor r4,r8,r4,lsr#8

	715 strb r6,[r14,#-8]

	716 eor r5,r9,r5,lsr#8

	717 # ifdef __thumb2__

	718 itt hs

	719 # endif

	720 ldrhsb r8,[r12,#-14] @ load more input

	721 ldrhsb r9,[r12,#-10]

	722 strb r7,[r14,#-4]

	723 eor r6,r10,r6,lsr#8

	724 strb r4,[r14,#-15]

	725 eor r7,r11,r7,lsr#8

	726 # ifdef __thumb2__

	727 itt hs

	728 # endif

	729 ldrhsb r10,[r12,#-6]

	730 ldrhsb r11,[r12,#-2]

	731 strb r5,[r14,#-11]

	732 eor r4,r8,r4,lsr#8

	733 strb r6,[r14,#-7]

	734 eor r5,r9,r5,lsr#8

	735 # ifdef __thumb2__

	736 itt hs

	737 # endif

	738 ldrhsb r8,[r12,#-13] @ load more input

	739 ldrhsb r9,[r12,#-9]

	740 strb r7,[r14,#-3]

	741 eor r6,r10,r6,lsr#8

	742 strb r4,[r14,#-14]

	743 eor r7,r11,r7,lsr#8

	744 # ifdef __thumb2__

	745 itt hs

	746 # endif

	747 ldrhsb r10,[r12,#-5]

	748 ldrhsb r11,[r12,#-1]

	749 strb r5,[r14,#-10]

	750 strb r6,[r14,#-6]

	751 eor r4,r8,r4,lsr#8

	752 strb r7,[r14,#-2]

	753 eor r5,r9,r5,lsr#8

	754 strb r4,[r14,#-13]

	755 eor r6,r10,r6,lsr#8

	756 strb r5,[r14,#-9]

	757 eor r7,r11,r7,lsr#8

	758 strb r6,[r14,#-5]

	759 strb r7,[r14,#-1]

	760 # ifdef __thumb2__

	761 it ne

	762 # endif

	763 ldrne r8,[sp,#4*(32+2)] @ re-load len

	764 # ifdef __thumb2__

	765 it hs

	766 # endif

	767 subhs r11,r8,#64 @ len-=64

	768 bhi .Loop_outer

	769

	770 beq .Ldone

	771 #endif

	772

	773 .Ltail:

	774 ldr r12,[sp,#4*(32+1)] @ load inp

	775 add r9,sp,#4*(0)

	776 ldr r14,[sp,#4*(32+0)] @ load out

	777

	778 .Loop_tail:

	779 ldrb r10,[r9],#1 @ read buffer on stack

	780 ldrb r11,[r12],#1 @ read input

	781 subs r8,r8,#1

	782 eor r11,r11,r10

	783 strb r11,[r14],#1 @ store output

	784 bne .Loop_tail

	785

	786 .Ldone:

	787 add sp,sp,#4*(32+3)

	788 .Lno_data:

	789 ldmia sp!,{r4,r5,r6,r7,r8,r9,r10,r11,pc}

	790 .size ChaCha20_ctr32,.-ChaCha20_ctr32

	791 #if __ARM_MAX_ARCH__>=7

	792 .arch armv7-a

	793 .fpu neon

	794

	795 .type ChaCha20_neon,%function

	796 .align 5

	797 ChaCha20_neon:

	798 ldr r12,[sp,#0] @ pull pointer to counter and nonce

	799 stmdb sp!,{r0,r1,r2,r4-r11,lr}

	800 .LChaCha20_neon:

	801 adr r14,.Lsigma

	802 vstmdb sp!,{d8,d9,d10,d11,d12,d13,d14,d15} @ ABI spec says so

	803 stmdb sp!,{r0,r1,r2,r3}

	804

	805 vld1.32 {q1,q2},[r3] @ load key

	806 ldmia r3,{r4,r5,r6,r7,r8,r9,r10,r11} @ load key

	807

	808 sub sp,sp,#4*(16+16)

	809 vld1.32 {q3},[r12] @ load counter and nonce

	810 add r12,sp,#4*8

	811 ldmia r14,{r0,r1,r2,r3} @ load sigma

	812 vld1.32 {q0},[r14]! @ load sigma

	813 vld1.32 {q12},[r14] @ one

	814 vst1.32 {q2,q3},[r12] @ copy 1/2key\|counter\|nonce

	815 vst1.32 {q0,q1},[sp] @ copy sigma\|1/2key

	816

	817 str r10,[sp,#4*(16+10)] @ off-load "rx"

	818 str r11,[sp,#4*(16+11)] @ off-load "rx"

	819 vshl.i32 d26,d24,#1 @ two

	820 vstr d24,[sp,#4*(16+0)]

	821 vshl.i32 d28,d24,#2 @ four

	822 vstr d26,[sp,#4*(16+2)]

	823 vmov q4,q0

	824 vstr d28,[sp,#4*(16+4)]

	825 vmov q8,q0

	826 vmov q5,q1

	827 vmov q9,q1

	828 b .Loop_neon_enter

	829

	830 .align 4

	831 .Loop_neon_outer:

	832 ldmia sp,{r0,r1,r2,r3,r4,r5,r6,r7,r8,r9} @ load key mater ial

	833 cmp r11,#642 @ if len<=642

	834 bls .Lbreak_neon @ switch to integer-only

	835 vmov q4,q0

	836 str r11,[sp,#4*(32+2)] @ save len

	837 vmov q8,q0

	838 str r12, [sp,#4*(32+1)] @ save inp

	839 vmov q5,q1

	840 str r14, [sp,#4*(32+0)] @ save out

	841 vmov q9,q1

	842 .Loop_neon_enter:

	843 ldr r11, [sp,#4*(15)]

	844 vadd.i32 q7,q3,q12 @ counter+1

	845 ldr r12,[sp,#4*(12)] @ modulo-scheduled load

	846 vmov q6,q2

	847 ldr r10, [sp,#4*(13)]

	848 vmov q10,q2

	849 ldr r14,[sp,#4*(14)]

	850 vadd.i32 q11,q7,q12 @ counter+2

	851 str r11, [sp,#4*(16+15)]

	852 mov r11,#10

	853 add r12,r12,#3 @ counter+3

	854 b .Loop_neon

	855

	856 .align 4

	857 .Loop_neon:

	858 subs r11,r11,#1

	859 vadd.i32 q0,q0,q1

	860 add r0,r0,r4

	861 vadd.i32 q4,q4,q5

	862 mov r12,r12,ror#16

	863 vadd.i32 q8,q8,q9

	864 add r1,r1,r5

	865 veor q3,q3,q0

	866 mov r10,r10,ror#16

	867 veor q7,q7,q4

	868 eor r12,r12,r0,ror#16

	869 veor q11,q11,q8

	870 eor r10,r10,r1,ror#16

	871 vrev32.16 q3,q3

	872 add r8,r8,r12

	873 vrev32.16 q7,q7

	874 mov r4,r4,ror#20

	875 vrev32.16 q11,q11

	876 add r9,r9,r10

	877 vadd.i32 q2,q2,q3

	878 mov r5,r5,ror#20

	879 vadd.i32 q6,q6,q7

	880 eor r4,r4,r8,ror#20

	881 vadd.i32 q10,q10,q11

	882 eor r5,r5,r9,ror#20

	883 veor q12,q1,q2

	884 add r0,r0,r4

	885 veor q13,q5,q6

	886 mov r12,r12,ror#24

	887 veor q14,q9,q10

	888 add r1,r1,r5

	889 vshr.u32 q1,q12,#20

	890 mov r10,r10,ror#24

	891 vshr.u32 q5,q13,#20

	892 eor r12,r12,r0,ror#24

	893 vshr.u32 q9,q14,#20

	894 eor r10,r10,r1,ror#24

	895 vsli.32 q1,q12,#12

	896 add r8,r8,r12

	897 vsli.32 q5,q13,#12

	898 mov r4,r4,ror#25

	899 vsli.32 q9,q14,#12

	900 add r9,r9,r10

	901 vadd.i32 q0,q0,q1

	902 mov r5,r5,ror#25

	903 vadd.i32 q4,q4,q5

	904 str r10,[sp,#4*(16+13)]

	905 vadd.i32 q8,q8,q9

	906 ldr r10,[sp,#4*(16+15)]

	907 veor q12,q3,q0

	908 eor r4,r4,r8,ror#25

	909 veor q13,q7,q4

	910 eor r5,r5,r9,ror#25

	911 veor q14,q11,q8

	912 str r8,[sp,#4*(16+8)]

	913 vshr.u32 q3,q12,#24

	914 ldr r8,[sp,#4*(16+10)]

	915 vshr.u32 q7,q13,#24

	916 add r2,r2,r6

	917 vshr.u32 q11,q14,#24

	918 mov r14,r14,ror#16

	919 vsli.32 q3,q12,#8

	920 str r9,[sp,#4*(16+9)]

	921 vsli.32 q7,q13,#8

	922 ldr r9,[sp,#4*(16+11)]

	923 vsli.32 q11,q14,#8

	924 add r3,r3,r7

	925 vadd.i32 q2,q2,q3

	926 mov r10,r10,ror#16

	927 vadd.i32 q6,q6,q7

	928 eor r14,r14,r2,ror#16

	929 vadd.i32 q10,q10,q11

	930 eor r10,r10,r3,ror#16

	931 veor q12,q1,q2

	932 add r8,r8,r14

	933 veor q13,q5,q6

	934 mov r6,r6,ror#20

	935 veor q14,q9,q10

	936 add r9,r9,r10

	937 vshr.u32 q1,q12,#25

	938 mov r7,r7,ror#20

	939 vshr.u32 q5,q13,#25

	940 eor r6,r6,r8,ror#20

	941 vshr.u32 q9,q14,#25

	942 eor r7,r7,r9,ror#20

	943 vsli.32 q1,q12,#7

	944 add r2,r2,r6

	945 vsli.32 q5,q13,#7

	946 mov r14,r14,ror#24

	947 vsli.32 q9,q14,#7

	948 add r3,r3,r7

	949 vext.8 q2,q2,q2,#8

	950 mov r10,r10,ror#24

	951 vext.8 q6,q6,q6,#8

	952 eor r14,r14,r2,ror#24

	953 vext.8 q10,q10,q10,#8

	954 eor r10,r10,r3,ror#24

	955 vext.8 q1,q1,q1,#4

	956 add r8,r8,r14

	957 vext.8 q5,q5,q5,#4

	958 mov r6,r6,ror#25

	959 vext.8 q9,q9,q9,#4

	960 add r9,r9,r10

	961 vext.8 q3,q3,q3,#12

	962 mov r7,r7,ror#25

	963 vext.8 q7,q7,q7,#12

	964 eor r6,r6,r8,ror#25

	965 vext.8 q11,q11,q11,#12

	966 eor r7,r7,r9,ror#25

	967 vadd.i32 q0,q0,q1

	968 add r0,r0,r5

	969 vadd.i32 q4,q4,q5

	970 mov r10,r10,ror#16

	971 vadd.i32 q8,q8,q9

	972 add r1,r1,r6

	973 veor q3,q3,q0

	974 mov r12,r12,ror#16

	975 veor q7,q7,q4

	976 eor r10,r10,r0,ror#16

	977 veor q11,q11,q8

	978 eor r12,r12,r1,ror#16

	979 vrev32.16 q3,q3

	980 add r8,r8,r10

	981 vrev32.16 q7,q7

	982 mov r5,r5,ror#20

	983 vrev32.16 q11,q11

	984 add r9,r9,r12

	985 vadd.i32 q2,q2,q3

	986 mov r6,r6,ror#20

	987 vadd.i32 q6,q6,q7

	988 eor r5,r5,r8,ror#20

	989 vadd.i32 q10,q10,q11

	990 eor r6,r6,r9,ror#20

	991 veor q12,q1,q2

	992 add r0,r0,r5

	993 veor q13,q5,q6

	994 mov r10,r10,ror#24

	995 veor q14,q9,q10

	996 add r1,r1,r6

	997 vshr.u32 q1,q12,#20

	998 mov r12,r12,ror#24

	999 vshr.u32 q5,q13,#20

	1000 eor r10,r10,r0,ror#24

	1001 vshr.u32 q9,q14,#20

	1002 eor r12,r12,r1,ror#24

	1003 vsli.32 q1,q12,#12

	1004 add r8,r8,r10

	1005 vsli.32 q5,q13,#12

	1006 mov r5,r5,ror#25

	1007 vsli.32 q9,q14,#12

	1008 str r10,[sp,#4*(16+15)]

	1009 vadd.i32 q0,q0,q1

	1010 ldr r10,[sp,#4*(16+13)]

	1011 vadd.i32 q4,q4,q5

	1012 add r9,r9,r12

	1013 vadd.i32 q8,q8,q9

	1014 mov r6,r6,ror#25

	1015 veor q12,q3,q0

	1016 eor r5,r5,r8,ror#25

	1017 veor q13,q7,q4

	1018 eor r6,r6,r9,ror#25

	1019 veor q14,q11,q8

	1020 str r8,[sp,#4*(16+10)]

	1021 vshr.u32 q3,q12,#24

	1022 ldr r8,[sp,#4*(16+8)]

	1023 vshr.u32 q7,q13,#24

	1024 add r2,r2,r7

	1025 vshr.u32 q11,q14,#24

	1026 mov r10,r10,ror#16

	1027 vsli.32 q3,q12,#8

	1028 str r9,[sp,#4*(16+11)]

	1029 vsli.32 q7,q13,#8

	1030 ldr r9,[sp,#4*(16+9)]

	1031 vsli.32 q11,q14,#8

	1032 add r3,r3,r4

	1033 vadd.i32 q2,q2,q3

	1034 mov r14,r14,ror#16

	1035 vadd.i32 q6,q6,q7

	1036 eor r10,r10,r2,ror#16

	1037 vadd.i32 q10,q10,q11

	1038 eor r14,r14,r3,ror#16

	1039 veor q12,q1,q2

	1040 add r8,r8,r10

	1041 veor q13,q5,q6

	1042 mov r7,r7,ror#20

	1043 veor q14,q9,q10

	1044 add r9,r9,r14

	1045 vshr.u32 q1,q12,#25

	1046 mov r4,r4,ror#20

	1047 vshr.u32 q5,q13,#25

	1048 eor r7,r7,r8,ror#20

	1049 vshr.u32 q9,q14,#25

	1050 eor r4,r4,r9,ror#20

	1051 vsli.32 q1,q12,#7

	1052 add r2,r2,r7

	1053 vsli.32 q5,q13,#7

	1054 mov r10,r10,ror#24

	1055 vsli.32 q9,q14,#7

	1056 add r3,r3,r4

	1057 vext.8 q2,q2,q2,#8

	1058 mov r14,r14,ror#24

	1059 vext.8 q6,q6,q6,#8

	1060 eor r10,r10,r2,ror#24

	1061 vext.8 q10,q10,q10,#8

	1062 eor r14,r14,r3,ror#24

	1063 vext.8 q1,q1,q1,#12

	1064 add r8,r8,r10

	1065 vext.8 q5,q5,q5,#12

	1066 mov r7,r7,ror#25

	1067 vext.8 q9,q9,q9,#12

	1068 add r9,r9,r14

	1069 vext.8 q3,q3,q3,#4

	1070 mov r4,r4,ror#25

	1071 vext.8 q7,q7,q7,#4

	1072 eor r7,r7,r8,ror#25

	1073 vext.8 q11,q11,q11,#4

	1074 eor r4,r4,r9,ror#25

	1075 bne .Loop_neon

	1076

	1077 add r11,sp,#32

	1078 vld1.32 {q12,q13},[sp] @ load key material

	1079 vld1.32 {q14,q15},[r11]

	1080

	1081 ldr r11,[sp,#4*(32+2)] @ load len

	1082

	1083 str r8, [sp,#4*(16+8)] @ modulo-scheduled store

	1084 str r9, [sp,#4*(16+9)]

	1085 str r12,[sp,#4*(16+12)]

	1086 str r10, [sp,#4*(16+13)]

	1087 str r14,[sp,#4*(16+14)]

	1088

	1089 @ at this point we have first half of 512-bit result in

	1090 @ rx and second half at sp+4*(16+8)

	1091

	1092 ldr r12,[sp,#4*(32+1)] @ load inp

	1093 ldr r14,[sp,#4*(32+0)] @ load out

	1094

	1095 vadd.i32 q0,q0,q12 @ accumulate key material

	1096 vadd.i32 q4,q4,q12

	1097 vadd.i32 q8,q8,q12

	1098 vldr d24,[sp,#4*(16+0)] @ one

	1099

	1100 vadd.i32 q1,q1,q13

	1101 vadd.i32 q5,q5,q13

	1102 vadd.i32 q9,q9,q13

	1103 vldr d26,[sp,#4*(16+2)] @ two

	1104

	1105 vadd.i32 q2,q2,q14

	1106 vadd.i32 q6,q6,q14

	1107 vadd.i32 q10,q10,q14

	1108 vadd.i32 d14,d14,d24 @ counter+1

	1109 vadd.i32 d22,d22,d26 @ counter+2

	1110

	1111 vadd.i32 q3,q3,q15

	1112 vadd.i32 q7,q7,q15

	1113 vadd.i32 q11,q11,q15

	1114

	1115 cmp r11,#64*4

	1116 blo .Ltail_neon

	1117

	1118 vld1.8 {q12,q13},[r12]! @ load input

	1119 mov r11,sp

	1120 vld1.8 {q14,q15},[r12]!

	1121 veor q0,q0,q12 @ xor with input

	1122 veor q1,q1,q13

	1123 vld1.8 {q12,q13},[r12]!

	1124 veor q2,q2,q14

	1125 veor q3,q3,q15

	1126 vld1.8 {q14,q15},[r12]!

	1127

	1128 veor q4,q4,q12

	1129 vst1.8 {q0,q1},[r14]! @ store output

	1130 veor q5,q5,q13

	1131 vld1.8 {q12,q13},[r12]!

	1132 veor q6,q6,q14

	1133 vst1.8 {q2,q3},[r14]!

	1134 veor q7,q7,q15

	1135 vld1.8 {q14,q15},[r12]!

	1136

	1137 veor q8,q8,q12

	1138 vld1.32 {q0,q1},[r11]! @ load for next iteration

	1139 veor d25,d25,d25

	1140 vldr d24,[sp,#4*(16+4)] @ four

	1141 veor q9,q9,q13

	1142 vld1.32 {q2,q3},[r11]

	1143 veor q10,q10,q14

	1144 vst1.8 {q4,q5},[r14]!

	1145 veor q11,q11,q15

	1146 vst1.8 {q6,q7},[r14]!

	1147

	1148 vadd.i32 d6,d6,d24 @ next counter value

	1149 vldr d24,[sp,#4*(16+0)] @ one

	1150

	1151 ldmia sp,{r8,r9,r10,r11} @ load key material

	1152 add r0,r0,r8 @ accumulate key material

	1153 ldr r8,[r12],#16 @ load input

	1154 vst1.8 {q8,q9},[r14]!

	1155 add r1,r1,r9

	1156 ldr r9,[r12,#-12]

	1157 vst1.8 {q10,q11},[r14]!

	1158 add r2,r2,r10

	1159 ldr r10,[r12,#-8]

	1160 add r3,r3,r11

	1161 ldr r11,[r12,#-4]

	1162 # ifdef __ARMEB__

	1163 rev r0,r0

	1164 rev r1,r1

	1165 rev r2,r2

	1166 rev r3,r3

	1167 # endif

	1168 eor r0,r0,r8 @ xor with input

	1169 add r8,sp,#4*(4)

	1170 eor r1,r1,r9

	1171 str r0,[r14],#16 @ store output

	1172 eor r2,r2,r10

	1173 str r1,[r14,#-12]

	1174 eor r3,r3,r11

	1175 ldmia r8,{r8,r9,r10,r11} @ load key material

	1176 str r2,[r14,#-8]

	1177 str r3,[r14,#-4]

	1178

	1179 add r4,r4,r8 @ accumulate key material

	1180 ldr r8,[r12],#16 @ load input

	1181 add r5,r5,r9

	1182 ldr r9,[r12,#-12]

	1183 add r6,r6,r10

	1184 ldr r10,[r12,#-8]

	1185 add r7,r7,r11

	1186 ldr r11,[r12,#-4]

	1187 # ifdef __ARMEB__

	1188 rev r4,r4

	1189 rev r5,r5

	1190 rev r6,r6

	1191 rev r7,r7

	1192 # endif

	1193 eor r4,r4,r8

	1194 add r8,sp,#4*(8)

	1195 eor r5,r5,r9

	1196 str r4,[r14],#16 @ store output

	1197 eor r6,r6,r10

	1198 str r5,[r14,#-12]

	1199 eor r7,r7,r11

	1200 ldmia r8,{r8,r9,r10,r11} @ load key material

	1201 str r6,[r14,#-8]

	1202 add r0,sp,#4*(16+8)

	1203 str r7,[r14,#-4]

	1204

	1205 ldmia r0,{r0,r1,r2,r3,r4,r5,r6,r7} @ load second half

	1206

	1207 add r0,r0,r8 @ accumulate key material

	1208 ldr r8,[r12],#16 @ load input

	1209 add r1,r1,r9

	1210 ldr r9,[r12,#-12]

	1211 # ifdef __thumb2__

	1212 it hi

	1213 # endif

	1214 strhi r10,[sp,#4*(16+10)] @ copy "rx" while at it

	1215 add r2,r2,r10

	1216 ldr r10,[r12,#-8]

	1217 # ifdef __thumb2__

	1218 it hi

	1219 # endif

	1220 strhi r11,[sp,#4*(16+11)] @ copy "rx" while at it

	1221 add r3,r3,r11

	1222 ldr r11,[r12,#-4]

	1223 # ifdef __ARMEB__

	1224 rev r0,r0

	1225 rev r1,r1

	1226 rev r2,r2

	1227 rev r3,r3

	1228 # endif

	1229 eor r0,r0,r8

	1230 add r8,sp,#4*(12)

	1231 eor r1,r1,r9

	1232 str r0,[r14],#16 @ store output

	1233 eor r2,r2,r10

	1234 str r1,[r14,#-12]

	1235 eor r3,r3,r11

	1236 ldmia r8,{r8,r9,r10,r11} @ load key material

	1237 str r2,[r14,#-8]

	1238 str r3,[r14,#-4]

	1239

	1240 add r4,r4,r8 @ accumulate key material

	1241 add r8,r8,#4 @ next counter value

	1242 add r5,r5,r9

	1243 str r8,[sp,#4*(12)] @ save next counter value

	1244 ldr r8,[r12],#16 @ load input

	1245 add r6,r6,r10

	1246 add r4,r4,#3 @ counter+3

	1247 ldr r9,[r12,#-12]

	1248 add r7,r7,r11

	1249 ldr r10,[r12,#-8]

	1250 ldr r11,[r12,#-4]

	1251 # ifdef __ARMEB__

	1252 rev r4,r4

	1253 rev r5,r5

	1254 rev r6,r6

	1255 rev r7,r7

	1256 # endif

	1257 eor r4,r4,r8

	1258 # ifdef __thumb2__

	1259 it hi

	1260 # endif

	1261 ldrhi r8,[sp,#4*(32+2)] @ re-load len

	1262 eor r5,r5,r9

	1263 eor r6,r6,r10

	1264 str r4,[r14],#16 @ store output

	1265 eor r7,r7,r11

	1266 str r5,[r14,#-12]

	1267 sub r11,r8,#644 @ len-=644

	1268 str r6,[r14,#-8]

	1269 str r7,[r14,#-4]

	1270 bhi .Loop_neon_outer

	1271

	1272 b .Ldone_neon

	1273

	1274 .align 4

	1275 .Lbreak_neon:

	1276 @ harmonize NEON and integer-only stack frames: load data

	1277 @ from NEON frame, but save to integer-only one; distance

	1278 @ between the two is 4(32+4+16-32)=4(20).

	1279

	1280 str r11, [sp,#4*(20+32+2)] @ save len

	1281 add r11,sp,#4*(32+4)

	1282 str r12, [sp,#4*(20+32+1)] @ save inp

	1283 str r14, [sp,#4*(20+32+0)] @ save out

	1284

	1285 ldr r12,[sp,#4*(16+10)]

	1286 ldr r14,[sp,#4*(16+11)]

	1287 vldmia r11,{d8,d9,d10,d11,d12,d13,d14,d15} @ fulfil l ABI requirement

	1288 str r12,[sp,#4*(20+16+10)] @ copy "rx"

	1289 str r14,[sp,#4*(20+16+11)] @ copy "rx"

	1290

	1291 ldr r11, [sp,#4*(15)]

	1292 ldr r12,[sp,#4*(12)] @ modulo-scheduled load

	1293 ldr r10, [sp,#4*(13)]

	1294 ldr r14,[sp,#4*(14)]

	1295 str r11, [sp,#4*(20+16+15)]

	1296 add r11,sp,#4*(20)

	1297 vst1.32 {q0,q1},[r11]! @ copy key

	1298 add sp,sp,#4*(20) @ switch frame

	1299 vst1.32 {q2,q3},[r11]

	1300 mov r11,#10

	1301 b .Loop @ go integer-only

	1302

	1303 .align 4

	1304 .Ltail_neon:

	1305 cmp r11,#64*3

	1306 bhs .L192_or_more_neon

	1307 cmp r11,#64*2

	1308 bhs .L128_or_more_neon

	1309 cmp r11,#64*1

	1310 bhs .L64_or_more_neon

	1311

	1312 add r8,sp,#4*(8)

	1313 vst1.8 {q0,q1},[sp]

	1314 add r10,sp,#4*(0)

	1315 vst1.8 {q2,q3},[r8]

	1316 b .Loop_tail_neon

	1317

	1318 .align 4

	1319 .L64_or_more_neon:

	1320 vld1.8 {q12,q13},[r12]!

	1321 vld1.8 {q14,q15},[r12]!

	1322 veor q0,q0,q12

	1323 veor q1,q1,q13

	1324 veor q2,q2,q14

	1325 veor q3,q3,q15

	1326 vst1.8 {q0,q1},[r14]!

	1327 vst1.8 {q2,q3},[r14]!

	1328

	1329 beq .Ldone_neon

	1330

	1331 add r8,sp,#4*(8)

	1332 vst1.8 {q4,q5},[sp]

	1333 add r10,sp,#4*(0)

	1334 vst1.8 {q6,q7},[r8]

	1335 sub r11,r11,#641 @ len-=641

	1336 b .Loop_tail_neon

	1337

	1338 .align 4

	1339 .L128_or_more_neon:

	1340 vld1.8 {q12,q13},[r12]!

	1341 vld1.8 {q14,q15},[r12]!

	1342 veor q0,q0,q12

	1343 veor q1,q1,q13

	1344 vld1.8 {q12,q13},[r12]!

	1345 veor q2,q2,q14

	1346 veor q3,q3,q15

	1347 vld1.8 {q14,q15},[r12]!

	1348

	1349 veor q4,q4,q12

	1350 veor q5,q5,q13

	1351 vst1.8 {q0,q1},[r14]!

	1352 veor q6,q6,q14

	1353 vst1.8 {q2,q3},[r14]!

	1354 veor q7,q7,q15

	1355 vst1.8 {q4,q5},[r14]!

	1356 vst1.8 {q6,q7},[r14]!

	1357

	1358 beq .Ldone_neon

	1359

	1360 add r8,sp,#4*(8)

	1361 vst1.8 {q8,q9},[sp]

	1362 add r10,sp,#4*(0)

	1363 vst1.8 {q10,q11},[r8]

	1364 sub r11,r11,#642 @ len-=642

	1365 b .Loop_tail_neon

	1366

	1367 .align 4

	1368 .L192_or_more_neon:

	1369 vld1.8 {q12,q13},[r12]!

	1370 vld1.8 {q14,q15},[r12]!

	1371 veor q0,q0,q12

	1372 veor q1,q1,q13

	1373 vld1.8 {q12,q13},[r12]!

	1374 veor q2,q2,q14

	1375 veor q3,q3,q15

	1376 vld1.8 {q14,q15},[r12]!

	1377

	1378 veor q4,q4,q12

	1379 veor q5,q5,q13

	1380 vld1.8 {q12,q13},[r12]!

	1381 veor q6,q6,q14

	1382 vst1.8 {q0,q1},[r14]!

	1383 veor q7,q7,q15

	1384 vld1.8 {q14,q15},[r12]!

	1385

	1386 veor q8,q8,q12

	1387 vst1.8 {q2,q3},[r14]!

	1388 veor q9,q9,q13

	1389 vst1.8 {q4,q5},[r14]!

	1390 veor q10,q10,q14

	1391 vst1.8 {q6,q7},[r14]!

	1392 veor q11,q11,q15

	1393 vst1.8 {q8,q9},[r14]!

	1394 vst1.8 {q10,q11},[r14]!

	1395

	1396 beq .Ldone_neon

	1397

	1398 ldmia sp,{r8,r9,r10,r11} @ load key material

	1399 add r0,r0,r8 @ accumulate key material

	1400 add r8,sp,#4*(4)

	1401 add r1,r1,r9

	1402 add r2,r2,r10

	1403 add r3,r3,r11

	1404 ldmia r8,{r8,r9,r10,r11} @ load key material

	1405

	1406 add r4,r4,r8 @ accumulate key material

	1407 add r8,sp,#4*(8)

	1408 add r5,r5,r9

	1409 add r6,r6,r10

	1410 add r7,r7,r11

	1411 ldmia r8,{r8,r9,r10,r11} @ load key material

	1412 # ifdef __ARMEB__

	1413 rev r0,r0

	1414 rev r1,r1

	1415 rev r2,r2

	1416 rev r3,r3

	1417 rev r4,r4

	1418 rev r5,r5

	1419 rev r6,r6

	1420 rev r7,r7

	1421 # endif

	1422 stmia sp,{r0,r1,r2,r3,r4,r5,r6,r7}

	1423 add r0,sp,#4*(16+8)

	1424

	1425 ldmia r0,{r0,r1,r2,r3,r4,r5,r6,r7} @ load second half

	1426

	1427 add r0,r0,r8 @ accumulate key material

	1428 add r8,sp,#4*(12)

	1429 add r1,r1,r9

	1430 add r2,r2,r10

	1431 add r3,r3,r11

	1432 ldmia r8,{r8,r9,r10,r11} @ load key material

	1433

	1434 add r4,r4,r8 @ accumulate key material

	1435 add r8,sp,#4*(8)

	1436 add r5,r5,r9

	1437 add r4,r4,#3 @ counter+3

	1438 add r6,r6,r10

	1439 add r7,r7,r11

	1440 ldr r11,[sp,#4*(32+2)] @ re-load len

	1441 # ifdef __ARMEB__

	1442 rev r0,r0

	1443 rev r1,r1

	1444 rev r2,r2

	1445 rev r3,r3

	1446 rev r4,r4

	1447 rev r5,r5

	1448 rev r6,r6

	1449 rev r7,r7

	1450 # endif

	1451 stmia r8,{r0,r1,r2,r3,r4,r5,r6,r7}

	1452 add r10,sp,#4*(0)

	1453 sub r11,r11,#643 @ len-=643

	1454

	1455 .Loop_tail_neon:

	1456 ldrb r8,[r10],#1 @ read buffer on stack

	1457 ldrb r9,[r12],#1 @ read input

	1458 subs r11,r11,#1

	1459 eor r8,r8,r9

	1460 strb r8,[r14],#1 @ store ouput

	1461 bne .Loop_tail_neon

	1462

	1463 .Ldone_neon:

	1464 add sp,sp,#4*(32+4)

	1465 vldmia sp,{d8,d9,d10,d11,d12,d13,d14,d15}

	1466 add sp,sp,#4*(16+3)

	1467 ldmia sp!,{r4,r5,r6,r7,r8,r9,r10,r11,pc}

	1468 .size ChaCha20_neon,.-ChaCha20_neon

	1469 .comm OPENSSL_armcap_P,4,4

	1470 #endif

	1471 #endif

OLD	NEW