third_party/boringssl/linux-aarch64/crypto/bn/armv8-mont.S - Issue 2219933002: Land BoringSSL roll on master

Side by Side Diff: third_party/boringssl/linux-aarch64/crypto/bn/armv8-mont.S

Issue 2219933002: Land BoringSSL roll on master (Closed) Base URL: git@github.com:dart-lang/sdk.git@master

Patch Set: Created 4 years, 4 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

« no previous file with comments | « third_party/boringssl/linux-aarch64/crypto/aes/aesv8-armx64.S ('k') | third_party/boringssl/linux-aarch64/crypto/chacha/chacha-armv8.S » ('j') | no next file with comments »
Toggle Intra-line Diffs ('i') | Expand Comments ('e') | Collapse Comments ('c') | Hide Comments ('s')

OLD	NEW
(Empty)
	1 #if defined(__aarch64__)

	2 .text

	3

	4 .globl bn_mul_mont

	5 .hidden bn_mul_mont

	6 .type bn_mul_mont,%function

	7 .align 5

	8 bn_mul_mont:

	9 tst x5,#7

	10 b.eq __bn_sqr8x_mont

	11 tst x5,#3

	12 b.eq __bn_mul4x_mont

	13 .Lmul_mont:

	14 stp x29,x30,[sp,#-64]!

	15 add x29,sp,#0

	16 stp x19,x20,[sp,#16]

	17 stp x21,x22,[sp,#32]

	18 stp x23,x24,[sp,#48]

	19

	20 ldr x9,[x2],#8 // bp[0]

	21 sub x22,sp,x5,lsl#3

	22 ldp x7,x8,[x1],#16 // ap[0..1]

	23 lsl x5,x5,#3

	24 ldr x4,[x4] // *n0

	25 and x22,x22,#-16 // ABI says so

	26 ldp x13,x14,[x3],#16 // np[0..1]

	27

	28 mul x6,x7,x9 // ap[0]*bp[0]

	29 sub x21,x5,#16 // j=num-2

	30 umulh x7,x7,x9

	31 mul x10,x8,x9 // ap[1]*bp[0]

	32 umulh x11,x8,x9

	33

	34 mul x15,x6,x4 // "tp[0]"*n0

	35 mov sp,x22 // alloca

	36

	37 // () mul x12,x13,x15 // np[0]m1

	38 umulh x13,x13,x15

	39 mul x16,x14,x15 // np[1]*m1

	40 // (*) adds x12,x12,x6 // discarded

	41 // (*) As for removal of first multiplication and addition

	42 // instructions. The outcome of first addition is

	43 // guaranteed to be zero, which leaves two computationally

	44 // significant outcomes: it either carries or not. Then

	45 // question is when does it carry? Is there alternative

	46 // way to deduce it? If you follow operations, you can

	47 // observe that condition for carry is quite simple:

	48 // x6 being non-zero. So that carry can be calculated

	49 // by adding -1 to x6. That's what next instruction does.

	50 subs xzr,x6,#1 // (*)

	51 umulh x17,x14,x15

	52 adc x13,x13,xzr

	53 cbz x21,.L1st_skip

	54

	55 .L1st:

	56 ldr x8,[x1],#8

	57 adds x6,x10,x7

	58 sub x21,x21,#8 // j--

	59 adc x7,x11,xzr

	60

	61 ldr x14,[x3],#8

	62 adds x12,x16,x13

	63 mul x10,x8,x9 // ap[j]*bp[0]

	64 adc x13,x17,xzr

	65 umulh x11,x8,x9

	66

	67 adds x12,x12,x6

	68 mul x16,x14,x15 // np[j]*m1

	69 adc x13,x13,xzr

	70 umulh x17,x14,x15

	71 str x12,[x22],#8 // tp[j-1]

	72 cbnz x21,.L1st

	73

	74 .L1st_skip:

	75 adds x6,x10,x7

	76 sub x1,x1,x5 // rewind x1

	77 adc x7,x11,xzr

	78

	79 adds x12,x16,x13

	80 sub x3,x3,x5 // rewind x3

	81 adc x13,x17,xzr

	82

	83 adds x12,x12,x6

	84 sub x20,x5,#8 // i=num-1

	85 adcs x13,x13,x7

	86

	87 adc x19,xzr,xzr // upmost overflow bit

	88 stp x12,x13,[x22]

	89

	90 .Louter:

	91 ldr x9,[x2],#8 // bp[i]

	92 ldp x7,x8,[x1],#16

	93 ldr x23,[sp] // tp[0]

	94 add x22,sp,#8

	95

	96 mul x6,x7,x9 // ap[0]*bp[i]

	97 sub x21,x5,#16 // j=num-2

	98 umulh x7,x7,x9

	99 ldp x13,x14,[x3],#16

	100 mul x10,x8,x9 // ap[1]*bp[i]

	101 adds x6,x6,x23

	102 umulh x11,x8,x9

	103 adc x7,x7,xzr

	104

	105 mul x15,x6,x4

	106 sub x20,x20,#8 // i--

	107

	108 // () mul x12,x13,x15 // np[0]m1

	109 umulh x13,x13,x15

	110 mul x16,x14,x15 // np[1]*m1

	111 // (*) adds x12,x12,x6

	112 subs xzr,x6,#1 // (*)

	113 umulh x17,x14,x15

	114 cbz x21,.Linner_skip

	115

	116 .Linner:

	117 ldr x8,[x1],#8

	118 adc x13,x13,xzr

	119 ldr x23,[x22],#8 // tp[j]

	120 adds x6,x10,x7

	121 sub x21,x21,#8 // j--

	122 adc x7,x11,xzr

	123

	124 adds x12,x16,x13

	125 ldr x14,[x3],#8

	126 adc x13,x17,xzr

	127

	128 mul x10,x8,x9 // ap[j]*bp[i]

	129 adds x6,x6,x23

	130 umulh x11,x8,x9

	131 adc x7,x7,xzr

	132

	133 mul x16,x14,x15 // np[j]*m1

	134 adds x12,x12,x6

	135 umulh x17,x14,x15

	136 str x12,[x22,#-16] // tp[j-1]

	137 cbnz x21,.Linner

	138

	139 .Linner_skip:

	140 ldr x23,[x22],#8 // tp[j]

	141 adc x13,x13,xzr

	142 adds x6,x10,x7

	143 sub x1,x1,x5 // rewind x1

	144 adc x7,x11,xzr

	145

	146 adds x12,x16,x13

	147 sub x3,x3,x5 // rewind x3

	148 adcs x13,x17,x19

	149 adc x19,xzr,xzr

	150

	151 adds x6,x6,x23

	152 adc x7,x7,xzr

	153

	154 adds x12,x12,x6

	155 adcs x13,x13,x7

	156 adc x19,x19,xzr // upmost overflow bit

	157 stp x12,x13,[x22,#-16]

	158

	159 cbnz x20,.Louter

	160

	161 // Final step. We see if result is larger than modulus, and

	162 // if it is, subtract the modulus. But comparison implies

	163 // subtraction. So we subtract modulus, see if it borrowed,

	164 // and conditionally copy original value.

	165 ldr x23,[sp] // tp[0]

	166 add x22,sp,#8

	167 ldr x14,[x3],#8 // np[0]

	168 subs x21,x5,#8 // j=num-1 and clear borrow

	169 mov x1,x0

	170 .Lsub:

	171 sbcs x8,x23,x14 // tp[j]-np[j]

	172 ldr x23,[x22],#8

	173 sub x21,x21,#8 // j--

	174 ldr x14,[x3],#8

	175 str x8,[x1],#8 // rp[j]=tp[j]-np[j]

	176 cbnz x21,.Lsub

	177

	178 sbcs x8,x23,x14

	179 sbcs x19,x19,xzr // did it borrow?

	180 str x8,[x1],#8 // rp[num-1]

	181

	182 ldr x23,[sp] // tp[0]

	183 add x22,sp,#8

	184 ldr x8,[x0],#8 // rp[0]

	185 sub x5,x5,#8 // num--

	186 nop

	187 .Lcond_copy:

	188 sub x5,x5,#8 // num--

	189 csel x14,x23,x8,lo // did it borrow?

	190 ldr x23,[x22],#8

	191 ldr x8,[x0],#8

	192 str xzr,[x22,#-16] // wipe tp

	193 str x14,[x0,#-16]

	194 cbnz x5,.Lcond_copy

	195

	196 csel x14,x23,x8,lo

	197 str xzr,[x22,#-8] // wipe tp

	198 str x14,[x0,#-8]

	199

	200 ldp x19,x20,[x29,#16]

	201 mov sp,x29

	202 ldp x21,x22,[x29,#32]

	203 mov x0,#1

	204 ldp x23,x24,[x29,#48]

	205 ldr x29,[sp],#64

	206 ret

	207 .size bn_mul_mont,.-bn_mul_mont

	208 .type __bn_sqr8x_mont,%function

	209 .align 5

	210 __bn_sqr8x_mont:

	211 cmp x1,x2

	212 b.ne __bn_mul4x_mont

	213 .Lsqr8x_mont:

	214 stp x29,x30,[sp,#-128]!

	215 add x29,sp,#0

	216 stp x19,x20,[sp,#16]

	217 stp x21,x22,[sp,#32]

	218 stp x23,x24,[sp,#48]

	219 stp x25,x26,[sp,#64]

	220 stp x27,x28,[sp,#80]

	221 stp x0,x3,[sp,#96] // offload rp and np

	222

	223 ldp x6,x7,[x1,#8*0]

	224 ldp x8,x9,[x1,#8*2]

	225 ldp x10,x11,[x1,#8*4]

	226 ldp x12,x13,[x1,#8*6]

	227

	228 sub x2,sp,x5,lsl#4

	229 lsl x5,x5,#3

	230 ldr x4,[x4] // *n0

	231 mov sp,x2 // alloca

	232 sub x27,x5,#8*8

	233 b .Lsqr8x_zero_start

	234

	235 .Lsqr8x_zero:

	236 sub x27,x27,#8*8

	237 stp xzr,xzr,[x2,#8*0]

	238 stp xzr,xzr,[x2,#8*2]

	239 stp xzr,xzr,[x2,#8*4]

	240 stp xzr,xzr,[x2,#8*6]

	241 .Lsqr8x_zero_start:

	242 stp xzr,xzr,[x2,#8*8]

	243 stp xzr,xzr,[x2,#8*10]

	244 stp xzr,xzr,[x2,#8*12]

	245 stp xzr,xzr,[x2,#8*14]

	246 add x2,x2,#8*16

	247 cbnz x27,.Lsqr8x_zero

	248

	249 add x3,x1,x5

	250 add x1,x1,#8*8

	251 mov x19,xzr

	252 mov x20,xzr

	253 mov x21,xzr

	254 mov x22,xzr

	255 mov x23,xzr

	256 mov x24,xzr

	257 mov x25,xzr

	258 mov x26,xzr

	259 mov x2,sp

	260 str x4,[x29,#112] // offload n0

	261

	262 // Multiply everything but a[i]*a[i]

	263 .align 4

	264 .Lsqr8x_outer_loop:

	265 // a[1]a[0] (i)

	266 // a[2]a[0]

	267 // a[3]a[0]

	268 // a[4]a[0]

	269 // a[5]a[0]

	270 // a[6]a[0]

	271 // a[7]a[0]

	272 // a[2]a[1] (ii)

	273 // a[3]a[1]

	274 // a[4]a[1]

	275 // a[5]a[1]

	276 // a[6]a[1]

	277 // a[7]a[1]

	278 // a[3]a[2] (iii)

	279 // a[4]a[2]

	280 // a[5]a[2]

	281 // a[6]a[2]

	282 // a[7]a[2]

	283 // a[4]a[3] (iv)

	284 // a[5]a[3]

	285 // a[6]a[3]

	286 // a[7]a[3]

	287 // a[5]a[4] (v)

	288 // a[6]a[4]

	289 // a[7]a[4]

	290 // a[6]a[5] (vi)

	291 // a[7]a[5]

	292 // a[7]a[6] (vii)

	293

	294 mul x14,x7,x6 // lo(a[1..7]*a[0]) (i)

	295 mul x15,x8,x6

	296 mul x16,x9,x6

	297 mul x17,x10,x6

	298 adds x20,x20,x14 // t[1]+lo(a[1]*a[0])

	299 mul x14,x11,x6

	300 adcs x21,x21,x15

	301 mul x15,x12,x6

	302 adcs x22,x22,x16

	303 mul x16,x13,x6

	304 adcs x23,x23,x17

	305 umulh x17,x7,x6 // hi(a[1..7]*a[0])

	306 adcs x24,x24,x14

	307 umulh x14,x8,x6

	308 adcs x25,x25,x15

	309 umulh x15,x9,x6

	310 adcs x26,x26,x16

	311 umulh x16,x10,x6

	312 stp x19,x20,[x2],#8*2 // t[0..1]

	313 adc x19,xzr,xzr // t[8]

	314 adds x21,x21,x17 // t[2]+lo(a[1]*a[0])

	315 umulh x17,x11,x6

	316 adcs x22,x22,x14

	317 umulh x14,x12,x6

	318 adcs x23,x23,x15

	319 umulh x15,x13,x6

	320 adcs x24,x24,x16

	321 mul x16,x8,x7 // lo(a[2..7]*a[1]) (ii)

	322 adcs x25,x25,x17

	323 mul x17,x9,x7

	324 adcs x26,x26,x14

	325 mul x14,x10,x7

	326 adc x19,x19,x15

	327

	328 mul x15,x11,x7

	329 adds x22,x22,x16

	330 mul x16,x12,x7

	331 adcs x23,x23,x17

	332 mul x17,x13,x7

	333 adcs x24,x24,x14

	334 umulh x14,x8,x7 // hi(a[2..7]*a[1])

	335 adcs x25,x25,x15

	336 umulh x15,x9,x7

	337 adcs x26,x26,x16

	338 umulh x16,x10,x7

	339 adcs x19,x19,x17

	340 umulh x17,x11,x7

	341 stp x21,x22,[x2],#8*2 // t[2..3]

	342 adc x20,xzr,xzr // t[9]

	343 adds x23,x23,x14

	344 umulh x14,x12,x7

	345 adcs x24,x24,x15

	346 umulh x15,x13,x7

	347 adcs x25,x25,x16

	348 mul x16,x9,x8 // lo(a[3..7]*a[2]) (iii)

	349 adcs x26,x26,x17

	350 mul x17,x10,x8

	351 adcs x19,x19,x14

	352 mul x14,x11,x8

	353 adc x20,x20,x15

	354

	355 mul x15,x12,x8

	356 adds x24,x24,x16

	357 mul x16,x13,x8

	358 adcs x25,x25,x17

	359 umulh x17,x9,x8 // hi(a[3..7]*a[2])

	360 adcs x26,x26,x14

	361 umulh x14,x10,x8

	362 adcs x19,x19,x15

	363 umulh x15,x11,x8

	364 adcs x20,x20,x16

	365 umulh x16,x12,x8

	366 stp x23,x24,[x2],#8*2 // t[4..5]

	367 adc x21,xzr,xzr // t[10]

	368 adds x25,x25,x17

	369 umulh x17,x13,x8

	370 adcs x26,x26,x14

	371 mul x14,x10,x9 // lo(a[4..7]*a[3]) (iv)

	372 adcs x19,x19,x15

	373 mul x15,x11,x9

	374 adcs x20,x20,x16

	375 mul x16,x12,x9

	376 adc x21,x21,x17

	377

	378 mul x17,x13,x9

	379 adds x26,x26,x14

	380 umulh x14,x10,x9 // hi(a[4..7]*a[3])

	381 adcs x19,x19,x15

	382 umulh x15,x11,x9

	383 adcs x20,x20,x16

	384 umulh x16,x12,x9

	385 adcs x21,x21,x17

	386 umulh x17,x13,x9

	387 stp x25,x26,[x2],#8*2 // t[6..7]

	388 adc x22,xzr,xzr // t[11]

	389 adds x19,x19,x14

	390 mul x14,x11,x10 // lo(a[5..7]*a[4]) (v)

	391 adcs x20,x20,x15

	392 mul x15,x12,x10

	393 adcs x21,x21,x16

	394 mul x16,x13,x10

	395 adc x22,x22,x17

	396

	397 umulh x17,x11,x10 // hi(a[5..7]*a[4])

	398 adds x20,x20,x14

	399 umulh x14,x12,x10

	400 adcs x21,x21,x15

	401 umulh x15,x13,x10

	402 adcs x22,x22,x16

	403 mul x16,x12,x11 // lo(a[6..7]*a[5]) (vi)

	404 adc x23,xzr,xzr // t[12]

	405 adds x21,x21,x17

	406 mul x17,x13,x11

	407 adcs x22,x22,x14

	408 umulh x14,x12,x11 // hi(a[6..7]*a[5])

	409 adc x23,x23,x15

	410

	411 umulh x15,x13,x11

	412 adds x22,x22,x16

	413 mul x16,x13,x12 // lo(a[7]*a[6]) (vii)

	414 adcs x23,x23,x17

	415 umulh x17,x13,x12 // hi(a[7]*a[6])

	416 adc x24,xzr,xzr // t[13]

	417 adds x23,x23,x14

	418 sub x27,x3,x1 // done yet?

	419 adc x24,x24,x15

	420

	421 adds x24,x24,x16

	422 sub x14,x3,x5 // rewinded ap

	423 adc x25,xzr,xzr // t[14]

	424 add x25,x25,x17

	425

	426 cbz x27,.Lsqr8x_outer_break

	427

	428 mov x4,x6

	429 ldp x6,x7,[x2,#8*0]

	430 ldp x8,x9,[x2,#8*2]

	431 ldp x10,x11,[x2,#8*4]

	432 ldp x12,x13,[x2,#8*6]

	433 adds x19,x19,x6

	434 adcs x20,x20,x7

	435 ldp x6,x7,[x1,#8*0]

	436 adcs x21,x21,x8

	437 adcs x22,x22,x9

	438 ldp x8,x9,[x1,#8*2]

	439 adcs x23,x23,x10

	440 adcs x24,x24,x11

	441 ldp x10,x11,[x1,#8*4]

	442 adcs x25,x25,x12

	443 mov x0,x1

	444 adcs x26,xzr,x13

	445 ldp x12,x13,[x1,#8*6]

	446 add x1,x1,#8*8

	447 //adc x28,xzr,xzr // moved below

	448 mov x27,#-8*8

	449

	450 // a[8]a[0]

	451 // a[9]a[0]

	452 // a[a]a[0]

	453 // a[b]a[0]

	454 // a[c]a[0]

	455 // a[d]a[0]

	456 // a[e]a[0]

	457 // a[f]a[0]

	458 // a[8]a[1]

	459 // a[f]a[1]........................

	460 // a[8]a[2]

	461 // a[f]a[2]........................

	462 // a[8]a[3]

	463 // a[f]a[3]........................

	464 // a[8]a[4]

	465 // a[f]a[4]........................

	466 // a[8]a[5]

	467 // a[f]a[5]........................

	468 // a[8]a[6]

	469 // a[f]a[6]........................

	470 // a[8]a[7]

	471 // a[f]a[7]........................

	472 .Lsqr8x_mul:

	473 mul x14,x6,x4

	474 adc x28,xzr,xzr // carry bit, modulo-scheduled

	475 mul x15,x7,x4

	476 add x27,x27,#8

	477 mul x16,x8,x4

	478 mul x17,x9,x4

	479 adds x19,x19,x14

	480 mul x14,x10,x4

	481 adcs x20,x20,x15

	482 mul x15,x11,x4

	483 adcs x21,x21,x16

	484 mul x16,x12,x4

	485 adcs x22,x22,x17

	486 mul x17,x13,x4

	487 adcs x23,x23,x14

	488 umulh x14,x6,x4

	489 adcs x24,x24,x15

	490 umulh x15,x7,x4

	491 adcs x25,x25,x16

	492 umulh x16,x8,x4

	493 adcs x26,x26,x17

	494 umulh x17,x9,x4

	495 adc x28,x28,xzr

	496 str x19,[x2],#8

	497 adds x19,x20,x14

	498 umulh x14,x10,x4

	499 adcs x20,x21,x15

	500 umulh x15,x11,x4

	501 adcs x21,x22,x16

	502 umulh x16,x12,x4

	503 adcs x22,x23,x17

	504 umulh x17,x13,x4

	505 ldr x4,[x0,x27]

	506 adcs x23,x24,x14

	507 adcs x24,x25,x15

	508 adcs x25,x26,x16

	509 adcs x26,x28,x17

	510 //adc x28,xzr,xzr // moved above

	511 cbnz x27,.Lsqr8x_mul

	512 // note that carry flag is guaranteed

	513 // to be zero at this point

	514 cmp x1,x3 // done yet?

	515 b.eq .Lsqr8x_break

	516

	517 ldp x6,x7,[x2,#8*0]

	518 ldp x8,x9,[x2,#8*2]

	519 ldp x10,x11,[x2,#8*4]

	520 ldp x12,x13,[x2,#8*6]

	521 adds x19,x19,x6

	522 ldr x4,[x0,#-8*8]

	523 adcs x20,x20,x7

	524 ldp x6,x7,[x1,#8*0]

	525 adcs x21,x21,x8

	526 adcs x22,x22,x9

	527 ldp x8,x9,[x1,#8*2]

	528 adcs x23,x23,x10

	529 adcs x24,x24,x11

	530 ldp x10,x11,[x1,#8*4]

	531 adcs x25,x25,x12

	532 mov x27,#-8*8

	533 adcs x26,x26,x13

	534 ldp x12,x13,[x1,#8*6]

	535 add x1,x1,#8*8

	536 //adc x28,xzr,xzr // moved above

	537 b .Lsqr8x_mul

	538

	539 .align 4

	540 .Lsqr8x_break:

	541 ldp x6,x7,[x0,#8*0]

	542 add x1,x0,#8*8

	543 ldp x8,x9,[x0,#8*2]

	544 sub x14,x3,x1 // is it last iteration?

	545 ldp x10,x11,[x0,#8*4]

	546 sub x15,x2,x14

	547 ldp x12,x13,[x0,#8*6]

	548 cbz x14,.Lsqr8x_outer_loop

	549

	550 stp x19,x20,[x2,#8*0]

	551 ldp x19,x20,[x15,#8*0]

	552 stp x21,x22,[x2,#8*2]

	553 ldp x21,x22,[x15,#8*2]

	554 stp x23,x24,[x2,#8*4]

	555 ldp x23,x24,[x15,#8*4]

	556 stp x25,x26,[x2,#8*6]

	557 mov x2,x15

	558 ldp x25,x26,[x15,#8*6]

	559 b .Lsqr8x_outer_loop

	560

	561 .align 4

	562 .Lsqr8x_outer_break:

	563 // Now multiply above result by 2 and add a[n-1]a[n-1]\|...\|a[0]a[0]

	564 ldp x7,x9,[x14,#8*0] // recall that x14 is &a[0]

	565 ldp x15,x16,[sp,#8*1]

	566 ldp x11,x13,[x14,#8*2]

	567 add x1,x14,#8*4

	568 ldp x17,x14,[sp,#8*3]

	569

	570 stp x19,x20,[x2,#8*0]

	571 mul x19,x7,x7

	572 stp x21,x22,[x2,#8*2]

	573 umulh x7,x7,x7

	574 stp x23,x24,[x2,#8*4]

	575 mul x8,x9,x9

	576 stp x25,x26,[x2,#8*6]

	577 mov x2,sp

	578 umulh x9,x9,x9

	579 adds x20,x7,x15,lsl#1

	580 extr x15,x16,x15,#63

	581 sub x27,x5,#8*4

	582

	583 .Lsqr4x_shift_n_add:

	584 adcs x21,x8,x15

	585 extr x16,x17,x16,#63

	586 sub x27,x27,#8*4

	587 adcs x22,x9,x16

	588 ldp x15,x16,[x2,#8*5]

	589 mul x10,x11,x11

	590 ldp x7,x9,[x1],#8*2

	591 umulh x11,x11,x11

	592 mul x12,x13,x13

	593 umulh x13,x13,x13

	594 extr x17,x14,x17,#63

	595 stp x19,x20,[x2,#8*0]

	596 adcs x23,x10,x17

	597 extr x14,x15,x14,#63

	598 stp x21,x22,[x2,#8*2]

	599 adcs x24,x11,x14

	600 ldp x17,x14,[x2,#8*7]

	601 extr x15,x16,x15,#63

	602 adcs x25,x12,x15

	603 extr x16,x17,x16,#63

	604 adcs x26,x13,x16

	605 ldp x15,x16,[x2,#8*9]

	606 mul x6,x7,x7

	607 ldp x11,x13,[x1],#8*2

	608 umulh x7,x7,x7

	609 mul x8,x9,x9

	610 umulh x9,x9,x9

	611 stp x23,x24,[x2,#8*4]

	612 extr x17,x14,x17,#63

	613 stp x25,x26,[x2,#8*6]

	614 add x2,x2,#8*8

	615 adcs x19,x6,x17

	616 extr x14,x15,x14,#63

	617 adcs x20,x7,x14

	618 ldp x17,x14,[x2,#8*3]

	619 extr x15,x16,x15,#63

	620 cbnz x27,.Lsqr4x_shift_n_add

	621 ldp x1,x4,[x29,#104] // pull np and n0

	622

	623 adcs x21,x8,x15

	624 extr x16,x17,x16,#63

	625 adcs x22,x9,x16

	626 ldp x15,x16,[x2,#8*5]

	627 mul x10,x11,x11

	628 umulh x11,x11,x11

	629 stp x19,x20,[x2,#8*0]

	630 mul x12,x13,x13

	631 umulh x13,x13,x13

	632 stp x21,x22,[x2,#8*2]

	633 extr x17,x14,x17,#63

	634 adcs x23,x10,x17

	635 extr x14,x15,x14,#63

	636 ldp x19,x20,[sp,#8*0]

	637 adcs x24,x11,x14

	638 extr x15,x16,x15,#63

	639 ldp x6,x7,[x1,#8*0]

	640 adcs x25,x12,x15

	641 extr x16,xzr,x16,#63

	642 ldp x8,x9,[x1,#8*2]

	643 adc x26,x13,x16

	644 ldp x10,x11,[x1,#8*4]

	645

	646 // Reduce by 512 bits per iteration

	647 mul x28,x4,x19 // t[0]*n0

	648 ldp x12,x13,[x1,#8*6]

	649 add x3,x1,x5

	650 ldp x21,x22,[sp,#8*2]

	651 stp x23,x24,[x2,#8*4]

	652 ldp x23,x24,[sp,#8*4]

	653 stp x25,x26,[x2,#8*6]

	654 ldp x25,x26,[sp,#8*6]

	655 add x1,x1,#8*8

	656 mov x30,xzr // initial top-most carry

	657 mov x2,sp

	658 mov x27,#8

	659

	660 .Lsqr8x_reduction:

	661 // () mul x14,x6,x28 // lo(n[0-7])lo(t[0]*n0)

	662 mul x15,x7,x28

	663 sub x27,x27,#1

	664 mul x16,x8,x28

	665 str x28,[x2],#8 // put aside t[0]*n0 for tail processing

	666 mul x17,x9,x28

	667 // (*) adds xzr,x19,x14

	668 subs xzr,x19,#1 // (*)

	669 mul x14,x10,x28

	670 adcs x19,x20,x15

	671 mul x15,x11,x28

	672 adcs x20,x21,x16

	673 mul x16,x12,x28

	674 adcs x21,x22,x17

	675 mul x17,x13,x28

	676 adcs x22,x23,x14

	677 umulh x14,x6,x28 // hi(n[0-7])lo(t[0]n0)

	678 adcs x23,x24,x15

	679 umulh x15,x7,x28

	680 adcs x24,x25,x16

	681 umulh x16,x8,x28

	682 adcs x25,x26,x17

	683 umulh x17,x9,x28

	684 adc x26,xzr,xzr

	685 adds x19,x19,x14

	686 umulh x14,x10,x28

	687 adcs x20,x20,x15

	688 umulh x15,x11,x28

	689 adcs x21,x21,x16

	690 umulh x16,x12,x28

	691 adcs x22,x22,x17

	692 umulh x17,x13,x28

	693 mul x28,x4,x19 // next t[0]*n0

	694 adcs x23,x23,x14

	695 adcs x24,x24,x15

	696 adcs x25,x25,x16

	697 adc x26,x26,x17

	698 cbnz x27,.Lsqr8x_reduction

	699

	700 ldp x14,x15,[x2,#8*0]

	701 ldp x16,x17,[x2,#8*2]

	702 mov x0,x2

	703 sub x27,x3,x1 // done yet?

	704 adds x19,x19,x14

	705 adcs x20,x20,x15

	706 ldp x14,x15,[x2,#8*4]

	707 adcs x21,x21,x16

	708 adcs x22,x22,x17

	709 ldp x16,x17,[x2,#8*6]

	710 adcs x23,x23,x14

	711 adcs x24,x24,x15

	712 adcs x25,x25,x16

	713 adcs x26,x26,x17

	714 //adc x28,xzr,xzr // moved below

	715 cbz x27,.Lsqr8x8_post_condition

	716

	717 ldr x4,[x2,#-8*8]

	718 ldp x6,x7,[x1,#8*0]

	719 ldp x8,x9,[x1,#8*2]

	720 ldp x10,x11,[x1,#8*4]

	721 mov x27,#-8*8

	722 ldp x12,x13,[x1,#8*6]

	723 add x1,x1,#8*8

	724

	725 .Lsqr8x_tail:

	726 mul x14,x6,x4

	727 adc x28,xzr,xzr // carry bit, modulo-scheduled

	728 mul x15,x7,x4

	729 add x27,x27,#8

	730 mul x16,x8,x4

	731 mul x17,x9,x4

	732 adds x19,x19,x14

	733 mul x14,x10,x4

	734 adcs x20,x20,x15

	735 mul x15,x11,x4

	736 adcs x21,x21,x16

	737 mul x16,x12,x4

	738 adcs x22,x22,x17

	739 mul x17,x13,x4

	740 adcs x23,x23,x14

	741 umulh x14,x6,x4

	742 adcs x24,x24,x15

	743 umulh x15,x7,x4

	744 adcs x25,x25,x16

	745 umulh x16,x8,x4

	746 adcs x26,x26,x17

	747 umulh x17,x9,x4

	748 adc x28,x28,xzr

	749 str x19,[x2],#8

	750 adds x19,x20,x14

	751 umulh x14,x10,x4

	752 adcs x20,x21,x15

	753 umulh x15,x11,x4

	754 adcs x21,x22,x16

	755 umulh x16,x12,x4

	756 adcs x22,x23,x17

	757 umulh x17,x13,x4

	758 ldr x4,[x0,x27]

	759 adcs x23,x24,x14

	760 adcs x24,x25,x15

	761 adcs x25,x26,x16

	762 adcs x26,x28,x17

	763 //adc x28,xzr,xzr // moved above

	764 cbnz x27,.Lsqr8x_tail

	765 // note that carry flag is guaranteed

	766 // to be zero at this point

	767 ldp x6,x7,[x2,#8*0]

	768 sub x27,x3,x1 // done yet?

	769 sub x16,x3,x5 // rewinded np

	770 ldp x8,x9,[x2,#8*2]

	771 ldp x10,x11,[x2,#8*4]

	772 ldp x12,x13,[x2,#8*6]

	773 cbz x27,.Lsqr8x_tail_break

	774

	775 ldr x4,[x0,#-8*8]

	776 adds x19,x19,x6

	777 adcs x20,x20,x7

	778 ldp x6,x7,[x1,#8*0]

	779 adcs x21,x21,x8

	780 adcs x22,x22,x9

	781 ldp x8,x9,[x1,#8*2]

	782 adcs x23,x23,x10

	783 adcs x24,x24,x11

	784 ldp x10,x11,[x1,#8*4]

	785 adcs x25,x25,x12

	786 mov x27,#-8*8

	787 adcs x26,x26,x13

	788 ldp x12,x13,[x1,#8*6]

	789 add x1,x1,#8*8

	790 //adc x28,xzr,xzr // moved above

	791 b .Lsqr8x_tail

	792

	793 .align 4

	794 .Lsqr8x_tail_break:

	795 ldr x4,[x29,#112] // pull n0

	796 add x27,x2,#8*8 // end of current t[num] window

	797

	798 subs xzr,x30,#1 // "move" top-most carry to carry bit

	799 adcs x14,x19,x6

	800 adcs x15,x20,x7

	801 ldp x19,x20,[x0,#8*0]

	802 adcs x21,x21,x8

	803 ldp x6,x7,[x16,#8*0] // recall that x16 is &n[0]

	804 adcs x22,x22,x9

	805 ldp x8,x9,[x16,#8*2]

	806 adcs x23,x23,x10

	807 adcs x24,x24,x11

	808 ldp x10,x11,[x16,#8*4]

	809 adcs x25,x25,x12

	810 adcs x26,x26,x13

	811 ldp x12,x13,[x16,#8*6]

	812 add x1,x16,#8*8

	813 adc x30,xzr,xzr // top-most carry

	814 mul x28,x4,x19

	815 stp x14,x15,[x2,#8*0]

	816 stp x21,x22,[x2,#8*2]

	817 ldp x21,x22,[x0,#8*2]

	818 stp x23,x24,[x2,#8*4]

	819 ldp x23,x24,[x0,#8*4]

	820 cmp x27,x29 // did we hit the bottom?

	821 stp x25,x26,[x2,#8*6]

	822 mov x2,x0 // slide the window

	823 ldp x25,x26,[x0,#8*6]

	824 mov x27,#8

	825 b.ne .Lsqr8x_reduction

	826

	827 // Final step. We see if result is larger than modulus, and

	828 // if it is, subtract the modulus. But comparison implies

	829 // subtraction. So we subtract modulus, see if it borrowed,

	830 // and conditionally copy original value.

	831 ldr x0,[x29,#96] // pull rp

	832 add x2,x2,#8*8

	833 subs x14,x19,x6

	834 sbcs x15,x20,x7

	835 sub x27,x5,#8*8

	836 mov x3,x0 // x0 copy

	837

	838 .Lsqr8x_sub:

	839 sbcs x16,x21,x8

	840 ldp x6,x7,[x1,#8*0]

	841 sbcs x17,x22,x9

	842 stp x14,x15,[x0,#8*0]

	843 sbcs x14,x23,x10

	844 ldp x8,x9,[x1,#8*2]

	845 sbcs x15,x24,x11

	846 stp x16,x17,[x0,#8*2]

	847 sbcs x16,x25,x12

	848 ldp x10,x11,[x1,#8*4]

	849 sbcs x17,x26,x13

	850 ldp x12,x13,[x1,#8*6]

	851 add x1,x1,#8*8

	852 ldp x19,x20,[x2,#8*0]

	853 sub x27,x27,#8*8

	854 ldp x21,x22,[x2,#8*2]

	855 ldp x23,x24,[x2,#8*4]

	856 ldp x25,x26,[x2,#8*6]

	857 add x2,x2,#8*8

	858 stp x14,x15,[x0,#8*4]

	859 sbcs x14,x19,x6

	860 stp x16,x17,[x0,#8*6]

	861 add x0,x0,#8*8

	862 sbcs x15,x20,x7

	863 cbnz x27,.Lsqr8x_sub

	864

	865 sbcs x16,x21,x8

	866 mov x2,sp

	867 add x1,sp,x5

	868 ldp x6,x7,[x3,#8*0]

	869 sbcs x17,x22,x9

	870 stp x14,x15,[x0,#8*0]

	871 sbcs x14,x23,x10

	872 ldp x8,x9,[x3,#8*2]

	873 sbcs x15,x24,x11

	874 stp x16,x17,[x0,#8*2]

	875 sbcs x16,x25,x12

	876 ldp x19,x20,[x1,#8*0]

	877 sbcs x17,x26,x13

	878 ldp x21,x22,[x1,#8*2]

	879 sbcs xzr,x30,xzr // did it borrow?

	880 ldr x30,[x29,#8] // pull return address

	881 stp x14,x15,[x0,#8*4]

	882 stp x16,x17,[x0,#8*6]

	883

	884 sub x27,x5,#8*4

	885 .Lsqr4x_cond_copy:

	886 sub x27,x27,#8*4

	887 csel x14,x19,x6,lo

	888 stp xzr,xzr,[x2,#8*0]

	889 csel x15,x20,x7,lo

	890 ldp x6,x7,[x3,#8*4]

	891 ldp x19,x20,[x1,#8*4]

	892 csel x16,x21,x8,lo

	893 stp xzr,xzr,[x2,#8*2]

	894 add x2,x2,#8*4

	895 csel x17,x22,x9,lo

	896 ldp x8,x9,[x3,#8*6]

	897 ldp x21,x22,[x1,#8*6]

	898 add x1,x1,#8*4

	899 stp x14,x15,[x3,#8*0]

	900 stp x16,x17,[x3,#8*2]

	901 add x3,x3,#8*4

	902 stp xzr,xzr,[x1,#8*0]

	903 stp xzr,xzr,[x1,#8*2]

	904 cbnz x27,.Lsqr4x_cond_copy

	905

	906 csel x14,x19,x6,lo

	907 stp xzr,xzr,[x2,#8*0]

	908 csel x15,x20,x7,lo

	909 stp xzr,xzr,[x2,#8*2]

	910 csel x16,x21,x8,lo

	911 csel x17,x22,x9,lo

	912 stp x14,x15,[x3,#8*0]

	913 stp x16,x17,[x3,#8*2]

	914

	915 b .Lsqr8x_done

	916

	917 .align 4

	918 .Lsqr8x8_post_condition:

	919 adc x28,xzr,xzr

	920 ldr x30,[x29,#8] // pull return address

	921 // x19-7,x28 hold result, x6-7 hold modulus

	922 subs x6,x19,x6

	923 ldr x1,[x29,#96] // pull rp

	924 sbcs x7,x20,x7

	925 stp xzr,xzr,[sp,#8*0]

	926 sbcs x8,x21,x8

	927 stp xzr,xzr,[sp,#8*2]

	928 sbcs x9,x22,x9

	929 stp xzr,xzr,[sp,#8*4]

	930 sbcs x10,x23,x10

	931 stp xzr,xzr,[sp,#8*6]

	932 sbcs x11,x24,x11

	933 stp xzr,xzr,[sp,#8*8]

	934 sbcs x12,x25,x12

	935 stp xzr,xzr,[sp,#8*10]

	936 sbcs x13,x26,x13

	937 stp xzr,xzr,[sp,#8*12]

	938 sbcs x28,x28,xzr // did it borrow?

	939 stp xzr,xzr,[sp,#8*14]

	940

	941 // x6-7 hold result-modulus

	942 csel x6,x19,x6,lo

	943 csel x7,x20,x7,lo

	944 csel x8,x21,x8,lo

	945 csel x9,x22,x9,lo

	946 stp x6,x7,[x1,#8*0]

	947 csel x10,x23,x10,lo

	948 csel x11,x24,x11,lo

	949 stp x8,x9,[x1,#8*2]

	950 csel x12,x25,x12,lo

	951 csel x13,x26,x13,lo

	952 stp x10,x11,[x1,#8*4]

	953 stp x12,x13,[x1,#8*6]

	954

	955 .Lsqr8x_done:

	956 ldp x19,x20,[x29,#16]

	957 mov sp,x29

	958 ldp x21,x22,[x29,#32]

	959 mov x0,#1

	960 ldp x23,x24,[x29,#48]

	961 ldp x25,x26,[x29,#64]

	962 ldp x27,x28,[x29,#80]

	963 ldr x29,[sp],#128

	964 ret

	965 .size __bn_sqr8x_mont,.-__bn_sqr8x_mont

	966 .type __bn_mul4x_mont,%function

	967 .align 5

	968 __bn_mul4x_mont:

	969 stp x29,x30,[sp,#-128]!

	970 add x29,sp,#0

	971 stp x19,x20,[sp,#16]

	972 stp x21,x22,[sp,#32]

	973 stp x23,x24,[sp,#48]

	974 stp x25,x26,[sp,#64]

	975 stp x27,x28,[sp,#80]

	976

	977 sub x26,sp,x5,lsl#3

	978 lsl x5,x5,#3

	979 ldr x4,[x4] // *n0

	980 sub sp,x26,#8*4 // alloca

	981

	982 add x10,x2,x5

	983 add x27,x1,x5

	984 stp x0,x10,[x29,#96] // offload rp and &b[num]

	985

	986 ldr x24,[x2,#8*0] // b[0]

	987 ldp x6,x7,[x1,#8*0] // a[0..3]

	988 ldp x8,x9,[x1,#8*2]

	989 add x1,x1,#8*4

	990 mov x19,xzr

	991 mov x20,xzr

	992 mov x21,xzr

	993 mov x22,xzr

	994 ldp x14,x15,[x3,#8*0] // n[0..3]

	995 ldp x16,x17,[x3,#8*2]

	996 adds x3,x3,#8*4 // clear carry bit

	997 mov x0,xzr

	998 mov x28,#0

	999 mov x26,sp

	1000

	1001 .Loop_mul4x_1st_reduction:

	1002 mul x10,x6,x24 // lo(a[0..3]*b[0])

	1003 adc x0,x0,xzr // modulo-scheduled

	1004 mul x11,x7,x24

	1005 add x28,x28,#8

	1006 mul x12,x8,x24

	1007 and x28,x28,#31

	1008 mul x13,x9,x24

	1009 adds x19,x19,x10

	1010 umulh x10,x6,x24 // hi(a[0..3]*b[0])

	1011 adcs x20,x20,x11

	1012 mul x25,x19,x4 // t[0]*n0

	1013 adcs x21,x21,x12

	1014 umulh x11,x7,x24

	1015 adcs x22,x22,x13

	1016 umulh x12,x8,x24

	1017 adc x23,xzr,xzr

	1018 umulh x13,x9,x24

	1019 ldr x24,[x2,x28] // next b[i] (or b[0])

	1020 adds x20,x20,x10

	1021 // () mul x10,x14,x25 // lo(n[0..3]t[0]*n0)

	1022 str x25,[x26],#8 // put aside t[0]*n0 for tail processing

	1023 adcs x21,x21,x11

	1024 mul x11,x15,x25

	1025 adcs x22,x22,x12

	1026 mul x12,x16,x25

	1027 adc x23,x23,x13 // can't overflow

	1028 mul x13,x17,x25

	1029 // (*) adds xzr,x19,x10

	1030 subs xzr,x19,#1 // (*)

	1031 umulh x10,x14,x25 // hi(n[0..3]t[0]n0)

	1032 adcs x19,x20,x11

	1033 umulh x11,x15,x25

	1034 adcs x20,x21,x12

	1035 umulh x12,x16,x25

	1036 adcs x21,x22,x13

	1037 umulh x13,x17,x25

	1038 adcs x22,x23,x0

	1039 adc x0,xzr,xzr

	1040 adds x19,x19,x10

	1041 sub x10,x27,x1

	1042 adcs x20,x20,x11

	1043 adcs x21,x21,x12

	1044 adcs x22,x22,x13

	1045 //adc x0,x0,xzr

	1046 cbnz x28,.Loop_mul4x_1st_reduction

	1047

	1048 cbz x10,.Lmul4x4_post_condition

	1049

	1050 ldp x6,x7,[x1,#8*0] // a[4..7]

	1051 ldp x8,x9,[x1,#8*2]

	1052 add x1,x1,#8*4

	1053 ldr x25,[sp] // a[0]*n0

	1054 ldp x14,x15,[x3,#8*0] // n[4..7]

	1055 ldp x16,x17,[x3,#8*2]

	1056 add x3,x3,#8*4

	1057

	1058 .Loop_mul4x_1st_tail:

	1059 mul x10,x6,x24 // lo(a[4..7]*b[i])

	1060 adc x0,x0,xzr // modulo-scheduled

	1061 mul x11,x7,x24

	1062 add x28,x28,#8

	1063 mul x12,x8,x24

	1064 and x28,x28,#31

	1065 mul x13,x9,x24

	1066 adds x19,x19,x10

	1067 umulh x10,x6,x24 // hi(a[4..7]*b[i])

	1068 adcs x20,x20,x11

	1069 umulh x11,x7,x24

	1070 adcs x21,x21,x12

	1071 umulh x12,x8,x24

	1072 adcs x22,x22,x13

	1073 umulh x13,x9,x24

	1074 adc x23,xzr,xzr

	1075 ldr x24,[x2,x28] // next b[i] (or b[0])

	1076 adds x20,x20,x10

	1077 mul x10,x14,x25 // lo(n[4..7]a[0]n0)

	1078 adcs x21,x21,x11

	1079 mul x11,x15,x25

	1080 adcs x22,x22,x12

	1081 mul x12,x16,x25

	1082 adc x23,x23,x13 // can't overflow

	1083 mul x13,x17,x25

	1084 adds x19,x19,x10

	1085 umulh x10,x14,x25 // hi(n[4..7]a[0]n0)

	1086 adcs x20,x20,x11

	1087 umulh x11,x15,x25

	1088 adcs x21,x21,x12

	1089 umulh x12,x16,x25

	1090 adcs x22,x22,x13

	1091 adcs x23,x23,x0

	1092 umulh x13,x17,x25

	1093 adc x0,xzr,xzr

	1094 ldr x25,[sp,x28] // next t[0]*n0

	1095 str x19,[x26],#8 // result!!!

	1096 adds x19,x20,x10

	1097 sub x10,x27,x1 // done yet?

	1098 adcs x20,x21,x11

	1099 adcs x21,x22,x12

	1100 adcs x22,x23,x13

	1101 //adc x0,x0,xzr

	1102 cbnz x28,.Loop_mul4x_1st_tail

	1103

	1104 sub x11,x27,x5 // rewinded x1

	1105 cbz x10,.Lmul4x_proceed

	1106

	1107 ldp x6,x7,[x1,#8*0]

	1108 ldp x8,x9,[x1,#8*2]

	1109 add x1,x1,#8*4

	1110 ldp x14,x15,[x3,#8*0]

	1111 ldp x16,x17,[x3,#8*2]

	1112 add x3,x3,#8*4

	1113 b .Loop_mul4x_1st_tail

	1114

	1115 .align 5

	1116 .Lmul4x_proceed:

	1117 ldr x24,[x2,#84]! // ++b

	1118 adc x30,x0,xzr

	1119 ldp x6,x7,[x11,#8*0] // a[0..3]

	1120 sub x3,x3,x5 // rewind np

	1121 ldp x8,x9,[x11,#8*2]

	1122 add x1,x11,#8*4

	1123

	1124 stp x19,x20,[x26,#8*0] // result!!!

	1125 ldp x19,x20,[sp,#8*4] // t[0..3]

	1126 stp x21,x22,[x26,#8*2] // result!!!

	1127 ldp x21,x22,[sp,#8*6]

	1128

	1129 ldp x14,x15,[x3,#8*0] // n[0..3]

	1130 mov x26,sp

	1131 ldp x16,x17,[x3,#8*2]

	1132 adds x3,x3,#8*4 // clear carry bit

	1133 mov x0,xzr

	1134

	1135 .align 4

	1136 .Loop_mul4x_reduction:

	1137 mul x10,x6,x24 // lo(a[0..3]*b[4])

	1138 adc x0,x0,xzr // modulo-scheduled

	1139 mul x11,x7,x24

	1140 add x28,x28,#8

	1141 mul x12,x8,x24

	1142 and x28,x28,#31

	1143 mul x13,x9,x24

	1144 adds x19,x19,x10

	1145 umulh x10,x6,x24 // hi(a[0..3]*b[4])

	1146 adcs x20,x20,x11

	1147 mul x25,x19,x4 // t[0]*n0

	1148 adcs x21,x21,x12

	1149 umulh x11,x7,x24

	1150 adcs x22,x22,x13

	1151 umulh x12,x8,x24

	1152 adc x23,xzr,xzr

	1153 umulh x13,x9,x24

	1154 ldr x24,[x2,x28] // next b[i]

	1155 adds x20,x20,x10

	1156 // (*) mul x10,x14,x25

	1157 str x25,[x26],#8 // put aside t[0]*n0 for tail processing

	1158 adcs x21,x21,x11

	1159 mul x11,x15,x25 // lo(n[0..3]t[0]n0

	1160 adcs x22,x22,x12

	1161 mul x12,x16,x25

	1162 adc x23,x23,x13 // can't overflow

	1163 mul x13,x17,x25

	1164 // (*) adds xzr,x19,x10

	1165 subs xzr,x19,#1 // (*)

	1166 umulh x10,x14,x25 // hi(n[0..3]t[0]n0

	1167 adcs x19,x20,x11

	1168 umulh x11,x15,x25

	1169 adcs x20,x21,x12

	1170 umulh x12,x16,x25

	1171 adcs x21,x22,x13

	1172 umulh x13,x17,x25

	1173 adcs x22,x23,x0

	1174 adc x0,xzr,xzr

	1175 adds x19,x19,x10

	1176 adcs x20,x20,x11

	1177 adcs x21,x21,x12

	1178 adcs x22,x22,x13

	1179 //adc x0,x0,xzr

	1180 cbnz x28,.Loop_mul4x_reduction

	1181

	1182 adc x0,x0,xzr

	1183 ldp x10,x11,[x26,#8*4] // t[4..7]

	1184 ldp x12,x13,[x26,#8*6]

	1185 ldp x6,x7,[x1,#8*0] // a[4..7]

	1186 ldp x8,x9,[x1,#8*2]

	1187 add x1,x1,#8*4

	1188 adds x19,x19,x10

	1189 adcs x20,x20,x11

	1190 adcs x21,x21,x12

	1191 adcs x22,x22,x13

	1192 //adc x0,x0,xzr

	1193

	1194 ldr x25,[sp] // t[0]*n0

	1195 ldp x14,x15,[x3,#8*0] // n[4..7]

	1196 ldp x16,x17,[x3,#8*2]

	1197 add x3,x3,#8*4

	1198

	1199 .align 4

	1200 .Loop_mul4x_tail:

	1201 mul x10,x6,x24 // lo(a[4..7]*b[4])

	1202 adc x0,x0,xzr // modulo-scheduled

	1203 mul x11,x7,x24

	1204 add x28,x28,#8

	1205 mul x12,x8,x24

	1206 and x28,x28,#31

	1207 mul x13,x9,x24

	1208 adds x19,x19,x10

	1209 umulh x10,x6,x24 // hi(a[4..7]*b[4])

	1210 adcs x20,x20,x11

	1211 umulh x11,x7,x24

	1212 adcs x21,x21,x12

	1213 umulh x12,x8,x24

	1214 adcs x22,x22,x13

	1215 umulh x13,x9,x24

	1216 adc x23,xzr,xzr

	1217 ldr x24,[x2,x28] // next b[i]

	1218 adds x20,x20,x10

	1219 mul x10,x14,x25 // lo(n[4..7]t[0]n0)

	1220 adcs x21,x21,x11

	1221 mul x11,x15,x25

	1222 adcs x22,x22,x12

	1223 mul x12,x16,x25

	1224 adc x23,x23,x13 // can't overflow

	1225 mul x13,x17,x25

	1226 adds x19,x19,x10

	1227 umulh x10,x14,x25 // hi(n[4..7]t[0]n0)

	1228 adcs x20,x20,x11

	1229 umulh x11,x15,x25

	1230 adcs x21,x21,x12

	1231 umulh x12,x16,x25

	1232 adcs x22,x22,x13

	1233 umulh x13,x17,x25

	1234 adcs x23,x23,x0

	1235 ldr x25,[sp,x28] // next a[0]*n0

	1236 adc x0,xzr,xzr

	1237 str x19,[x26],#8 // result!!!

	1238 adds x19,x20,x10

	1239 sub x10,x27,x1 // done yet?

	1240 adcs x20,x21,x11

	1241 adcs x21,x22,x12

	1242 adcs x22,x23,x13

	1243 //adc x0,x0,xzr

	1244 cbnz x28,.Loop_mul4x_tail

	1245

	1246 sub x11,x3,x5 // rewinded np?

	1247 adc x0,x0,xzr

	1248 cbz x10,.Loop_mul4x_break

	1249

	1250 ldp x10,x11,[x26,#8*4]

	1251 ldp x12,x13,[x26,#8*6]

	1252 ldp x6,x7,[x1,#8*0]

	1253 ldp x8,x9,[x1,#8*2]

	1254 add x1,x1,#8*4

	1255 adds x19,x19,x10

	1256 adcs x20,x20,x11

	1257 adcs x21,x21,x12

	1258 adcs x22,x22,x13

	1259 //adc x0,x0,xzr

	1260 ldp x14,x15,[x3,#8*0]

	1261 ldp x16,x17,[x3,#8*2]

	1262 add x3,x3,#8*4

	1263 b .Loop_mul4x_tail

	1264

	1265 .align 4

	1266 .Loop_mul4x_break:

	1267 ldp x12,x13,[x29,#96] // pull rp and &b[num]

	1268 adds x19,x19,x30

	1269 add x2,x2,#8*4 // bp++

	1270 adcs x20,x20,xzr

	1271 sub x1,x1,x5 // rewind ap

	1272 adcs x21,x21,xzr

	1273 stp x19,x20,[x26,#8*0] // result!!!

	1274 adcs x22,x22,xzr

	1275 ldp x19,x20,[sp,#8*4] // t[0..3]

	1276 adc x30,x0,xzr

	1277 stp x21,x22,[x26,#8*2] // result!!!

	1278 cmp x2,x13 // done yet?

	1279 ldp x21,x22,[sp,#8*6]

	1280 ldp x14,x15,[x11,#8*0] // n[0..3]

	1281 ldp x16,x17,[x11,#8*2]

	1282 add x3,x11,#8*4

	1283 b.eq .Lmul4x_post

	1284

	1285 ldr x24,[x2]

	1286 ldp x6,x7,[x1,#8*0] // a[0..3]

	1287 ldp x8,x9,[x1,#8*2]

	1288 adds x1,x1,#8*4 // clear carry bit

	1289 mov x0,xzr

	1290 mov x26,sp

	1291 b .Loop_mul4x_reduction

	1292

	1293 .align 4

	1294 .Lmul4x_post:

	1295 // Final step. We see if result is larger than modulus, and

	1296 // if it is, subtract the modulus. But comparison implies

	1297 // subtraction. So we subtract modulus, see if it borrowed,

	1298 // and conditionally copy original value.

	1299 mov x0,x12

	1300 mov x27,x12 // x0 copy

	1301 subs x10,x19,x14

	1302 add x26,sp,#8*8

	1303 sbcs x11,x20,x15

	1304 sub x28,x5,#8*4

	1305

	1306 .Lmul4x_sub:

	1307 sbcs x12,x21,x16

	1308 ldp x14,x15,[x3,#8*0]

	1309 sub x28,x28,#8*4

	1310 ldp x19,x20,[x26,#8*0]

	1311 sbcs x13,x22,x17

	1312 ldp x16,x17,[x3,#8*2]

	1313 add x3,x3,#8*4

	1314 ldp x21,x22,[x26,#8*2]

	1315 add x26,x26,#8*4

	1316 stp x10,x11,[x0,#8*0]

	1317 sbcs x10,x19,x14

	1318 stp x12,x13,[x0,#8*2]

	1319 add x0,x0,#8*4

	1320 sbcs x11,x20,x15

	1321 cbnz x28,.Lmul4x_sub

	1322

	1323 sbcs x12,x21,x16

	1324 mov x26,sp

	1325 add x1,sp,#8*4

	1326 ldp x6,x7,[x27,#8*0]

	1327 sbcs x13,x22,x17

	1328 stp x10,x11,[x0,#8*0]

	1329 ldp x8,x9,[x27,#8*2]

	1330 stp x12,x13,[x0,#8*2]

	1331 ldp x19,x20,[x1,#8*0]

	1332 ldp x21,x22,[x1,#8*2]

	1333 sbcs xzr,x30,xzr // did it borrow?

	1334 ldr x30,[x29,#8] // pull return address

	1335

	1336 sub x28,x5,#8*4

	1337 .Lmul4x_cond_copy:

	1338 sub x28,x28,#8*4

	1339 csel x10,x19,x6,lo

	1340 stp xzr,xzr,[x26,#8*0]

	1341 csel x11,x20,x7,lo

	1342 ldp x6,x7,[x27,#8*4]

	1343 ldp x19,x20,[x1,#8*4]

	1344 csel x12,x21,x8,lo

	1345 stp xzr,xzr,[x26,#8*2]

	1346 add x26,x26,#8*4

	1347 csel x13,x22,x9,lo

	1348 ldp x8,x9,[x27,#8*6]

	1349 ldp x21,x22,[x1,#8*6]

	1350 add x1,x1,#8*4

	1351 stp x10,x11,[x27,#8*0]

	1352 stp x12,x13,[x27,#8*2]

	1353 add x27,x27,#8*4

	1354 cbnz x28,.Lmul4x_cond_copy

	1355

	1356 csel x10,x19,x6,lo

	1357 stp xzr,xzr,[x26,#8*0]

	1358 csel x11,x20,x7,lo

	1359 stp xzr,xzr,[x26,#8*2]

	1360 csel x12,x21,x8,lo

	1361 stp xzr,xzr,[x26,#8*3]

	1362 csel x13,x22,x9,lo

	1363 stp xzr,xzr,[x26,#8*4]

	1364 stp x10,x11,[x27,#8*0]

	1365 stp x12,x13,[x27,#8*2]

	1366

	1367 b .Lmul4x_done

	1368

	1369 .align 4

	1370 .Lmul4x4_post_condition:

	1371 adc x0,x0,xzr

	1372 ldr x1,[x29,#96] // pull rp

	1373 // x19-3,x0 hold result, x14-7 hold modulus

	1374 subs x6,x19,x14

	1375 ldr x30,[x29,#8] // pull return address

	1376 sbcs x7,x20,x15

	1377 stp xzr,xzr,[sp,#8*0]

	1378 sbcs x8,x21,x16

	1379 stp xzr,xzr,[sp,#8*2]

	1380 sbcs x9,x22,x17

	1381 stp xzr,xzr,[sp,#8*4]

	1382 sbcs xzr,x0,xzr // did it borrow?

	1383 stp xzr,xzr,[sp,#8*6]

	1384

	1385 // x6-3 hold result-modulus

	1386 csel x6,x19,x6,lo

	1387 csel x7,x20,x7,lo

	1388 csel x8,x21,x8,lo

	1389 csel x9,x22,x9,lo

	1390 stp x6,x7,[x1,#8*0]

	1391 stp x8,x9,[x1,#8*2]

	1392

	1393 .Lmul4x_done:

	1394 ldp x19,x20,[x29,#16]

	1395 mov sp,x29

	1396 ldp x21,x22,[x29,#32]

	1397 mov x0,#1

	1398 ldp x23,x24,[x29,#48]

	1399 ldp x25,x26,[x29,#64]

	1400 ldp x27,x28,[x29,#80]

	1401 ldr x29,[sp],#128

	1402 ret

	1403 .size __bn_mul4x_mont,.-__bn_mul4x_mont

	1404 .byte 77,111,110,116,103,111,109,101,114,121,32,77,117,108,116,105,112,108,105 ,99,97,116,105,111,110,32,102,111,114,32,65,82,77,118,56,44,32,67,82,89,80,84,79 ,71,65,77,83,32,98,121,32,60,97,112,112,114,111,64,111,112,101,110,115,115,108,4 6,111,114,103,62,0

	1405 .align 2

	1406 .align 4

	1407 #endif

OLD	NEW