OLD | NEW |
1 #if defined(__x86_64__) | 1 #if defined(__x86_64__) |
2 .text | 2 .text |
3 | 3 |
4 .extern OPENSSL_ia32cap_P | 4 .extern OPENSSL_ia32cap_P |
5 .hidden OPENSSL_ia32cap_P | 5 .hidden OPENSSL_ia32cap_P |
6 | 6 |
7 .globl bn_mul_mont | 7 .globl bn_mul_mont |
8 .hidden bn_mul_mont | 8 .hidden bn_mul_mont |
9 .type bn_mul_mont,@function | 9 .type bn_mul_mont,@function |
10 .align 16 | 10 .align 16 |
11 bn_mul_mont: | 11 bn_mul_mont: |
| 12 movl %r9d,%r9d |
| 13 movq %rsp,%rax |
12 testl $3,%r9d | 14 testl $3,%r9d |
13 jnz .Lmul_enter | 15 jnz .Lmul_enter |
14 cmpl $8,%r9d | 16 cmpl $8,%r9d |
15 jb .Lmul_enter | 17 jb .Lmul_enter |
16 cmpq %rsi,%rdx | 18 cmpq %rsi,%rdx |
17 jne .Lmul4x_enter | 19 jne .Lmul4x_enter |
18 testl $7,%r9d | 20 testl $7,%r9d |
19 jz .Lsqr8x_enter | 21 jz .Lsqr8x_enter |
20 jmp .Lmul4x_enter | 22 jmp .Lmul4x_enter |
21 | 23 |
22 .align 16 | 24 .align 16 |
23 .Lmul_enter: | 25 .Lmul_enter: |
24 pushq %rbx | 26 pushq %rbx |
25 pushq %rbp | 27 pushq %rbp |
26 pushq %r12 | 28 pushq %r12 |
27 pushq %r13 | 29 pushq %r13 |
28 pushq %r14 | 30 pushq %r14 |
29 pushq %r15 | 31 pushq %r15 |
30 | 32 |
31 » movl» %r9d,%r9d | 33 » negq» %r9 |
32 » leaq» 2(%r9),%r10 | |
33 movq %rsp,%r11 | 34 movq %rsp,%r11 |
34 » negq» %r10 | 35 » leaq» -16(%rsp,%r9,8),%r10 |
35 » leaq» (%rsp,%r10,8),%rsp | 36 » negq» %r9 |
36 » andq» $-1024,%rsp | 37 » andq» $-1024,%r10 |
37 | 38 |
38 » movq» %r11,8(%rsp,%r9,8) | 39 |
| 40 |
| 41 |
| 42 |
| 43 |
| 44 |
| 45 |
| 46 |
| 47 » subq» %r10,%r11 |
| 48 » andq» $-4096,%r11 |
| 49 » leaq» (%r10,%r11,1),%rsp |
| 50 » movq» (%rsp),%r11 |
| 51 » cmpq» %r10,%rsp |
| 52 » ja» .Lmul_page_walk |
| 53 » jmp» .Lmul_page_walk_done |
| 54 |
| 55 .align» 16 |
| 56 .Lmul_page_walk: |
| 57 » leaq» -4096(%rsp),%rsp |
| 58 » movq» (%rsp),%r11 |
| 59 » cmpq» %r10,%rsp |
| 60 » ja» .Lmul_page_walk |
| 61 .Lmul_page_walk_done: |
| 62 |
| 63 » movq» %rax,8(%rsp,%r9,8) |
39 .Lmul_body: | 64 .Lmul_body: |
40 movq %rdx,%r12 | 65 movq %rdx,%r12 |
41 movq (%r8),%r8 | 66 movq (%r8),%r8 |
42 movq (%r12),%rbx | 67 movq (%r12),%rbx |
43 movq (%rsi),%rax | 68 movq (%rsi),%rax |
44 | 69 |
45 xorq %r14,%r14 | 70 xorq %r14,%r14 |
46 xorq %r15,%r15 | 71 xorq %r15,%r15 |
47 | 72 |
48 movq %r8,%rbp | 73 movq %r8,%rbp |
(...skipping 131 matching lines...) Expand 10 before | Expand all | Expand 10 after Loading... |
180 .align 16 | 205 .align 16 |
181 .Lsub: sbbq (%rcx,%r14,8),%rax | 206 .Lsub: sbbq (%rcx,%r14,8),%rax |
182 movq %rax,(%rdi,%r14,8) | 207 movq %rax,(%rdi,%r14,8) |
183 movq 8(%rsi,%r14,8),%rax | 208 movq 8(%rsi,%r14,8),%rax |
184 leaq 1(%r14),%r14 | 209 leaq 1(%r14),%r14 |
185 decq %r15 | 210 decq %r15 |
186 jnz .Lsub | 211 jnz .Lsub |
187 | 212 |
188 sbbq $0,%rax | 213 sbbq $0,%rax |
189 xorq %r14,%r14 | 214 xorq %r14,%r14 |
| 215 andq %rax,%rsi |
| 216 notq %rax |
| 217 movq %rdi,%rcx |
| 218 andq %rax,%rcx |
190 movq %r9,%r15 | 219 movq %r9,%r15 |
| 220 orq %rcx,%rsi |
191 .align 16 | 221 .align 16 |
192 .Lcopy: | 222 .Lcopy: |
193 » movq» (%rsp,%r14,8),%rsi | 223 » movq» (%rsi,%r14,8),%rax |
194 » movq» (%rdi,%r14,8),%rcx | |
195 » xorq» %rcx,%rsi | |
196 » andq» %rax,%rsi | |
197 » xorq» %rcx,%rsi | |
198 movq %r14,(%rsp,%r14,8) | 224 movq %r14,(%rsp,%r14,8) |
199 » movq» %rsi,(%rdi,%r14,8) | 225 » movq» %rax,(%rdi,%r14,8) |
200 leaq 1(%r14),%r14 | 226 leaq 1(%r14),%r14 |
201 subq $1,%r15 | 227 subq $1,%r15 |
202 jnz .Lcopy | 228 jnz .Lcopy |
203 | 229 |
204 movq 8(%rsp,%r9,8),%rsi | 230 movq 8(%rsp,%r9,8),%rsi |
205 movq $1,%rax | 231 movq $1,%rax |
206 » movq» (%rsi),%r15 | 232 » movq» -48(%rsi),%r15 |
207 » movq» 8(%rsi),%r14 | 233 » movq» -40(%rsi),%r14 |
208 » movq» 16(%rsi),%r13 | 234 » movq» -32(%rsi),%r13 |
209 » movq» 24(%rsi),%r12 | 235 » movq» -24(%rsi),%r12 |
210 » movq» 32(%rsi),%rbp | 236 » movq» -16(%rsi),%rbp |
211 » movq» 40(%rsi),%rbx | 237 » movq» -8(%rsi),%rbx |
212 » leaq» 48(%rsi),%rsp | 238 » leaq» (%rsi),%rsp |
213 .Lmul_epilogue: | 239 .Lmul_epilogue: |
214 .byte 0xf3,0xc3 | 240 .byte 0xf3,0xc3 |
215 .size bn_mul_mont,.-bn_mul_mont | 241 .size bn_mul_mont,.-bn_mul_mont |
216 .type bn_mul4x_mont,@function | 242 .type bn_mul4x_mont,@function |
217 .align 16 | 243 .align 16 |
218 bn_mul4x_mont: | 244 bn_mul4x_mont: |
| 245 movl %r9d,%r9d |
| 246 movq %rsp,%rax |
219 .Lmul4x_enter: | 247 .Lmul4x_enter: |
220 pushq %rbx | 248 pushq %rbx |
221 pushq %rbp | 249 pushq %rbp |
222 pushq %r12 | 250 pushq %r12 |
223 pushq %r13 | 251 pushq %r13 |
224 pushq %r14 | 252 pushq %r14 |
225 pushq %r15 | 253 pushq %r15 |
226 | 254 |
227 » movl» %r9d,%r9d | 255 » negq» %r9 |
228 » leaq» 4(%r9),%r10 | |
229 movq %rsp,%r11 | 256 movq %rsp,%r11 |
230 » negq» %r10 | 257 » leaq» -32(%rsp,%r9,8),%r10 |
231 » leaq» (%rsp,%r10,8),%rsp | 258 » negq» %r9 |
232 » andq» $-1024,%rsp | 259 » andq» $-1024,%r10 |
233 | 260 |
234 » movq» %r11,8(%rsp,%r9,8) | 261 » subq» %r10,%r11 |
| 262 » andq» $-4096,%r11 |
| 263 » leaq» (%r10,%r11,1),%rsp |
| 264 » movq» (%rsp),%r11 |
| 265 » cmpq» %r10,%rsp |
| 266 » ja» .Lmul4x_page_walk |
| 267 » jmp» .Lmul4x_page_walk_done |
| 268 |
| 269 .Lmul4x_page_walk: |
| 270 » leaq» -4096(%rsp),%rsp |
| 271 » movq» (%rsp),%r11 |
| 272 » cmpq» %r10,%rsp |
| 273 » ja» .Lmul4x_page_walk |
| 274 .Lmul4x_page_walk_done: |
| 275 |
| 276 » movq» %rax,8(%rsp,%r9,8) |
235 .Lmul4x_body: | 277 .Lmul4x_body: |
236 movq %rdi,16(%rsp,%r9,8) | 278 movq %rdi,16(%rsp,%r9,8) |
237 movq %rdx,%r12 | 279 movq %rdx,%r12 |
238 movq (%r8),%r8 | 280 movq (%r8),%r8 |
239 movq (%r12),%rbx | 281 movq (%r12),%rbx |
240 movq (%rsi),%rax | 282 movq (%rsi),%rax |
241 | 283 |
242 xorq %r14,%r14 | 284 xorq %r14,%r14 |
243 xorq %r15,%r15 | 285 xorq %r15,%r15 |
244 | 286 |
(...skipping 280 matching lines...) Expand 10 before | Expand all | Expand 10 after Loading... |
525 adcq $0,%rdi | 567 adcq $0,%rdi |
526 addq (%rsp,%r9,8),%r13 | 568 addq (%rsp,%r9,8),%r13 |
527 adcq $0,%rdi | 569 adcq $0,%rdi |
528 movq %r13,-8(%rsp,%r15,8) | 570 movq %r13,-8(%rsp,%r15,8) |
529 movq %rdi,(%rsp,%r15,8) | 571 movq %rdi,(%rsp,%r15,8) |
530 | 572 |
531 cmpq %r9,%r14 | 573 cmpq %r9,%r14 |
532 jb .Louter4x | 574 jb .Louter4x |
533 movq 16(%rsp,%r9,8),%rdi | 575 movq 16(%rsp,%r9,8),%rdi |
534 movq 0(%rsp),%rax | 576 movq 0(%rsp),%rax |
| 577 pxor %xmm0,%xmm0 |
535 movq 8(%rsp),%rdx | 578 movq 8(%rsp),%rdx |
536 shrq $2,%r9 | 579 shrq $2,%r9 |
537 leaq (%rsp),%rsi | 580 leaq (%rsp),%rsi |
538 xorq %r14,%r14 | 581 xorq %r14,%r14 |
539 | 582 |
540 subq 0(%rcx),%rax | 583 subq 0(%rcx),%rax |
541 movq 16(%rsi),%rbx | 584 movq 16(%rsi),%rbx |
542 movq 24(%rsi),%rbp | 585 movq 24(%rsi),%rbp |
543 sbbq 8(%rcx),%rdx | 586 sbbq 8(%rcx),%rdx |
544 leaq -1(%r9),%r15 | 587 leaq -1(%r9),%r15 |
(...skipping 17 matching lines...) Expand all Loading... |
562 jnz .Lsub4x | 605 jnz .Lsub4x |
563 | 606 |
564 movq %rax,0(%rdi,%r14,8) | 607 movq %rax,0(%rdi,%r14,8) |
565 movq 32(%rsi,%r14,8),%rax | 608 movq 32(%rsi,%r14,8),%rax |
566 sbbq 16(%rcx,%r14,8),%rbx | 609 sbbq 16(%rcx,%r14,8),%rbx |
567 movq %rdx,8(%rdi,%r14,8) | 610 movq %rdx,8(%rdi,%r14,8) |
568 sbbq 24(%rcx,%r14,8),%rbp | 611 sbbq 24(%rcx,%r14,8),%rbp |
569 movq %rbx,16(%rdi,%r14,8) | 612 movq %rbx,16(%rdi,%r14,8) |
570 | 613 |
571 sbbq $0,%rax | 614 sbbq $0,%rax |
572 movq %rax,%xmm0 | |
573 punpcklqdq %xmm0,%xmm0 | |
574 movq %rbp,24(%rdi,%r14,8) | 615 movq %rbp,24(%rdi,%r14,8) |
575 xorq %r14,%r14 | 616 xorq %r14,%r14 |
| 617 andq %rax,%rsi |
| 618 notq %rax |
| 619 movq %rdi,%rcx |
| 620 andq %rax,%rcx |
| 621 leaq -1(%r9),%r15 |
| 622 orq %rcx,%rsi |
576 | 623 |
577 » movq» %r9,%r15 | 624 » movdqu» (%rsi),%xmm1 |
578 » pxor» %xmm5,%xmm5 | 625 » movdqa» %xmm0,(%rsp) |
| 626 » movdqu» %xmm1,(%rdi) |
579 jmp .Lcopy4x | 627 jmp .Lcopy4x |
580 .align 16 | 628 .align 16 |
581 .Lcopy4x: | 629 .Lcopy4x: |
582 » movdqu» (%rsp,%r14,1),%xmm2 | 630 » movdqu» 16(%rsi,%r14,1),%xmm2 |
583 » movdqu» 16(%rsp,%r14,1),%xmm4 | 631 » movdqu» 32(%rsi,%r14,1),%xmm1 |
584 » movdqu» (%rdi,%r14,1),%xmm1 | 632 » movdqa» %xmm0,16(%rsp,%r14,1) |
585 » movdqu» 16(%rdi,%r14,1),%xmm3 | 633 » movdqu» %xmm2,16(%rdi,%r14,1) |
586 » pxor» %xmm1,%xmm2 | 634 » movdqa» %xmm0,32(%rsp,%r14,1) |
587 » pxor» %xmm3,%xmm4 | 635 » movdqu» %xmm1,32(%rdi,%r14,1) |
588 » pand» %xmm0,%xmm2 | |
589 » pand» %xmm0,%xmm4 | |
590 » pxor» %xmm1,%xmm2 | |
591 » pxor» %xmm3,%xmm4 | |
592 » movdqu» %xmm2,(%rdi,%r14,1) | |
593 » movdqu» %xmm4,16(%rdi,%r14,1) | |
594 » movdqa» %xmm5,(%rsp,%r14,1) | |
595 » movdqa» %xmm5,16(%rsp,%r14,1) | |
596 | |
597 leaq 32(%r14),%r14 | 636 leaq 32(%r14),%r14 |
598 decq %r15 | 637 decq %r15 |
599 jnz .Lcopy4x | 638 jnz .Lcopy4x |
600 | 639 |
601 shlq $2,%r9 | 640 shlq $2,%r9 |
| 641 movdqu 16(%rsi,%r14,1),%xmm2 |
| 642 movdqa %xmm0,16(%rsp,%r14,1) |
| 643 movdqu %xmm2,16(%rdi,%r14,1) |
602 movq 8(%rsp,%r9,8),%rsi | 644 movq 8(%rsp,%r9,8),%rsi |
603 movq $1,%rax | 645 movq $1,%rax |
604 » movq» (%rsi),%r15 | 646 » movq» -48(%rsi),%r15 |
605 » movq» 8(%rsi),%r14 | 647 » movq» -40(%rsi),%r14 |
606 » movq» 16(%rsi),%r13 | 648 » movq» -32(%rsi),%r13 |
607 » movq» 24(%rsi),%r12 | 649 » movq» -24(%rsi),%r12 |
608 » movq» 32(%rsi),%rbp | 650 » movq» -16(%rsi),%rbp |
609 » movq» 40(%rsi),%rbx | 651 » movq» -8(%rsi),%rbx |
610 » leaq» 48(%rsi),%rsp | 652 » leaq» (%rsi),%rsp |
611 .Lmul4x_epilogue: | 653 .Lmul4x_epilogue: |
612 .byte 0xf3,0xc3 | 654 .byte 0xf3,0xc3 |
613 .size bn_mul4x_mont,.-bn_mul4x_mont | 655 .size bn_mul4x_mont,.-bn_mul4x_mont |
614 .extern bn_sqr8x_internal | 656 .extern bn_sqr8x_internal |
615 .hidden bn_sqr8x_internal | 657 .hidden bn_sqr8x_internal |
616 | 658 |
617 .type bn_sqr8x_mont,@function | 659 .type bn_sqr8x_mont,@function |
618 .align 32 | 660 .align 32 |
619 bn_sqr8x_mont: | 661 bn_sqr8x_mont: |
| 662 movq %rsp,%rax |
620 .Lsqr8x_enter: | 663 .Lsqr8x_enter: |
621 movq %rsp,%rax | |
622 pushq %rbx | 664 pushq %rbx |
623 pushq %rbp | 665 pushq %rbp |
624 pushq %r12 | 666 pushq %r12 |
625 pushq %r13 | 667 pushq %r13 |
626 pushq %r14 | 668 pushq %r14 |
627 pushq %r15 | 669 pushq %r15 |
| 670 .Lsqr8x_prologue: |
628 | 671 |
629 movl %r9d,%r10d | 672 movl %r9d,%r10d |
630 shll $3,%r9d | 673 shll $3,%r9d |
631 shlq $3+2,%r10 | 674 shlq $3+2,%r10 |
632 negq %r9 | 675 negq %r9 |
633 | 676 |
634 | 677 |
635 | 678 |
636 | 679 |
637 | 680 |
638 | 681 |
639 leaq -64(%rsp,%r9,2),%r11 | 682 leaq -64(%rsp,%r9,2),%r11 |
| 683 movq %rsp,%rbp |
640 movq (%r8),%r8 | 684 movq (%r8),%r8 |
641 subq %rsi,%r11 | 685 subq %rsi,%r11 |
642 andq $4095,%r11 | 686 andq $4095,%r11 |
643 cmpq %r11,%r10 | 687 cmpq %r11,%r10 |
644 jb .Lsqr8x_sp_alt | 688 jb .Lsqr8x_sp_alt |
645 » subq» %r11,%rsp | 689 » subq» %r11,%rbp |
646 » leaq» -64(%rsp,%r9,2),%rsp | 690 » leaq» -64(%rbp,%r9,2),%rbp |
647 jmp .Lsqr8x_sp_done | 691 jmp .Lsqr8x_sp_done |
648 | 692 |
649 .align 32 | 693 .align 32 |
650 .Lsqr8x_sp_alt: | 694 .Lsqr8x_sp_alt: |
651 leaq 4096-64(,%r9,2),%r10 | 695 leaq 4096-64(,%r9,2),%r10 |
652 » leaq» -64(%rsp,%r9,2),%rsp | 696 » leaq» -64(%rbp,%r9,2),%rbp |
653 subq %r10,%r11 | 697 subq %r10,%r11 |
654 movq $0,%r10 | 698 movq $0,%r10 |
655 cmovcq %r10,%r11 | 699 cmovcq %r10,%r11 |
656 » subq» %r11,%rsp | 700 » subq» %r11,%rbp |
657 .Lsqr8x_sp_done: | 701 .Lsqr8x_sp_done: |
658 » andq» $-64,%rsp | 702 » andq» $-64,%rbp |
| 703 » movq» %rsp,%r11 |
| 704 » subq» %rbp,%r11 |
| 705 » andq» $-4096,%r11 |
| 706 » leaq» (%r11,%rbp,1),%rsp |
| 707 » movq» (%rsp),%r10 |
| 708 » cmpq» %rbp,%rsp |
| 709 » ja» .Lsqr8x_page_walk |
| 710 » jmp» .Lsqr8x_page_walk_done |
| 711 |
| 712 .align» 16 |
| 713 .Lsqr8x_page_walk: |
| 714 » leaq» -4096(%rsp),%rsp |
| 715 » movq» (%rsp),%r10 |
| 716 » cmpq» %rbp,%rsp |
| 717 » ja» .Lsqr8x_page_walk |
| 718 .Lsqr8x_page_walk_done: |
| 719 |
659 movq %r9,%r10 | 720 movq %r9,%r10 |
660 negq %r9 | 721 negq %r9 |
661 | 722 |
662 movq %r8,32(%rsp) | 723 movq %r8,32(%rsp) |
663 movq %rax,40(%rsp) | 724 movq %rax,40(%rsp) |
664 .Lsqr8x_body: | 725 .Lsqr8x_body: |
665 | 726 |
666 .byte 102,72,15,110,209 | 727 .byte 102,72,15,110,209 |
667 pxor %xmm0,%xmm0 | 728 pxor %xmm0,%xmm0 |
668 .byte 102,72,15,110,207 | 729 .byte 102,72,15,110,207 |
(...skipping 72 matching lines...) Expand 10 before | Expand all | Expand 10 after Loading... |
741 movq -24(%rsi),%r12 | 802 movq -24(%rsi),%r12 |
742 movq -16(%rsi),%rbp | 803 movq -16(%rsi),%rbp |
743 movq -8(%rsi),%rbx | 804 movq -8(%rsi),%rbx |
744 leaq (%rsi),%rsp | 805 leaq (%rsi),%rsp |
745 .Lsqr8x_epilogue: | 806 .Lsqr8x_epilogue: |
746 .byte 0xf3,0xc3 | 807 .byte 0xf3,0xc3 |
747 .size bn_sqr8x_mont,.-bn_sqr8x_mont | 808 .size bn_sqr8x_mont,.-bn_sqr8x_mont |
748 .byte 77,111,110,116,103,111,109,101,114,121,32,77,117,108,116,105,112,108,105
,99,97,116,105,111,110,32,102,111,114,32,120,56,54,95,54,52,44,32,67,82,89,80,84
,79,71,65,77,83,32,98,121,32,60,97,112,112,114,111,64,111,112,101,110,115,115,10
8,46,111,114,103,62,0 | 809 .byte 77,111,110,116,103,111,109,101,114,121,32,77,117,108,116,105,112,108,105
,99,97,116,105,111,110,32,102,111,114,32,120,56,54,95,54,52,44,32,67,82,89,80,84
,79,71,65,77,83,32,98,121,32,60,97,112,112,114,111,64,111,112,101,110,115,115,10
8,46,111,114,103,62,0 |
749 .align 16 | 810 .align 16 |
750 #endif | 811 #endif |
OLD | NEW |