simd/jf3dnflt.asm - Issue 1953443002: Update to libjpeg_turbo 1.4.90

Side by Side Diff: simd/jf3dnflt.asm

Issue 1953443002: Update to libjpeg_turbo 1.4.90 (Closed) Base URL: https://chromium.googlesource.com/chromium/deps/libjpeg_turbo.git@master

Patch Set: Created 4 years, 7 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

View unified diff | Download patch

OLD	NEW
	(Empty)
1 ;

2 ; jf3dnflt.asm - floating-point FDCT (3DNow!)

3 ;

4 ; Copyright 2009 Pierre Ossman <ossman@cendio.se> for Cendio AB

5 ;

6 ; Based on

7 ; x86 SIMD extension for IJG JPEG library

8 ; Copyright (C) 1999-2006, MIYASAKA Masaru.

9 ; For conditions of distribution and use, see copyright notice in jsimdext.inc

10 ;

11 ; This file should be assembled with NASM (Netwide Assembler),

12 ; can not be assembled with Microsoft's MASM or any compatible

13 ; assembler (including Borland's Turbo Assembler).

14 ; NASM is available from http://nasm.sourceforge.net/ or

15 ; http://sourceforge.net/project/showfiles.php?group_id=6208

16 ;

17 ; This file contains a floating-point implementation of the forward DCT

18 ; (Discrete Cosine Transform). The following code is based directly on

19 ; the IJG's original jfdctflt.c; see the jfdctflt.c for more details.

20 ;

21 ; [TAB8]

22

23 %include "jsimdext.inc"

24 %include "jdct.inc"

25

26 ; --------------------------------------------------------------------------

27 SECTION SEG_CONST

28

29 alignz 16

30 global EXTN(jconst_fdct_float_3dnow) PRIVATE

31

32 EXTN(jconst_fdct_float_3dnow):

33

34 PD_0_382 times 2 dd 0.382683432365089771728460

35 PD_0_707 times 2 dd 0.707106781186547524400844

36 PD_0_541 times 2 dd 0.541196100146196984399723

37 PD_1_306 times 2 dd 1.306562964876376527856643

38

39 alignz 16

40

41 ; --------------------------------------------------------------------------

42 SECTION SEG_TEXT

43 BITS 32

44 ;

45 ; Perform the forward DCT on one block of samples.

46 ;

47 ; GLOBAL(void)

48 ; jsimd_fdct_float_3dnow (FAST_FLOAT * data)

49 ;

50

51 %define data(b) (b)+8 ; FAST_FLOAT * data

52

53 %define original_ebp ebp+0

54 %define wk(i) ebp-(WK_NUM-(i))*SIZEOF_MMWORD ; mmword wk[WK_NUM]

55 %define WK_NUM 2

56

57 align 16

58 global EXTN(jsimd_fdct_float_3dnow) PRIVATE

59

60 EXTN(jsimd_fdct_float_3dnow):

61 push ebp

62 mov eax,esp ; eax = original ebp

63 sub esp, byte 4

64 and esp, byte (-SIZEOF_MMWORD) ; align to 64 bits

65 mov [esp],eax

66 mov ebp,esp ; ebp = aligned ebp

67 lea esp, [wk(0)]

68 pushpic ebx

69 ; push ecx ; need not be preserved

70 ; push edx ; need not be preserved

71 ; push esi ; unused

72 ; push edi ; unused

73

74 get_GOT ebx ; get GOT address

75

76 ; ---- Pass 1: process rows.

77

78 mov edx, POINTER [data(eax)] ; (FAST_FLOAT *)

79 mov ecx, DCTSIZE/2

80 alignx 16,7

81 .rowloop:

82

83 movq mm0, MMWORD [MMBLOCK(0,0,edx,SIZEOF_FAST_FLOAT)]

84 movq mm1, MMWORD [MMBLOCK(1,0,edx,SIZEOF_FAST_FLOAT)]

85 movq mm2, MMWORD [MMBLOCK(0,3,edx,SIZEOF_FAST_FLOAT)]

86 movq mm3, MMWORD [MMBLOCK(1,3,edx,SIZEOF_FAST_FLOAT)]

87

88 ; mm0=(00 01), mm1=(10 11), mm2=(06 07), mm3=(16 17)

89

90 movq mm4,mm0 ; transpose coefficients

91 punpckldq mm0,mm1 ; mm0=(00 10)=data0

92 punpckhdq mm4,mm1 ; mm4=(01 11)=data1

93 movq mm5,mm2 ; transpose coefficients

94 punpckldq mm2,mm3 ; mm2=(06 16)=data6

95 punpckhdq mm5,mm3 ; mm5=(07 17)=data7

96

97 movq mm6,mm4

98 movq mm7,mm0

99 pfsub mm4,mm2 ; mm4=data1-data6=tmp6

100 pfsub mm0,mm5 ; mm0=data0-data7=tmp7

101 pfadd mm6,mm2 ; mm6=data1+data6=tmp1

102 pfadd mm7,mm5 ; mm7=data0+data7=tmp0

103

104 movq mm1, MMWORD [MMBLOCK(0,1,edx,SIZEOF_FAST_FLOAT)]

105 movq mm3, MMWORD [MMBLOCK(1,1,edx,SIZEOF_FAST_FLOAT)]

106 movq mm2, MMWORD [MMBLOCK(0,2,edx,SIZEOF_FAST_FLOAT)]

107 movq mm5, MMWORD [MMBLOCK(1,2,edx,SIZEOF_FAST_FLOAT)]

108

109 ; mm1=(02 03), mm3=(12 13), mm2=(04 05), mm5=(14 15)

110

111 movq MMWORD [wk(0)], mm4 ; wk(0)=tmp6

112 movq MMWORD [wk(1)], mm0 ; wk(1)=tmp7

113

114 movq mm4,mm1 ; transpose coefficients

115 punpckldq mm1,mm3 ; mm1=(02 12)=data2

116 punpckhdq mm4,mm3 ; mm4=(03 13)=data3

117 movq mm0,mm2 ; transpose coefficients

118 punpckldq mm2,mm5 ; mm2=(04 14)=data4

119 punpckhdq mm0,mm5 ; mm0=(05 15)=data5

120

121 movq mm3,mm4

122 movq mm5,mm1

123 pfadd mm4,mm2 ; mm4=data3+data4=tmp3

124 pfadd mm1,mm0 ; mm1=data2+data5=tmp2

125 pfsub mm3,mm2 ; mm3=data3-data4=tmp4

126 pfsub mm5,mm0 ; mm5=data2-data5=tmp5

127

128 ; -- Even part

129

130 movq mm2,mm7

131 movq mm0,mm6

132 pfsub mm7,mm4 ; mm7=tmp13

133 pfsub mm6,mm1 ; mm6=tmp12

134 pfadd mm2,mm4 ; mm2=tmp10

135 pfadd mm0,mm1 ; mm0=tmp11

136

137 pfadd mm6,mm7

138 pfmul mm6,[GOTOFF(ebx,PD_0_707)] ; mm6=z1

139

140 movq mm4,mm2

141 movq mm1,mm7

142 pfsub mm2,mm0 ; mm2=data4

143 pfsub mm7,mm6 ; mm7=data6

144 pfadd mm4,mm0 ; mm4=data0

145 pfadd mm1,mm6 ; mm1=data2

146

147 movq MMWORD [MMBLOCK(0,2,edx,SIZEOF_FAST_FLOAT)], mm2

148 movq MMWORD [MMBLOCK(0,3,edx,SIZEOF_FAST_FLOAT)], mm7

149 movq MMWORD [MMBLOCK(0,0,edx,SIZEOF_FAST_FLOAT)], mm4

150 movq MMWORD [MMBLOCK(0,1,edx,SIZEOF_FAST_FLOAT)], mm1

151

152 ; -- Odd part

153

154 movq mm0, MMWORD [wk(0)] ; mm0=tmp6

155 movq mm6, MMWORD [wk(1)] ; mm6=tmp7

156

157 pfadd mm3,mm5 ; mm3=tmp10

158 pfadd mm5,mm0 ; mm5=tmp11

159 pfadd mm0,mm6 ; mm0=tmp12, mm6=tmp7

160

161 pfmul mm5,[GOTOFF(ebx,PD_0_707)] ; mm5=z3

162

163 movq mm2,mm3 ; mm2=tmp10

164 pfsub mm3,mm0

165 pfmul mm3,[GOTOFF(ebx,PD_0_382)] ; mm3=z5

166 pfmul mm2,[GOTOFF(ebx,PD_0_541)] ; mm2=MULTIPLY(tmp10,FIX_0_54119610)

167 pfmul mm0,[GOTOFF(ebx,PD_1_306)] ; mm0=MULTIPLY(tmp12,FIX_1_30656296)

168 pfadd mm2,mm3 ; mm2=z2

169 pfadd mm0,mm3 ; mm0=z4

170

171 movq mm7,mm6

172 pfsub mm6,mm5 ; mm6=z13

173 pfadd mm7,mm5 ; mm7=z11

174

175 movq mm4,mm6

176 movq mm1,mm7

177 pfsub mm6,mm2 ; mm6=data3

178 pfsub mm7,mm0 ; mm7=data7

179 pfadd mm4,mm2 ; mm4=data5

180 pfadd mm1,mm0 ; mm1=data1

181

182 movq MMWORD [MMBLOCK(1,1,edx,SIZEOF_FAST_FLOAT)], mm6

183 movq MMWORD [MMBLOCK(1,3,edx,SIZEOF_FAST_FLOAT)], mm7

184 movq MMWORD [MMBLOCK(1,2,edx,SIZEOF_FAST_FLOAT)], mm4

185 movq MMWORD [MMBLOCK(1,0,edx,SIZEOF_FAST_FLOAT)], mm1

186

187 add edx, byte 2DCTSIZESIZEOF_FAST_FLOAT

188 dec ecx

189 jnz near .rowloop

190

191 ; ---- Pass 2: process columns.

192

193 mov edx, POINTER [data(eax)] ; (FAST_FLOAT *)

194 mov ecx, DCTSIZE/2

195 alignx 16,7

196 .columnloop:

197

198 movq mm0, MMWORD [MMBLOCK(0,0,edx,SIZEOF_FAST_FLOAT)]

199 movq mm1, MMWORD [MMBLOCK(1,0,edx,SIZEOF_FAST_FLOAT)]

200 movq mm2, MMWORD [MMBLOCK(6,0,edx,SIZEOF_FAST_FLOAT)]

201 movq mm3, MMWORD [MMBLOCK(7,0,edx,SIZEOF_FAST_FLOAT)]

202

203 ; mm0=(00 10), mm1=(01 11), mm2=(60 70), mm3=(61 71)

204

205 movq mm4,mm0 ; transpose coefficients

206 punpckldq mm0,mm1 ; mm0=(00 01)=data0

207 punpckhdq mm4,mm1 ; mm4=(10 11)=data1

208 movq mm5,mm2 ; transpose coefficients

209 punpckldq mm2,mm3 ; mm2=(60 61)=data6

210 punpckhdq mm5,mm3 ; mm5=(70 71)=data7

211

212 movq mm6,mm4

213 movq mm7,mm0

214 pfsub mm4,mm2 ; mm4=data1-data6=tmp6

215 pfsub mm0,mm5 ; mm0=data0-data7=tmp7

216 pfadd mm6,mm2 ; mm6=data1+data6=tmp1

217 pfadd mm7,mm5 ; mm7=data0+data7=tmp0

218

219 movq mm1, MMWORD [MMBLOCK(2,0,edx,SIZEOF_FAST_FLOAT)]

220 movq mm3, MMWORD [MMBLOCK(3,0,edx,SIZEOF_FAST_FLOAT)]

221 movq mm2, MMWORD [MMBLOCK(4,0,edx,SIZEOF_FAST_FLOAT)]

222 movq mm5, MMWORD [MMBLOCK(5,0,edx,SIZEOF_FAST_FLOAT)]

223

224 ; mm1=(20 30), mm3=(21 31), mm2=(40 50), mm5=(41 51)

225

226 movq MMWORD [wk(0)], mm4 ; wk(0)=tmp6

227 movq MMWORD [wk(1)], mm0 ; wk(1)=tmp7

228

229 movq mm4,mm1 ; transpose coefficients

230 punpckldq mm1,mm3 ; mm1=(20 21)=data2

231 punpckhdq mm4,mm3 ; mm4=(30 31)=data3

232 movq mm0,mm2 ; transpose coefficients

233 punpckldq mm2,mm5 ; mm2=(40 41)=data4

234 punpckhdq mm0,mm5 ; mm0=(50 51)=data5

235

236 movq mm3,mm4

237 movq mm5,mm1

238 pfadd mm4,mm2 ; mm4=data3+data4=tmp3

239 pfadd mm1,mm0 ; mm1=data2+data5=tmp2

240 pfsub mm3,mm2 ; mm3=data3-data4=tmp4

241 pfsub mm5,mm0 ; mm5=data2-data5=tmp5

242

243 ; -- Even part

244

245 movq mm2,mm7

246 movq mm0,mm6

247 pfsub mm7,mm4 ; mm7=tmp13

248 pfsub mm6,mm1 ; mm6=tmp12

249 pfadd mm2,mm4 ; mm2=tmp10

250 pfadd mm0,mm1 ; mm0=tmp11

251

252 pfadd mm6,mm7

253 pfmul mm6,[GOTOFF(ebx,PD_0_707)] ; mm6=z1

254

255 movq mm4,mm2

256 movq mm1,mm7

257 pfsub mm2,mm0 ; mm2=data4

258 pfsub mm7,mm6 ; mm7=data6

259 pfadd mm4,mm0 ; mm4=data0

260 pfadd mm1,mm6 ; mm1=data2

261

262 movq MMWORD [MMBLOCK(4,0,edx,SIZEOF_FAST_FLOAT)], mm2

263 movq MMWORD [MMBLOCK(6,0,edx,SIZEOF_FAST_FLOAT)], mm7

264 movq MMWORD [MMBLOCK(0,0,edx,SIZEOF_FAST_FLOAT)], mm4

265 movq MMWORD [MMBLOCK(2,0,edx,SIZEOF_FAST_FLOAT)], mm1

266

267 ; -- Odd part

268

269 movq mm0, MMWORD [wk(0)] ; mm0=tmp6

270 movq mm6, MMWORD [wk(1)] ; mm6=tmp7

271

272 pfadd mm3,mm5 ; mm3=tmp10

273 pfadd mm5,mm0 ; mm5=tmp11

274 pfadd mm0,mm6 ; mm0=tmp12, mm6=tmp7

275

276 pfmul mm5,[GOTOFF(ebx,PD_0_707)] ; mm5=z3

277

278 movq mm2,mm3 ; mm2=tmp10

279 pfsub mm3,mm0

280 pfmul mm3,[GOTOFF(ebx,PD_0_382)] ; mm3=z5

281 pfmul mm2,[GOTOFF(ebx,PD_0_541)] ; mm2=MULTIPLY(tmp10,FIX_0_54119610)

282 pfmul mm0,[GOTOFF(ebx,PD_1_306)] ; mm0=MULTIPLY(tmp12,FIX_1_30656296)

283 pfadd mm2,mm3 ; mm2=z2

284 pfadd mm0,mm3 ; mm0=z4

285

286 movq mm7,mm6

287 pfsub mm6,mm5 ; mm6=z13

288 pfadd mm7,mm5 ; mm7=z11

289

290 movq mm4,mm6

291 movq mm1,mm7

292 pfsub mm6,mm2 ; mm6=data3

293 pfsub mm7,mm0 ; mm7=data7

294 pfadd mm4,mm2 ; mm4=data5

295 pfadd mm1,mm0 ; mm1=data1

296

297 movq MMWORD [MMBLOCK(3,0,edx,SIZEOF_FAST_FLOAT)], mm6

298 movq MMWORD [MMBLOCK(7,0,edx,SIZEOF_FAST_FLOAT)], mm7

299 movq MMWORD [MMBLOCK(5,0,edx,SIZEOF_FAST_FLOAT)], mm4

300 movq MMWORD [MMBLOCK(1,0,edx,SIZEOF_FAST_FLOAT)], mm1

301

302 add edx, byte 2*SIZEOF_FAST_FLOAT

303 dec ecx

304 jnz near .columnloop

305

306 femms ; empty MMX/3DNow! state

307

308 ; pop edi ; unused

309 ; pop esi ; unused

310 ; pop edx ; need not be preserved

311 ; pop ecx ; need not be preserved

312 poppic ebx

313 mov esp,ebp ; esp <- aligned ebp

314 pop esp ; esp <- original ebp

315 pop ebp

316 ret

317

318 ; For some reason, the OS X linker does not honor the request to align the

319 ; segment unless we do this.

320 align 16

OLD	NEW

« no previous file with comments | « simd/jdsamss2-64.asm ('k') | simd/jfdctflt-3dn.asm » ('j') | no next file with comments »