; .reg .b16 %rs<9>; .reg .f32 %f<65>; .reg .b32 %r<39>; .reg .b64 %rd<26>; ld.param.v2.u32 {%r20, %r21}, [mvn_compute_sums_fp16_param_0+48]; ld.param.u64 %rd2, [mvn_compute_sums_fp16_param_0+8]; ld.param.u64 %rd3, [mvn_compute_sums_fp16_param_0+16]; ld.param.u32 %r5, [mvn_compute_sums_fp16_param_0+64]; ld.param.u64 %rd4, [mvn_compute_sums_fp16_param_0]; cvta.to.global.u64 %rd1, %rd4; mov.u32 %r22, %ctaid.x; shl.b32 %r23, %r22, 8; mov.u32 %r24, %tid.x; add.s32 %r25, %r23, %r24; div.u32 %r26, %r25, %r21; mul.lo.s32 %r27, %r26, %r21; sub.s32 %r2, %r25, %r27; shl.b32 %r38, %r26, 6; mov.u32 %r4, %ctaid.y; mul.lo.s32 %r6, %r5, %r4; mov.f32 %f50, 0f00000000; mov.u32 %r37, 0; mov.f32 %f49, %f50; $L__BB0_1: mad.lo.s32 %r9, %r38, %r21, %r2; setp.ge.u32 %p1, %r9, %r5; @%p1 bra $L__BB0_3; add.s32 %r28, %r9, %r6; mul.wide.u32 %rd5, %r28, 2; add.s64 %rd6, %rd1, %rd5; ld.global.u16 %rs1, [%rd6]; // begin inline asm { cvt.f32.f16 %f37, %rs1;} // end inline asm add.f32 %f49, %f49, %f37; fma.rn.f32 %f50, %f37, %f37, %f50; $L__BB0_3: add.s32 %r10, %r9, %r21; setp.ge.u32 %p2, %r10, %r5; @%p2 bra $L__BB0_5; add.s32 %r29, %r10, %r6; mul.wide.u32 %rd7, %r29, 2; add.s64 %rd8, %rd1, %rd7; ld.global.u16 %rs2, [%rd8]; // begin inline asm { cvt.f32.f16 %f38, %rs2;} // end inline asm add.f32 %f49, %f49, %f38; fma.rn.f32 %f50, %f38, %f38, %f50; $L__BB0_5: add.s32 %r11, %r10, %r21; setp.ge.u32 %p3, %r11, %r5; @%p3 bra $L__BB0_7; add.s32 %r30, %r11, %r6; mul.wide.u32 %rd9, %r30, 2; add.s64 %rd10, %rd1, %rd9; ld.global.u16 %rs3, [%rd10]; // begin inline asm { cvt.f32.f16 %f39, %rs3;} // end inline asm add.f32 %f49, %f49, %f39; fma.rn.f32 %f50, %f39, %f39, %f50; $L__BB0_7: add.s32 %r12, %r11, %r21; setp.ge.u32 %p4, %r12, %r5; @%p4 bra $L__BB0_9; add.s32 %r31, %r12, %r6; mul.wide.u32 %rd11, %r31, 2; add.s64 %rd12, %rd1, %rd11; ld.global.u16 %rs4, [%rd12]; // begin inline asm { cvt.f32.f16 %f40, %rs4;} // end inline asm add.f32 %f49, %f49, %f40; fma.rn.f32 %f50, %f40, %f40, %f50; $L__BB0_9: add.s32 %r13, %r12, %r21; setp.ge.u32 %p5, %r13, %r5; @%p5 bra $L__BB0_11; add.s32 %r32, %r13, %r6; mul.wide.u32 %rd13, %r32, 2; add.s64 %rd14, %rd1, %rd13; ld.global.u16 %rs5, [%rd14]; // begin inline asm { cvt.f32.f16 %f41, %rs5;} // end inline asm add.f32 %f49, %f49, %f41; fma.rn.f32 %f50, %f41, %f41, %f50; $L__BB0_11: add.s32 %r14, %r13, %r21; setp.ge.u32 %p6, %r14, %r5; @%p6 bra $L__BB0_13; add.s32 %r33, %r14, %r6; mul.wide.u32 %rd15, %r33, 2; add.s64 %rd16, %rd1, %rd15; ld.global.u16 %rs6, [%rd16]; // begin inline asm { cvt.f32.f16 %f42, %rs6;} // end inline asm add.f32 %f49, %f49, %f42; fma.rn.f32 %f50, %f42, %f42, %f50; $L__BB0_13: add.s32 %r15, %r14, %r21; setp.ge.u32 %p7, %r15, %r5; @%p7 bra $L__BB0_15; add.s32 %r34, %r15, %r6; mul.wide.u32 %rd17, %r34, 2; add.s64 %rd18, %rd1, %rd17; ld.global.u16 %rs7, [%rd18]; // begin inline asm { cvt.f32.f16 %f43, %rs7;} // end inline asm add.f32 %f49, %f49, %f43; fma.rn.f32 %f50, %f43, %f43, %f50; $L__BB0_15: add.s32 %r16, %r15, %r21; setp.ge.u32 %p8, %r16, %r5; @%p8 bra $L__BB0_17; add.s32 %r35, %r16, %r6; mul.wide.u32 %rd19, %r35, 2; add.s64 %rd20, %rd1, %rd19; ld.global.u16 %rs8, [%rd20]; // begin inline asm { cvt.f32.f16 %f44, %rs8;} // end inline asm add.f32 %f49, %f49, %f44; fma.rn.f32 %f50, %f44, %f44, %f50; $L__BB0_17: add.s32 %r38, %r38, 8; add.s32 %r37, %r37, 8; setp.ne.s32 %p9, %r37, 64; @%p9 bra $L__BB0_1; cvta.to.global.u64 %rd21, %rd2; mad.lo.s32 %r36, %r21, %r4, %r2; mul.wide.u32 %rd22, %r36, 4; add.s64 %rd23, %rd21, %rd22; atom.global.add.f32 %f45, [%rd23], %f49; cvta.to.global.u64 %rd24, %rd3; add.s64 %rd25, %rd24, %rd22; atom.global.add.f32 %f46, [%rd25], %f50; ret;