1]; .global .align 1 .b8 _ZN37_INTERNAL_36609967_7_gemv_cu_0ac0658e6thrust12placeholders2_2E[1]; .global .align 1 .b8 _ZN37_INTERNAL_36609967_7_gemv_cu_0ac0658e6thrust12placeholders2_3E[1]; .global .align 1 .b8 _ZN37_INTERNAL_36609967_7_gemv_cu_0ac0658e6thrust12placeholders2_4E[1]; .global .align 1 .b8 _ZN37_INTERNAL_36609967_7_gemv_cu_0ac0658e6thrust12placeholders2_5E[1]; .global .align 1 .b8 _ZN37_INTERNAL_36609967_7_gemv_cu_0ac0658e6thrust12placeholders2_6E[1]; .global .align 1 .b8 _ZN37_INTERNAL_36609967_7_gemv_cu_0ac0658e6thrust12placeholders2_7E[1]; .global .align 1 .b8 _ZN37_INTERNAL_36609967_7_gemv_cu_0ac0658e6thrust12placeholders2_8E[1]; .global .align 1 .b8 _ZN37_INTERNAL_36609967_7_gemv_cu_0ac0658e6thrust12placeholders2_9E[1]; .global .align 1 .b8 _ZN37_INTERNAL_36609967_7_gemv_cu_0ac0658e6thrust12placeholders3_10E[1]; .visible .entry _Z28dequant_gemv_group128_batch723DequantGemvKernelParams( .param .align 8 .b8 _Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0[80] ) { .reg .pred %p<30>; .reg .b16 %rs<721>; .reg .f32 %f<1357>; .reg .b32 %r<679>; .reg .b64 %rd<100>; // demoted variable .shared .align 16 .b8 _ZZ9gemv_int4ILi4ELi128ELi7EEvP6__halfPKS0_S3_PKjPKhS3_iiiiffbE12temp_storage[4480]; ld.param.v2.u32 {%r57, %r58}, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+48]; ld.param.v2.u32 {%r59, %r60}, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+56]; ld.param.v2.f32 {%f84, %f85}, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+64]; ld.param.v4.u8 {%rs73, %rs74, %rs75, %rs76}, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+72]; ld.param.u64 %rd33, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+40]; ld.param.u64 %rd32, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+32]; ld.param.u64 %rd31, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+24]; ld.param.u64 %rd30, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+16]; ld.param.u64 %rd29, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+8]; cvta.to.global.u64 %rd2, %rd29; mov.u32 %r678, %tid.y; shl.b32 %r61, %r678, 5; mov.u32 %r62, %tid.x; add.s32 %r677, %r61, %r62; shl.b32 %r676, %r677, 2; setp.ge.u32 %p1, %r676, %r59; mov.f32 %f1329, 0f00000000; mov.f32 %f1330, %f1329; mov.f32 %f1331, %f1329; mov.f32 %f1332, %f1329; mov.f32 %f1333, %f1329; mov.f32 %f1334, %f1329; mov.f32 %f1335, %f1329; @%p1 bra $L__BB0_9; cvta.to.global.u64 %rd3, %rd30; mov.u32 %r63, %ctaid.x; mul.lo.s32 %r6, %r60, %r63; $L__BB0_2: mad.lo.s32 %r69, %r59, %r63, %r676; mul.wide.u32 %rd40, %r69, 4; add.s64 %rd35, %rd31, %rd40; // begin inline asm createpolicy.fractional.L2::evict_first.L2::evict_first.b64 %rd34, 1.0; // end inline asm // begin inline asm ld.global.L1::no_allocate.L2::cache_hint.v4.u32 {%r64,%r65,%r66,%r67}, [%rd35], %rd34; // end inline asm shr.u32 %r71, %r62, 2; shl.b32 %r72, %r678, 3; add.s32 %r14, %r72, %r71; add.s32 %r15, %r14, %r6; mul.wide.s32 %rd41, %r15, 2; add.s64 %rd38, %rd33, %rd41; // begin inline asm createpolicy.fractional.L2::evict_first.L2::evict_first.b64 %rd37, 1.0; // end inline asm // begin inline asm ld.global.L1::evict_last.L2::cache_hint.u16 %rs81, [%rd38], %rd37; // end inline asm // begin inline asm { cvt.f32.f16 %f93, %rs81;} // end inline asm shl.b16 %rs720, %rs73, 3; setp.eq.s64 %p2, %rd32, 0; @%p2 bra $L__BB0_4; shr.u32 %r73, %r15, 31; add.s32 %r74, %r15, %r73; shr.s32 %r75, %r74, 1; cvt.s64.s32 %rd45, %r75; add.s64 %rd43, %rd32, %rd45; // begin inline asm createpolicy.fractional.L2::evict_first.L2::evict_first.b64 %rd42, 1.0; // end inline asm // begin inline asm ld.global.L1::evict_last.L2::cache_hint.u8 %rs83, [%rd43], %rd42; // end inline asm cvt.u32.u16 %r76, %rs83; and.b32 %r77, %r76, 255; shl.b32 %r78, %r14, 2; and.b32 %r79, %r78, 4; shr.u32 %r80, %r77, %r79; cvt.u16.u32 %rs84, %r80; and.b16 %rs720, %rs84, 15; $L__BB0_4: shl.b32 %r16, %r677, 5; setp.ge.s32 %p3, %r16, %r57; @%p3 bra $L__BB0_8; setp.eq.s16 %p4, %rs73, 0; shr.u16 %rs86, %rs720, 3; and.b16 %rs87, %rs86, 1; setp.eq.b16 %p5, %rs87, 1; and.pred %p6, %p4, %p5; selp.b16 %rs88, -16, 0, %p6; or.b16 %rs89, %rs88, %rs720; cvt.s16.s8 %rs90, %rs89; cvt.rn.f32.s16 %f9, %rs90; mul.wide.s32 %rd46, %r16, 2; add.s64 %rd7, %rd3, %rd46; ld.global.v4.u32 {%r81, %r82, %r83, %r84}, [%rd7]; mul.wide.s32 %rd47, %r57, 2; add.s64 %rd48, %rd7, %rd47; ld.global.v4.u32 {%r85, %r86, %r87, %r88}, [%rd48]; add.s32 %r89, %r16, %r57; add.s32 %r90, %r89, %r57; mul.wide.s32 %rd49, %r90, 2; add.s64 %rd8, %rd3, %rd49; ld.global.v4.u32 {%r91, %r92, %r93, %r94}, [%rd8]; add.s64 %rd50, %rd8, %rd47; ld.global.v4.u32 {%r95, %r96, %r97, %r98}, [%rd50]; add.s64 %rd51, %rd50, %rd47; ld.global.v4.u32 {%r99, %r100, %r101, %r102}, [%rd51]; add.s64 %rd52, %rd51, %rd47; ld.global.v4.u32 {%r103, %r104, %r105, %r106}, [%rd52]; add.s64 %rd53, %rd52, %rd47; ld.global.v4.u32 {%r107, %r108, %r109, %r110}, [%rd53]; cvt.u16.u32 %rs5, %r64; and.b16 %rs6, %rs5, 15; shr.u32 %r111, %r64, 4; cvt.u16.u32 %rs7, %r111; and.b16 %rs8, %rs7, 15; shr.u32 %r112, %r64, 8; cvt.u16.u32 %rs9, %r112; and.b16 %rs10, %rs9, 15; shr.u32 %r113, %r64, 12; cvt.u16.u32 %rs11, %r113; and.b16 %rs12, %rs11, 15; shr.u32 %r114, %r64, 16; cvt.u16.u32 %rs13, %r114; and.b16 %rs14, %rs13, 15; shr.u32 %r115, %r64, 20; cvt.u16.u32 %rs15, %r115; and.b16 %rs16, %rs15, 15; shr.u32 %r116, %r64, 24; cvt.u16.u32 %rs17, %r116; and.b16 %rs18, %rs17, 15; shr.u32 %r117, %r64, 28; cvt.u16.u32 %rs19, %r117; add.s32 %r118, %r89, 8; mul.wide.s32 %rd54, %r118, 2; add.s64 %rd9, %rd3, %rd54; add.s32 %r119, %r118, %r57; add.s32 %r120, %r119, %r57; mul.wide.s32 %rd55, %r120, 2; add.s64 %rd10, %rd3, %rd55; add.s32 %r121, %r120, %r57; mul.wide.s32 %rd56, %r121, 2; add.s64 %rd11, %rd3, %rd56; add.s32 %r122, %r121, %r57; mul.wide.s32 %rd57, %r122, 2; add.s64 %rd12, %rd3, %rd57; add.s32 %r123, %r122, %r57; mul.wide.s32 %rd58, %r123, 2; add.s64 %rd13, %rd3, %rd58; cvt.u16.u32 %rs20, %r65; and.b16 %rs21, %rs20, 15; shr.u32 %r124, %r65, 4; cvt.u16.u32 %rs22, %r124; and.b16 %rs23, %rs22, 15; shr.u32 %r125, %r65, 8; cvt.u16.u32 %rs24, %r125; and.b16 %rs25, %rs24, 15; shr.u32 %r126, %r65, 12; cvt.u16.u32 %rs26, %r126; and.b16 %rs27, %rs26, 15; shr.u32 %r127, %r65, 16; cvt.u16.u32 %rs28, %r127; and.b16 %rs29, %rs28, 15; shr.u32 %r128, %r65, 20; cvt.u16.u32 %rs30, %r128; and.b16 %rs31, %rs30, 15; shr.u32 %r129, %r65, 24; cvt.u16.u32 %rs32, %r129; and.b16 %rs33, %rs32, 15; shr.u32 %r130, %r65, 28; cvt.u16.u32 %rs34, %r130; cvt.u16.u32 %rs35, %r66; and.b16 %rs36, %rs35, 15; shr.u32 %r131, %r66, 4; cvt.u16.u32 %rs37, %r131; and.b16 %rs38, %rs37, 15; shr.u32 %r132, %r66, 8; cvt.u16.u32 %rs39, %r132; and.b16 %rs40, %rs39, 15; shr.u32 %r133, %r66, 12; cvt.u16.u32 %rs41, %r133; and.b16 %rs42, %rs41, 15; shr.u32 %r134, %r66, 16; cvt.u16.u32 %rs43, %r134; and.b16 %rs44, %rs43, 15; shr.u32 %r135, %r66, 20; cvt.u16.u32 %rs45, %r135; and.b16 %rs46, %rs45, 15; shr.u32 %r136, %r66, 24; cvt.u16.u32 %rs47, %r136; and.b16 %rs48, %rs47, 15; shr.u32 %r137, %r66, 28; cvt.u16.u32 %rs49, %r137; cvt.u16.u32 %rs50, %r67; and.b16 %rs51, %rs50, 15; shr.u32 %r138, %r67, 4; cvt.u16.u32 %rs52, %r138; and.b16 %rs53, %rs52, 15; shr.u32 %r139, %r67, 8; cvt.u16.u32 %rs54, %r139; and.b16 %rs55, %rs54, 15; shr.u32 %r140, %r67, 12; cvt.u16.u32 %rs56, %r140; and.b16 %rs57, %rs56, 15; shr.u32 %r141, %r67, 16; cvt.u16.u32 %rs58, %r141; and.b16 %rs59, %rs58, 15; shr.u32 %r142, %r67, 20; cvt.u16.u32 %rs60, %r142; and.b16 %rs61, %rs60, 15; shr.u32 %r143, %r67, 24; cvt.u16.u32 %rs62, %r143; and.b16 %rs63, %rs62, 15; shr.u32 %r144, %r67, 28; cvt.u16.u32 %rs64, %r144; @%p4 bra $L__BB0_7; cvt.rn.f32.s16 %f318, %rs6; sub.ftz.f32 %f319, %f318, %f9; mul.ftz.f32 %f320, %f93, %f319; mov.b32 {%rs91, %rs98}, %r81; // begin inline asm { cvt.f32.f16 %f94, %rs91;} // end inline asm fma.rn.ftz.f32 %f321, %f320, %f94, %f1335; mov.b32 {%rs92, %rs99}, %r85; // begin inline asm { cvt.f32.f16 %f95, %rs92;} // end inline asm fma.rn.ftz.f32 %f322, %f320, %f95, %f1334; mov.b32 {%rs93, %rs100}, %r91; // begin inline asm { cvt.f32.f16 %f96, %rs93;} // end inline asm fma.rn.ftz.f32 %f323, %f320, %f96, %f1333; mov.b32 {%rs94, %rs101}, %r95; // begin inline asm { cvt.f32.f16 %f97, %rs94;} // end inline asm fma.rn.ftz.f32 %f324, %f320, %f97, %f1332; mov.b32 {%rs95, %rs102}, %r99; // begin inline asm { cvt.f32.f16 %f98, %rs95;} // end inline asm fma.rn.ftz.f32 %f325, %f320, %f98, %f1331; mov.b32 {%rs96, %rs103}, %r103; // begin inline asm { cvt.f32.f16 %f99, %rs96;} // end inline asm fma.rn.ftz.f32 %f326, %f320, %f99, %f1330; mov.b32 {%rs97, %rs104}, %r107; // begin inline asm { cvt.f32.f16 %f100, %rs97;} // end inline asm fma.rn.ftz.f32 %f327, %f320, %f100, %f1329; cvt.rn.f32.s16 %f328, %rs8; sub.ftz.f32 %f329, %f328, %f9; mul.ftz.f32 %f330, %f93, %f329; // begin inline asm { cvt.f32.f16 %f101, %rs98;} // end inline asm fma.rn.ftz.f32 %f331, %f330, %f101, %f321; // begin inline asm { cvt.f32.f16 %f102, %rs99;} // end inline asm fma.rn.ftz.f32 %f332, %f330, %f102, %f322; // begin inline asm { cvt.f32.f16 %f103, %rs100;} // end inline asm fma.rn.ftz.f32 %f333, %f330, %f103, %f323; // begin inline asm { cvt.f32.f16 %f104, %rs101;} // end inline asm fma.rn.ftz.f32 %f334, %f330, %f104, %f324; // begin inline asm { cvt.f32.f16 %f105, %rs102;} // end inline asm fma.rn.ftz.f32 %f335, %f330, %f105, %f325; // begin inline asm { cvt.f32.f16 %f106, %rs103;} // end inline asm fma.rn.ftz.f32 %f336, %f330, %f106, %f326; // begin inline asm { cvt.f32.f16 %f107, %rs104;} // end inline asm fma.rn.ftz.f32 %f337, %f330, %f107, %f327; cvt.rn.f32.s16 %f338, %rs10; sub.ftz.f32 %f339, %f338, %f9; mul.ftz.f32 %f340, %f93, %f339; mov.b32 {%rs105, %rs112}, %r82; // begin inline asm { cvt.f32.f16 %f108, %rs105;} // end inline asm fma.rn.ftz.f32 %f341, %f340, %f108, %f331; mov.b32 {%rs106, %rs113}, %r86; // begin inline asm { cvt.f32.f16 %f109, %rs106;} // end inline asm fma.rn.ftz.f32 %f342, %f340, %f109, %f332; mov.b32 {%rs107, %rs114}, %r92; // begin inline asm { cvt.f32.f16 %f110, %rs107;} // end inline asm fma.rn.ftz.f32 %f343, %f340, %f110, %f333; mov.b32 {%rs108, %rs115}, %r96; // begin inline asm { cvt.f32.f16 %f111, %rs108;} // end inline asm fma.rn.ftz.f32 %f344, %f340, %f111, %f334; mov.b32 {%rs109, %rs116}, %r100; // begin inline asm { cvt.f32.f16 %f112, %rs109;} // end inline asm fma.rn.ftz.f32 %f345, %f340, %f112, %f335; mov.b32 {%rs110, %rs117}, %r104; // begin inline asm { cvt.f32.f16 %f113, %rs110;} // end inline asm fma.rn.ftz.f32 %f346, %f340, %f113, %f336; mov.b32 {%rs111, %rs118}, %r108; // begin inline asm { cvt.f32.f16 %f114, %rs111;} // end inline asm fma.rn.ftz.f32 %f347, %f340, %f114, %f337; cvt.rn.f32.s16 %f348, %rs12; sub.ftz.f32 %f349, %f348, %f9; mul.ftz.f32 %f350, %f93, %f349; // begin inline asm { cvt.f32.f16 %f115, %rs112;} // end inline asm fma.rn.ftz.f32 %f351, %f350, %f115, %f341; // begin inline asm { cvt.f32.f16 %f116, %rs113;} // end inline asm fma.rn.ftz.f32 %f352, %f350, %f116, %f342; // begin inline asm { cvt.f32.f16 %f117, %rs114;} // end inline asm fma.rn.ftz.f32 %f353, %f350, %f117, %f343; // begin inline asm { cvt.f32.f16 %f118, %rs115;} // end inline asm fma.rn.ftz.f32 %f354, %f350, %f118, %f344; // begin inline asm { cvt.f32.f16 %f119, %rs116;} // end inline asm fma.rn.ftz.f32 %f355, %f350, %f119, %f345; // begin inline asm { cvt.f32.f16 %f120, %rs117;} // end inline asm fma.rn.ftz.f32 %f356, %f350, %f120, %f346; // begin inline asm { cvt.f32.f16 %f121, %rs118;} // end inline asm fma.rn.ftz.f32 %f357, %f350, %f121, %f347; cvt.rn.f32.s16 %f358, %rs14; sub.ftz.f32 %f359, %f358, %f9; mul.ftz.f32 %f360, %f93, %f359; mov.b32 {%rs119, %rs126}, %r83; // begin inline asm { cvt.f32.f16 %f122, %rs119;} // end inline asm fma.rn.ftz.f32 %f361, %f360, %f122, %f351; mov.b32 {%rs120, %rs127}, %r87; // begin inline asm { cvt.f32.f16 %f123, %rs120;} // end inline asm fma.rn.ftz.f32 %f362, %f360, %f123, %f352; mov.b32 {%rs121, %rs128}, %r93; // begin inline asm { cvt.f32.f16 %f124, %rs121;} // end inline asm fma.rn.ftz.f32 %f363, %f360, %f124, %f353; mov.b32 {%rs122, %rs129}, %r97; // begin inline asm { cvt.f32.f16 %f125, %rs122;} // end inline asm fma.rn.ftz.f32 %f364, %f360, %f125, %f354; mov.b32 {%rs123, %rs130}, %r101; // begin inline asm { cvt.f32.f16 %f126, %rs123;} // end inline asm fma.rn.ftz.f32 %f365, %f360, %f126, %f355; mov.b32 {%rs124, %rs131}, %r105; // begin inline asm { cvt.f32.f16 %f127, %rs124;} // end inline asm fma.rn.ftz.f32 %f366, %f360, %f127, %f356; mov.b32 {%rs125, %rs132}, %r109; // begin inline asm { cvt.f32.f16 %f128, %rs125;} // end inline asm fma.rn.ftz.f32 %f367, %f360, %f128, %f357; cvt.rn.f32.s16 %f368, %rs16; sub.ftz.f32 %f369, %f368, %f9; mul.ftz.f32 %f370, %f93, %f369; // begin inline asm { cvt.f32.f16 %f129, %rs126;} // end inline asm fma.rn.ftz.f32 %f371, %f370, %f129, %f361; // begin inline asm { cvt.f32.f16 %f130, %rs127;} // end inline asm fma.rn.ftz.f32 %f372, %f370, %f130, %f362; // begin inline asm { cvt.f32.f16 %f131, %rs128;} // end inline asm fma.rn.ftz.f32 %f373, %f370, %f131, %f363; // begin inline asm { cvt.f32.f16 %f132, %rs129;} // end inline asm fma.rn.ftz.f32 %f374, %f370, %f132, %f364; // begin inline asm { cvt.f32.f16 %f133, %rs130;} // end inline asm fma.rn.ftz.f32 %f375, %f370, %f133, %f365; // begin inline asm { cvt.f32.f16 %f134, %rs131;} // end inline asm fma.rn.ftz.f32 %f376, %f370, %f134, %f366; // begin inline asm { cvt.f32.f16 %f135, %rs132;} // end inline asm fma.rn.ftz.f32 %f377, %f370, %f135, %f367; cvt.rn.f32.s16 %f378, %rs18; sub.ftz.f32 %f379, %f378, %f9; mul.ftz.f32 %f380, %f93, %f379; mov.b32 {%rs133, %rs140}, %r84; // begin inline asm { cvt.f32.f16 %f136, %rs133;} // end inline asm fma.rn.ftz.f32 %f381, %f380, %f136, %f371; mov.b32 {%rs134, %rs141}, %r88; // begin inline asm { cvt.f32.f16 %f137, %rs134;} // end inline asm fma.rn.ftz.f32 %f382, %f380, %f137, %f372; mov.b32 {%rs135, %rs142}, %r94; // begin inline asm { cvt.f32.f16 %f138, %rs135;} // end inline asm fma.rn.ftz.f32 %f383, %f380, %f138, %f373; mov.b32 {%rs136, %rs143}, %r98; // begin inline asm { cvt.f32.f16 %f139, %rs136;} // end inline asm fma.rn.ftz.f32 %f384, %f380, %f139, %f374; mov.b32 {%rs137, %rs144}, %r102; // begin inline asm { cvt.f32.f16 %f140, %rs137;} // end inline asm fma.rn.ftz.f32 %f385, %f380, %f140, %f375; mov.b32 {%rs138, %rs145}, %r106; // begin inline asm { cvt.f32.f16 %f141, %rs138;} // end inline asm fma.rn.ftz.f32 %f386, %f380, %f141, %f376; mov.b32 {%rs139, %rs146}, %r110; // begin inline asm { cvt.f32.f16 %f142, %rs139;} // end inline asm fma.rn.ftz.f32 %f387, %f380, %f142, %f377; cvt.rn.f32.s16 %f388, %rs19; sub.ftz.f32 %f389, %f388, %f9; mul.ftz.f32 %f390, %f93, %f389; // begin inline asm { cvt.f32.f16 %f143, %rs140;} // end inline asm fma.rn.ftz.f32 %f391, %f390, %f143, %f381; // begin inline asm { cvt.f32.f16 %f144, %rs141;} // end inline asm fma.rn.ftz.f32 %f392, %f390, %f144, %f382; // begin inline asm { cvt.f32.f16 %f145, %rs142;} // end inline asm fma.rn.ftz.f32 %f393, %f390, %f145, %f383; // begin inline asm { cvt.f32.f16 %f146, %rs143;} // end inline asm fma.rn.ftz.f32 %f394, %f390, %f146, %f384; // begin inline asm { cvt.f32.f16 %f147, %rs144;} // end inline asm fma.rn.ftz.f32 %f395, %f390, %f147, %f385; // begin inline asm { cvt.f32.f16 %f148, %rs145;} // end inline asm fma.rn.ftz.f32 %f396, %f390, %f148, %f386; // begin inline asm { cvt.f32.f16 %f149, %rs146;} // end inline asm fma.rn.ftz.f32 %f397, %f390, %f149, %f387; ld.global.v4.u32 {%r145, %r146, %r147, %r148}, [%rd7+16]; ld.global.v4.u32 {%r153, %r154, %r155, %r156}, [%rd9]; ld.global.v4.u32 {%r161, %r162, %r163, %r164}, [%rd8+16]; ld.global.v4.u32 {%r169, %r170, %r171, %r172}, [%rd10]; ld.global.v4.u32 {%r177, %r178, %r179, %r180}, [%rd11]; ld.global.v4.u32 {%r185, %r186, %r187, %r188}, [%rd12]; ld.global.v4.u32 {%r193, %r194, %r195, %r196}, [%rd13]; cvt.rn.f32.s16 %f398, %rs21; sub.ftz.f32 %f399, %f398, %f9; mul.ftz.f32 %f400, %f93, %f399; mov.b32 {%rs147, %rs154}, %r145; // begin inline asm { cvt.f32.f16 %f150, %rs147;} // end inline asm fma.rn.ftz.f32 %f401, %f400, %f150, %f391; mov.b32 {%rs148, %rs155}, %r153; // begin inline asm { cvt.f32.f16 %f151, %rs148;} // end inline asm fma.rn.ftz.f32 %f402, %f400, %f151, %f392; mov.b32 {%rs149, %rs156}, %r161; // begin inline asm { cvt.f32.f16 %f152, %rs149;} // end inline asm fma.rn.ftz.f32 %f403, %f400, %f152, %f393; mov.b32 {%rs150, %rs157}, %r169; // begin inline asm { cvt.f32.f16 %f153, %rs150;} // end inline asm fma.rn.ftz.f32 %f404, %f400, %f153, %f394; mov.b32 {%rs151, %rs158}, %r177; // begin inline asm { cvt.f32.f16 %f154, %rs151;} // end inline asm fma.rn.ftz.f32 %f405, %f400, %f154, %f395; mov.b32 {%rs152, %rs159}, %r185; // begin inline asm { cvt.f32.f16 %f155, %rs152;} // end inline asm fma.rn.ftz.f32 %f406, %f400, %f155, %f396; mov.b32 {%rs153, %rs160}, %r193; // begin inline asm { cvt.f32.f16 %f156, %rs153;} // end inline asm fma.rn.ftz.f32 %f407, %f400, %f156, %f397; cvt.rn.f32.s16 %f408, %rs23; sub.ftz.f32 %f409, %f408, %f9; mul.ftz.f32 %f410, %f93, %f409; // begin inline asm { cvt.f32.f16 %f157, %rs154;} // end inline asm fma.rn.ftz.f32 %f411, %f410, %f157, %f401; // begin inline asm { cvt.f32.f16 %f158, %rs155;} // end inline asm fma.rn.ftz.f32 %f412, %f410, %f158, %f402; // begin inline asm { cvt.f32.f16 %f159, %rs156;} // end inline asm fma.rn.ftz.f32 %f413, %f410, %f159, %f403; // begin inline asm { cvt.f32.f16 %f160, %rs157;} // end inline asm fma.rn.ftz.f32 %f414, %f410, %f160, %f404; // begin inline asm { cvt.f32.f16 %f161, %rs158;} // end inline asm fma.rn.ftz.f32 %f415, %f410, %f161, %f405; // begin inline asm { cvt.f32.f16 %f162, %rs159;} // end inline asm fma.rn.ftz.f32 %f416, %f410, %f162, %f406; // begin inline asm { cvt.f32.f16 %f163, %rs160;} // end inline asm fma.rn.ftz.f32 %f417, %f410, %f163, %f407; cvt.rn.f32.s16 %f418, %rs25; sub.ftz.f32 %f419, %f418, %f9; mul.ftz.f32 %f420, %f93, %f419; mov.b32 {%rs161, %rs168}, %r146; // begin inline asm { cvt.f32.f16 %f164, %rs161;} // end inline asm fma.rn.ftz.f32 %f421, %f420, %f164, %f411; mov.b32 {%rs162, %rs169}, %r154; // begin inline asm { cvt.f32.f16 %f165, %rs162;} // end inline asm fma.rn.ftz.f32 %f422, %f420, %f165, %f412; mov.b32 {%rs163, %rs170}, %r162; // begin inline asm { cvt.f32.f16 %f166, %rs163;} // end inline asm fma.rn.ftz.f32 %f423, %f420, %f166, %f413; mov.b32 {%rs164, %rs171}, %r170; // begin inline asm { cvt.f32.f16 %f167, %rs164;} // end inline asm fma.rn.ftz.f32 %f424, %f420, %f167, %f414; mov.b32 {%rs165, %rs172}, %r178; // begin inline asm { cvt.f32.f16 %f168, %rs165;} // end inline asm fma.rn.ftz.f32 %f425, %f420, %f168, %f415; mov.b32 {%rs166, %rs173}, %r186; // begin inline asm { cvt.f32.f16 %f169, %rs166;} // end inline asm fma.rn.ftz.f32 %f426, %f420, %f169, %f416; mov.b32 {%rs167, %rs174}, %r194; // begin inline asm { cvt.f32.f16 %f170, %rs167;} // end inline asm fma.rn.ftz.f32 %f427, %f420, %f170, %f417; cvt.rn.f32.s16 %f428, %rs27; sub.ftz.f32 %f429, %f428, %f9; mul.ftz.f32 %f430, %f93, %f429; // begin inline asm { cvt.f32.f16 %f171, %rs168;} // end inline asm fma.rn.ftz.f32 %f431, %f430, %f171, %f421; // begin inline asm { cvt.f32.f16 %f172, %rs169;} // end inline asm fma.rn.ftz.f32 %f432, %f430, %f172, %f422; // begin inline asm { cvt.f32.f16 %f173, %rs170;} // end inline asm fma.rn.ftz.f32 %f433, %f430, %f173, %f423; // begin inline asm { cvt.f32.f16 %f174, %rs171;} // end inline asm fma.rn.ftz.f32 %f434, %f430, %f174, %f424; // begin inline asm { cvt.f32.f16 %f175, %rs172;} // end inline asm fma.rn.ftz.f32 %f435, %f430, %f175, %f425; // begin inline asm { cvt.f32.f16 %f176, %rs173;} // end inline asm fma.rn.ftz.f32 %f436, %f430, %f176, %f426; // begin inline asm { cvt.f32.f16 %f177, %rs174;} // end inline asm fma.rn.ftz.f32 %f437, %f430, %f177, %f427; cvt.rn.f32.s16 %f438, %rs29; sub.ftz.f32 %f439, %f438, %f9; mul.ftz.f32 %f440, %f93, %f439; mov.b32 {%rs175, %rs182}, %r147; // begin inline asm { cvt.f32.f16 %f178, %rs175;} // end inline asm fma.rn.ftz.f32 %f441, %f440, %f178, %f431; mov.b32 {%rs176, %rs183}, %r155; // begin inline asm { cvt.f32.f16 %f179, %rs176;} // end inline asm fma.rn.ftz.f32 %f442, %f440, %f179, %f432; mov.b32 {%rs177, %rs184}, %r163; // begin inline asm { cvt.f32.f16 %f180, %rs177;} // end inline asm fma.rn.ftz.f32 %f443, %f440, %f180, %f433; mov.b32 {%rs178, %rs185}, %r171; // begin inline asm { cvt.f32.f16 %f181, %rs178;} // end inline asm fma.rn.ftz.f32 %f444, %f440, %f181, %f434; mov.b32 {%rs179, %rs186}, %r179; // begin inline asm { cvt.f32.f16 %f182, %rs179;} // end inline asm fma.rn.ftz.f32 %f445, %f440, %f182, %f435; mov.b32 {%rs180, %rs187}, %r187; // begin inline asm { cvt.f32.f16 %f183, %rs180;} // end inline asm fma.rn.ftz.f32 %f446, %f440, %f183, %f436; mov.b32 {%rs181, %rs188}, %r195; // begin inline asm { cvt.f32.f16 %f184, %rs181;} // end inline asm fma.rn.ftz.f32 %f447, %f440, %f184, %f437; cvt.rn.f32.s16 %f448, %rs31; sub.ftz.f32 %f449, %f448, %f9; mul.ftz.f32 %f450, %f93, %f449; // begin inline asm { cvt.f32.f16 %f185, %rs182;} // end inline asm fma.rn.ftz.f32 %f451, %f450, %f185, %f441; // begin inline asm { cvt.f32.f16 %f186, %rs183;} // end inline asm fma.rn.ftz.f32 %f452, %f450, %f186, %f442; // begin inline asm { cvt.f32.f16 %f187, %rs184;} // end inline asm fma.rn.ftz.f32 %f453, %f450, %f187, %f443; // begin inline asm { cvt.f32.f16 %f188, %rs185;} // end inline asm fma.rn.ftz.f32 %f454, %f450, %f188, %f444; // begin inline asm { cvt.f32.f16 %f189, %rs186;} // end inline asm fma.rn.ftz.f32 %f455, %f450, %f189, %f445; // begin inline asm { cvt.f32.f16 %f190, %rs187;} // end inline asm fma.rn.ftz.f32 %f456, %f450, %f190, %f446; // begin inline asm { cvt.f32.f16 %f191, %rs188;} // end inline asm fma.rn.ftz.f32 %f457, %f450, %f191, %f447; cvt.rn.f32.s16 %f458, %rs33; sub.ftz.f32 %f459, %f458, %f9; mul.ftz.f32 %f460, %f93, %f459; mov.b32 {%rs189, %rs196}, %r148; // begin inline asm { cvt.f32.f16 %f192, %rs189;} // end inline asm fma.rn.ftz.f32 %f461, %f460, %f192, %f451; mov.b32 {%rs190, %rs197}, %r156; // begin inline asm { cvt.f32.f16 %f193, %rs190;} // end inline asm fma.rn.ftz.f32 %f462, %f460, %f193, %f452; mov.b32 {%rs191, %rs198}, %r164; // begin inline asm { cvt.f32.f16 %f194, %rs191;} // end inline asm fma.rn.ftz.f32 %f463, %f460, %f194, %f453; mov.b32 {%rs192, %rs199}, %r172; // begin inline asm { cvt.f32.f16 %f195, %rs192;} // end inline asm fma.rn.ftz.f32 %f464, %f460, %f195, %f454; mov.b32 {%rs193, %rs200}, %r180; // begin inline asm { cvt.f32.f16 %f196, %rs193;} // end inline asm fma.rn.ftz.f32 %f465, %f460, %f196, %f455; mov.b32 {%rs194, %rs201}, %r188; // begin inline asm { cvt.f32.f16 %f197, %rs194;} // end inline asm fma.rn.ftz.f32 %f466, %f460, %f197, %f456; mov.b32 {%rs195, %rs202}, %r196; // begin inline asm { cvt.f32.f16 %f198, %rs195;} // end inline asm fma.rn.ftz.f32 %f467, %f460, %f198, %f457; cvt.rn.f32.s16 %f468, %rs34; sub.ftz.f32 %f469, %f468, %f9; mul.ftz.f32 %f470, %f93, %f469; // begin inline asm { cvt.f32.f16 %f199, %rs196;} // end inline asm fma.rn.ftz.f32 %f471, %f470, %f199, %f461; // begin inline asm { cvt.f32.f16 %f200, %rs197;} // end inline asm fma.rn.ftz.f32 %f472, %f470, %f200, %f462; // begin inline asm { cvt.f32.f16 %f201, %rs198;} // end inline asm fma.rn.ftz.f32 %f473, %f470, %f201, %f463; // begin inline asm { cvt.f32.f16 %f202, %rs199;} // end inline asm fma.rn.ftz.f32 %f474, %f470, %f202, %f464; // begin inline asm { cvt.f32.f16 %f203, %rs200;} // end inline asm fma.rn.ftz.f32 %f475, %f470, %f203, %f465; // begin inline asm { cvt.f32.f16 %f204, %rs201;} // end inline asm fma.rn.ftz.f32 %f476, %f470, %f204, %f466; // begin inline asm { cvt.f32.f16 %f205, %rs202;} // end inline asm fma.rn.ftz.f32 %f477, %f470, %f205, %f467; ld.global.v4.u32 {%r201, %r202, %r203, %r204}, [%rd7+32]; ld.global.v4.u32 {%r209, %r210, %r211, %r212}, [%rd9+16]; ld.global.v4.u32 {%r217, %r218, %r219, %r220}, [%rd8+32]; ld.global.v4.u32 {%r225, %r226, %r227, %r228}, [%rd10+16]; ld.global.v4.u32 {%r233, %r234, %r235, %r236}, [%rd11+16]; ld.global.v4.u32 {%r241, %r242, %r243, %r244}, [%rd12+16]; ld.global.v4.u32 {%r249, %r250, %r251, %r252}, [%rd13+16]; cvt.rn.f32.s16 %f478, %rs36; sub.ftz.f32 %f479, %f478, %f9; mul.ftz.f32 %f480, %f93, %f479; mov.b32 {%rs203, %rs210}, %r201; // begin inline asm { cvt.f32.f16 %f206, %rs203;} // end inline asm fma.rn.ftz.f32 %f481, %f480, %f206, %f471; mov.b32 {%rs204, %rs211}, %r209; // begin inline asm { cvt.f32.f16 %f207, %rs204;} // end inline asm fma.rn.ftz.f32 %f482, %f480, %f207, %f472; mov.b32 {%rs205, %rs212}, %r217; // begin inline asm { cvt.f32.f16 %f208, %rs205;} // end inline asm fma.rn.ftz.f32 %f483, %f480, %f208, %f473; mov.b32 {%rs206, %rs213}, %r225; // begin inline asm { cvt.f32.f16 %f209, %rs206;} // end inline asm fma.rn.ftz.f32 %f484, %f480, %f209, %f474; mov.b32 {%rs207, %rs214}, %r233; // begin inline asm { cvt.f32.f16 %f210, %rs207;} // end inline asm fma.rn.ftz.f32 %f485, %f480, %f210, %f475; mov.b32 {%rs208, %rs215}, %r241; // begin inline asm { cvt.f32.f16 %f211, %rs208;} // end inline asm fma.rn.ftz.f32 %f486, %f480, %f211, %f476; mov.b32 {%rs209, %rs216}, %r249; // begin inline asm { cvt.f32.f16 %f212, %rs209;} // end inline asm fma.rn.ftz.f32 %f487, %f480, %f212, %f477; cvt.rn.f32.s16 %f488, %rs38; sub.ftz.f32 %f489, %f488, %f9; mul.ftz.f32 %f490, %f93, %f489; // begin inline asm { cvt.f32.f16 %f213, %rs210;} // end inline asm fma.rn.ftz.f32 %f491, %f490, %f213, %f481; // begin inline asm { cvt.f32.f16 %f214, %rs211;} // end inline asm fma.rn.ftz.f32 %f492, %f490, %f214, %f482; // begin inline asm { cvt.f32.f16 %f215, %rs212;} // end inline asm fma.rn.ftz.f32 %f493, %f490, %f215, %f483; // begin inline asm { cvt.f32.f16 %f216, %rs213;} // end inline asm fma.rn.ftz.f32 %f494, %f490, %f216, %f484; // begin inline asm { cvt.f32.f16 %f217, %rs214;} // end inline asm fma.rn.ftz.f32 %f495, %f490, %f217, %f485; // begin inline asm { cvt.f32.f16 %f218, %rs215;} // end inline asm fma.rn.ftz.f32 %f496, %f490, %f218, %f486; // begin inline asm { cvt.f32.f16 %f219, %rs216;} // end inline asm fma.rn.ftz.f32 %f497, %f490, %f219, %f487; cvt.rn.f32.s16 %f498, %rs40; sub.ftz.f32 %f499, %f498, %f9; mul.ftz.f32 %f500, %f93, %f499; mov.b32 {%rs217, %rs224}, %r202; // begin inline asm { cvt.f32.f16 %f220, %rs217;} // end inline asm fma.rn.ftz.f32 %f501, %f500, %f220, %f491; mov.b32 {%rs218, %rs225}, %r210; // begin inline asm { cvt.f32.f16 %f221, %rs218;} // end inline asm fma.rn.ftz.f32 %f502, %f500, %f221, %f492; mov.b32 {%rs219, %rs226}, %r218; // begin inline asm { cvt.f32.f16 %f222, %rs219;} // end inline asm fma.rn.ftz.f32 %f503, %f500, %f222, %f493; mov.b32 {%rs220, %rs227}, %r226; // begin inline asm { cvt.f32.f16 %f223, %rs220;} // end inline asm fma.rn.ftz.f32 %f504, %f500, %f223, %f494; mov.b32 {%rs221, %rs228}, %r234; // begin inline asm { cvt.f32.f16 %f224, %rs221;} // end inline asm fma.rn.ftz.f32 %f505, %f500, %f224, %f495; mov.b32 {%rs222, %rs229}, %r242; // begin inline asm { cvt.f32.f16 %f225, %rs222;} // end inline asm fma.rn.ftz.f32 %f506, %f500, %f225, %f496; mov.b32 {%rs223, %rs230}, %r250; // begin inline asm { cvt.f32.f16 %f226, %rs223;} // end inline asm fma.rn.ftz.f32 %f507, %f500, %f226, %f497; cvt.rn.f32.s16 %f508, %rs42; sub.ftz.f32 %f509, %f508, %f9; mul.ftz.f32 %f510, %f93, %f509; // begin inline asm { cvt.f32.f16 %f227, %rs224;} // end inline asm fma.rn.ftz.f32 %f511, %f510, %f227, %f501; // begin inline asm { cvt.f32.f16 %f228, %rs225;} // end inline asm fma.rn.ftz.f32 %f512, %f510, %f228, %f502; // begin inline asm { cvt.f32.f16 %f229, %rs226;} // end inline asm fma.rn.ftz.f32 %f513, %f510, %f229, %f503; // begin inline asm { cvt.f32.f16 %f230, %rs227;} // end inline asm fma.rn.ftz.f32 %f514, %f510, %f230, %f504; // begin inline asm { cvt.f32.f16 %f231, %rs228;} // end inline asm fma.rn.ftz.f32 %f515, %f510, %f231, %f505; // begin inline asm { cvt.f32.f16 %f232, %rs229;} // end inline asm fma.rn.ftz.f32 %f516, %f510, %f232, %f506; // begin inline asm { cvt.f32.f16 %f233, %rs230;} // end inline asm fma.rn.ftz.f32 %f517, %f510, %f233, %f507; cvt.rn.f32.s16 %f518, %rs44; sub.ftz.f32 %f519, %f518, %f9; mul.ftz.f32 %f520, %f93, %f519; mov.b32 {%rs231, %rs238}, %r203; // begin inline asm { cvt.f32.f16 %f234, %rs231;} // end inline asm fma.rn.ftz.f32 %f521, %f520, %f234, %f511; mov.b32 {%rs232, %rs239}, %r211; // begin inline asm { cvt.f32.f16 %f235, %rs232;} // end inline asm fma.rn.ftz.f32 %f522, %f520, %f235, %f512; mov.b32 {%rs233, %rs240}, %r219; // begin inline asm { cvt.f32.f16 %f236, %rs233;} // end inline asm fma.rn.ftz.f32 %f523, %f520, %f236, %f513; mov.b32 {%rs234, %rs241}, %r227; // begin inline asm { cvt.f32.f16 %f237, %rs234;} // end inline asm fma.rn.ftz.f32 %f524, %f520, %f237, %f514; mov.b32 {%rs235, %rs242}, %r235; // begin inline asm { cvt.f32.f16 %f238, %rs235;} // end inline asm fma.rn.ftz.f32 %f525, %f520, %f238, %f515; mov.b32 {%rs236, %rs243}, %r243; // begin inline asm { cvt.f32.f16 %f239, %rs236;} // end inline asm fma.rn.ftz.f32 %f526, %f520, %f239, %f516; mov.b32 {%rs237, %rs244}, %r251; // begin inline asm { cvt.f32.f16 %f240, %rs237;} // end inline asm fma.rn.ftz.f32 %f527, %f520, %f240, %f517; cvt.rn.f32.s16 %f528, %rs46; sub.ftz.f32 %f529, %f528, %f9; mul.ftz.f32 %f530, %f93, %f529; // begin inline asm { cvt.f32.f16 %f241, %rs238;} // end inline asm fma.rn.ftz.f32 %f531, %f530, %f241, %f521; // begin inline asm { cvt.f32.f16 %f242, %rs239;} // end inline asm fma.rn.ftz.f32 %f532, %f530, %f242, %f522; // begin inline asm { cvt.f32.f16 %f243, %rs240;} // end inline asm fma.rn.ftz.f32 %f533, %f530, %f243, %f523; // begin inline asm { cvt.f32.f16 %f244, %rs241;} // end inline asm fma.rn.ftz.f32 %f534, %f530, %f244, %f524; // begin inline asm { cvt.f32.f16 %f245, %rs242;} // end inline asm fma.rn.ftz.f32 %f535, %f530, %f245, %f525; // begin inline asm { cvt.f32.f16 %f246, %rs243;} // end inline asm fma.rn.ftz.f32 %f536, %f530, %f246, %f526; // begin inline asm { cvt.f32.f16 %f247, %rs244;} // end inline asm fma.rn.ftz.f32 %f537, %f530, %f247, %f527; cvt.rn.f32.s16 %f538, %rs48; sub.ftz.f32 %f539, %f538, %f9; mul.ftz.f32 %f540, %f93, %f539; mov.b32 {%rs245, %rs252}, %r204; // begin inline asm { cvt.f32.f16 %f248, %rs245;} // end inline asm fma.rn.ftz.f32 %f541, %f540, %f248, %f531; mov.b32 {%rs246, %rs253}, %r212; // begin inline asm { cvt.f32.f16 %f249, %rs246;} // end inline asm fma.rn.ftz.f32 %f542, %f540, %f249, %f532; mov.b32 {%rs247, %rs254}, %r220; // begin inline asm { cvt.f32.f16 %f250, %rs247;} // end inline asm fma.rn.ftz.f32 %f543, %f540, %f250, %f533; mov.b32 {%rs248, %rs255}, %r228; // begin inline asm { cvt.f32.f16 %f251, %rs248;} // end inline asm fma.rn.ftz.f32 %f544, %f540, %f251, %f534; mov.b32 {%rs249, %rs256}, %r236; // begin inline asm { cvt.f32.f16 %f252, %rs249;} // end inline asm fma.rn.ftz.f32 %f545, %f540, %f252, %f535; mov.b32 {%rs250, %rs257}, %r244; // begin inline asm { cvt.f32.f16 %f253, %rs250;} // end inline asm fma.rn.ftz.f32 %f546, %f540, %f253, %f536; mov.b32 {%rs251, %rs258}, %r252; // begin inline asm { cvt.f32.f16 %f254, %rs251;} // end inline asm fma.rn.ftz.f32 %f547, %f540, %f254, %f537; cvt.rn.f32.s16 %f548, %rs49; sub.ftz.f32 %f549, %f548, %f9; mul.ftz.f32 %f550, %f93, %f549; // begin inline asm { cvt.f32.f16 %f255, %rs252;} // end inline asm fma.rn.ftz.f32 %f551, %f550, %f255, %f541; // begin inline asm { cvt.f32.f16 %f256, %rs253;} // end inline asm fma.rn.ftz.f32 %f552, %f550, %f256, %f542; // begin inline asm { cvt.f32.f16 %f257, %rs254;} // end inline asm fma.rn.ftz.f32 %f553, %f550, %f257, %f543; // begin inline asm { cvt.f32.f16 %f258, %rs255;} // end inline asm fma.rn.ftz.f32 %f554, %f550, %f258, %f544; // begin inline asm { cvt.f32.f16 %f259, %rs256;} // end inline asm fma.rn.ftz.f32 %f555, %f550, %f259, %f545; // begin inline asm { cvt.f32.f16 %f260, %rs257;} // end inline asm fma.rn.ftz.f32 %f556, %f550, %f260, %f546; // begin inline asm { cvt.f32.f16 %f261, %rs258;} // end inline asm fma.rn.ftz.f32 %f557, %f550, %f261, %f547; ld.global.v4.u32 {%r257, %r258, %r259, %r260}, [%rd7+48]; ld.global.v4.u32 {%r265, %r266, %r267, %r268}, [%rd9+32]; ld.global.v4.u32 {%r273, %r274, %r275, %r276}, [%rd8+48]; ld.global.v4.u32 {%r281, %r282, %r283, %r284}, [%rd10+32]; ld.global.v4.u32 {%r289, %r290, %r291, %r292}, [%rd11+32]; ld.global.v4.u32 {%r297, %r298, %r299, %r300}, [%rd12+32]; ld.global.v4.u32 {%r305, %r306, %r307, %r308}, [%rd13+32]; cvt.rn.f32.s16 %f558, %rs51; sub.ftz.f32 %f559, %f558, %f9; mul.ftz.f32 %f560, %f93, %f559; mov.b32 {%rs259, %rs266}, %r257; // begin inline asm { cvt.f32.f16 %f262, %rs259;} // end inline asm fma.rn.ftz.f32 %f561, %f560, %f262, %f551; mov.b32 {%rs260, %rs267}, %r265; // begin inline asm { cvt.f32.f16 %f263, %rs260;} // end inline asm fma.rn.ftz.f32 %f562, %f560, %f263, %f552; mov.b32 {%rs261, %rs268}, %r273; // begin inline asm { cvt.f32.f16 %f264, %rs261;} // end inline asm fma.rn.ftz.f32 %f563, %f560, %f264, %f553; mov.b32 {%rs262, %rs269}, %r281; // begin inline asm { cvt.f32.f16 %f265, %rs262;} // end inline asm fma.rn.ftz.f32 %f564, %f560, %f265, %f554; mov.b32 {%rs263, %rs270}, %r289; // begin inline asm { cvt.f32.f16 %f266, %rs263;} // end inline asm fma.rn.ftz.f32 %f565, %f560, %f266, %f555; mov.b32 {%rs264, %rs271}, %r297; // begin inline asm { cvt.f32.f16 %f267, %rs264;} // end inline asm fma.rn.ftz.f32 %f566, %f560, %f267, %f556; mov.b32 {%rs265, %rs272}, %r305; // begin inline asm { cvt.f32.f16 %f268, %rs265;} // end inline asm fma.rn.ftz.f32 %f567, %f560, %f268, %f557; cvt.rn.f32.s16 %f568, %rs53; sub.ftz.f32 %f569, %f568, %f9; mul.ftz.f32 %f570, %f93, %f569; // begin inline asm { cvt.f32.f16 %f269, %rs266;} // end inline asm fma.rn.ftz.f32 %f571, %f570, %f269, %f561; // begin inline asm { cvt.f32.f16 %f270, %rs267;} // end inline asm fma.rn.ftz.f32 %f572, %f570, %f270, %f562; // begin inline asm { cvt.f32.f16 %f271, %rs268;} // end inline asm fma.rn.ftz.f32 %f573, %f570, %f271, %f563; // begin inline asm { cvt.f32.f16 %f272, %rs269;} // end inline asm fma.rn.ftz.f32 %f574, %f570, %f272, %f564; // begin inline asm { cvt.f32.f16 %f273, %rs270;} // end inline asm fma.rn.ftz.f32 %f575, %f570, %f273, %f565; // begin inline asm { cvt.f32.f16 %f274, %rs271;} // end inline asm fma.rn.ftz.f32 %f576, %f570, %f274, %f566; // begin inline asm { cvt.f32.f16 %f275, %rs272;} // end inline asm fma.rn.ftz.f32 %f577, %f570, %f275, %f567; cvt.rn.f32.s16 %f578, %rs55; sub.ftz.f32 %f579, %f578, %f9; mul.ftz.f32 %f580, %f93, %f579; mov.b32 {%rs273, %rs280}, %r258; // begin inline asm { cvt.f32.f16 %f276, %rs273;} // end inline asm fma.rn.ftz.f32 %f581, %f580, %f276, %f571; mov.b32 {%rs274, %rs281}, %r266; // begin inline asm { cvt.f32.f16 %f277, %rs274;} // end inline asm fma.rn.ftz.f32 %f582, %f580, %f277, %f572; mov.b32 {%rs275, %rs282}, %r274; // begin inline asm { cvt.f32.f16 %f278, %rs275;} // end inline asm fma.rn.ftz.f32 %f583, %f580, %f278, %f573; mov.b32 {%rs276, %rs283}, %r282; // begin inline asm { cvt.f32.f16 %f279, %rs276;} // end inline asm fma.rn.ftz.f32 %f584, %f580, %f279, %f574; mov.b32 {%rs277, %rs284}, %r290; // begin inline asm { cvt.f32.f16 %f280, %rs277;} // end inline asm fma.rn.ftz.f32 %f585, %f580, %f280, %f575; mov.b32 {%rs278, %rs285}, %r298; // begin inline asm { cvt.f32.f16 %f281, %rs278;} // end inline asm fma.rn.ftz.f32 %f586, %f580, %f281, %f576; mov.b32 {%rs279, %rs286}, %r306; // begin inline asm { cvt.f32.f16 %f282, %rs279;} // end inline asm fma.rn.ftz.f32 %f587, %f580, %f282, %f577; cvt.rn.f32.s16 %f588, %rs57; sub.ftz.f32 %f589, %f588, %f9; mul.ftz.f32 %f590, %f93, %f589; // begin inline asm { cvt.f32.f16 %f283, %rs280;} // end inline asm fma.rn.ftz.f32 %f591, %f590, %f283, %f581; // begin inline asm { cvt.f32.f16 %f284, %rs281;} // end inline asm fma.rn.ftz.f32 %f592, %f590, %f284, %f582; // begin inline asm { cvt.f32.f16 %f285, %rs282;} // end inline asm fma.rn.ftz.f32 %f593, %f590, %f285, %f583; // begin inline asm { cvt.f32.f16 %f286, %rs283;} // end inline asm fma.rn.ftz.f32 %f594, %f590, %f286, %f584; // begin inline asm { cvt.f32.f16 %f287, %rs284;} // end inline asm fma.rn.ftz.f32 %f595, %f590, %f287, %f585; // begin inline asm { cvt.f32.f16 %f288, %rs285;} // end inline asm fma.rn.ftz.f32 %f596, %f590, %f288, %f586; // begin inline asm { cvt.f32.f16 %f289, %rs286;} // end inline asm fma.rn.ftz.f32 %f597, %f590, %f289, %f587; cvt.rn.f32.s16 %f598, %rs59; sub.ftz.f32 %f599, %f598, %f9; mul.ftz.f32 %f600, %f93, %f599; mov.b32 {%rs287, %rs294}, %r259; // begin inline asm { cvt.f32.f16 %f290, %rs287;} // end inline asm fma.rn.ftz.f32 %f601, %f600, %f290, %f591; mov.b32 {%rs288, %rs295}, %r267; // begin inline asm { cvt.f32.f16 %f291, %rs288;} // end inline asm fma.rn.ftz.f32 %f602, %f600, %f291, %f592; mov.b32 {%rs289, %rs296}, %r275; // begin inline asm { cvt.f32.f16 %f292, %rs289;} // end inline asm fma.rn.ftz.f32 %f603, %f600, %f292, %f593; mov.b32 {%rs290, %rs297}, %r283; // begin inline asm { cvt.f32.f16 %f293, %rs290;} // end inline asm fma.rn.ftz.f32 %f604, %f600, %f293, %f594; mov.b32 {%rs291, %rs298}, %r291; // begin inline asm { cvt.f32.f16 %f294, %rs291;} // end inline asm fma.rn.ftz.f32 %f605, %f600, %f294, %f595; mov.b32 {%rs292, %rs299}, %r299; // begin inline asm { cvt.f32.f16 %f295, %rs292;} // end inline asm fma.rn.ftz.f32 %f606, %f600, %f295, %f596; mov.b32 {%rs293, %rs300}, %r307; // begin inline asm { cvt.f32.f16 %f296, %rs293;} // end inline asm fma.rn.ftz.f32 %f607, %f600, %f296, %f597; cvt.rn.f32.s16 %f608, %rs61; sub.ftz.f32 %f609, %f608, %f9; mul.ftz.f32 %f610, %f93, %f609; // begin inline asm { cvt.f32.f16 %f297, %rs294;} // end inline asm fma.rn.ftz.f32 %f611, %f610, %f297, %f601; // begin inline asm { cvt.f32.f16 %f298, %rs295;} // end inline asm fma.rn.ftz.f32 %f612, %f610, %f298, %f602; // begin inline asm { cvt.f32.f16 %f299, %rs296;} // end inline asm fma.rn.ftz.f32 %f613, %f610, %f299, %f603; // begin inline asm { cvt.f32.f16 %f300, %rs297;} // end inline asm fma.rn.ftz.f32 %f614, %f610, %f300, %f604; // begin inline asm { cvt.f32.f16 %f301, %rs298;} // end inline asm fma.rn.ftz.f32 %f615, %f610, %f301, %f605; // begin inline asm { cvt.f32.f16 %f302, %rs299;} // end inline asm fma.rn.ftz.f32 %f616, %f610, %f302, %f606; // begin inline asm { cvt.f32.f16 %f303, %rs300;} // end inline asm fma.rn.ftz.f32 %f617, %f610, %f303, %f607; cvt.rn.f32.s16 %f618, %rs63; sub.ftz.f32 %f619, %f618, %f9; mul.ftz.f32 %f620, %f93, %f619; mov.b32 {%rs301, %rs308}, %r260; // begin inline asm { cvt.f32.f16 %f304, %rs301;} // end inline asm fma.rn.ftz.f32 %f621, %f620, %f304, %f611; mov.b32 {%rs302, %rs309}, %r268; // begin inline asm { cvt.f32.f16 %f305, %rs302;} // end inline asm fma.rn.ftz.f32 %f622, %f620, %f305, %f612; mov.b32 {%rs303, %rs310}, %r276; // begin inline asm { cvt.f32.f16 %f306, %rs303;} // end inline asm fma.rn.ftz.f32 %f623, %f620, %f306, %f613; mov.b32 {%rs304, %rs311}, %r284; // begin inline asm { cvt.f32.f16 %f307, %rs304;} // end inline asm fma.rn.ftz.f32 %f624, %f620, %f307, %f614; mov.b32 {%rs305, %rs312}, %r292; // begin inline asm { cvt.f32.f16 %f308, %rs305;} // end inline asm fma.rn.ftz.f32 %f625, %f620, %f308, %f615; mov.b32 {%rs306, %rs313}, %r300; // begin inline asm { cvt.f32.f16 %f309, %rs306;} // end inline asm fma.rn.ftz.f32 %f626, %f620, %f309, %f616; mov.b32 {%rs307, %rs314}, %r308; // begin inline asm { cvt.f32.f16 %f310, %rs307;} // end inline asm fma.rn.ftz.f32 %f627, %f620, %f310, %f617; cvt.rn.f32.s16 %f628, %rs64; sub.ftz.f32 %f629, %f628, %f9; mul.ftz.f32 %f630, %f93, %f629; // begin inline asm { cvt.f32.f16 %f311, %rs308;} // end inline asm fma.rn.ftz.f32 %f1335, %f630, %f311, %f621; // begin inline asm { cvt.f32.f16 %f312, %rs309;} // end inline asm fma.rn.ftz.f32 %f1334, %f630, %f312, %f622; // begin inline asm { cvt.f32.f16 %f313, %rs310;} // end inline asm fma.rn.ftz.f32 %f1333, %f630, %f313, %f623; // begin inline asm { cvt.f32.f16 %f314, %rs311;} // end inline asm fma.rn.ftz.f32 %f1332, %f630, %f314, %f624; // begin inline asm { cvt.f32.f16 %f315, %rs312;} // end inline asm fma.rn.ftz.f32 %f1331, %f630, %f315, %f625; // begin inline asm { cvt.f32.f16 %f316, %rs313;} // end inline asm fma.rn.ftz.f32 %f1330, %f630, %f316, %f626; // begin inline asm { cvt.f32.f16 %f317, %rs314;} // end inline asm fma.rn.ftz.f32 %f1329, %f630, %f317, %f627; bra.uni $L__BB0_8; $L__BB0_7: shl.b16 %rs539, %rs5, 4; cvt.s16.s8 %rs540, %rs539; shr.s16 %rs541, %rs540, 7; and.b16 %rs542, %rs541, -16; or.b16 %rs543, %rs542, %rs6; cvt.rn.f32.s16 %f855, %rs543; sub.ftz.f32 %f856, %f855, %f9; mul.ftz.f32 %f857, %f93, %f856; mov.b32 {%rs315, %rs322}, %r81; // begin inline asm { cvt.f32.f16 %f631, %rs315;} // end inline asm fma.rn.ftz.f32 %f858, %f857, %f631, %f1335; mov.b32 {%rs316, %rs323}, %r85; // begin inline asm { cvt.f32.f16 %f632, %rs316;} // end inline asm fma.rn.ftz.f32 %f859, %f857, %f632, %f1334; mov.b32 {%rs317, %rs324}, %r91; // begin inline asm { cvt.f32.f16 %f633, %rs317;} // end inline asm fma.rn.ftz.f32 %f860, %f857, %f633, %f1333; mov.b32 {%rs318, %rs325}, %r95; // begin inline asm { cvt.f32.f16 %f634, %rs318;} // end inline asm fma.rn.ftz.f32 %f861, %f857, %f634, %f1332; mov.b32 {%rs319, %rs326}, %r99; // begin inline asm { cvt.f32.f16 %f635, %rs319;} // end inline asm fma.rn.ftz.f32 %f862, %f857, %f635, %f1331; mov.b32 {%rs320, %rs327}, %r103; // begin inline asm { cvt.f32.f16 %f636, %rs320;} // end inline asm fma.rn.ftz.f32 %f863, %f857, %f636, %f1330; mov.b32 {%rs321, %rs328}, %r107; // begin inline asm { cvt.f32.f16 %f637, %rs321;} // end inline asm fma.rn.ftz.f32 %f864, %f857, %f637, %f1329; shl.b16 %rs544, %rs7, 4; cvt.s16.s8 %rs545, %rs544; shr.s16 %rs546, %rs545, 7; and.b16 %rs547, %rs546, -16; or.b16 %rs548, %rs547, %rs8; cvt.rn.f32.s16 %f865, %rs548; sub.ftz.f32 %f866, %f865, %f9; mul.ftz.f32 %f867, %f93, %f866; // begin inline asm { cvt.f32.f16 %f638, %rs322;} // end inline asm fma.rn.ftz.f32 %f868, %f867, %f638, %f858; // begin inline asm { cvt.f32.f16 %f639, %rs323;} // end inline asm fma.rn.ftz.f32 %f869, %f867, %f639, %f859; // begin inline asm { cvt.f32.f16 %f640, %rs324;} // end inline asm fma.rn.ftz.f32 %f870, %f867, %f640, %f860; // begin inline asm { cvt.f32.f16 %f641, %rs325;} // end inline asm fma.rn.ftz.f32 %f871, %f867, %f641, %f861; // begin inline asm { cvt.f32.f16 %f642, %rs326;} // end inline asm fma.rn.ftz.f32 %f872, %f867, %f642, %f862; // begin inline asm { cvt.f32.f16 %f643, %rs327;} // end inline asm fma.rn.ftz.f32 %f873, %f867, %f643, %f863; // begin inline asm { cvt.f32.f16 %f644, %rs328;} // end inline asm fma.rn.ftz.f32 %f874, %f867, %f644, %f864; shl.b16 %rs549, %rs9, 4; cvt.s16.s8 %rs550, %rs549; shr.s16 %rs551, %rs550, 7; and.b16 %rs552, %rs551, -16; or.b16 %rs553, %rs552, %rs10; cvt.rn.f32.s16 %f875, %rs553; sub.ftz.f32 %f876, %f875, %f9; mul.ftz.f32 %f877, %f93, %f876; mov.b32 {%rs329, %rs336}, %r82; // begin inline asm { cvt.f32.f16 %f645, %rs329;} // end inline asm fma.rn.ftz.f32 %f878, %f877, %f645, %f868; mov.b32 {%rs330, %rs337}, %r86; // begin inline asm { cvt.f32.f16 %f646, %rs330;} // end inline asm fma.rn.ftz.f32 %f879, %f877, %f646, %f869; mov.b32 {%rs331, %rs338}, %r92; // begin inline asm { cvt.f32.f16 %f647, %rs331;} // end inline asm fma.rn.ftz.f32 %f880, %f877, %f647, %f870; mov.b32 {%rs332, %rs339}, %r96; // begin inline asm { cvt.f32.f16 %f648, %rs332;} // end inline asm fma.rn.ftz.f32 %f881, %f877, %f648, %f871; mov.b32 {%rs333, %rs340}, %r100; // begin inline asm { cvt.f32.f16 %f649, %rs333;} // end inline asm fma.rn.ftz.f32 %f882, %f877, %f649, %f872; mov.b32 {%rs334, %rs341}, %r104; // begin inline asm { cvt.f32.f16 %f650, %rs334;} // end inline asm fma.rn.ftz.f32 %f883, %f877, %f650, %f873; mov.b32 {%rs335, %rs342}, %r108; // begin inline asm { cvt.f32.f16 %f651, %rs335;} // end inline asm fma.rn.ftz.f32 %f884, %f877, %f651, %f874; shl.b16 %rs554, %rs11, 4; cvt.s16.s8 %rs555, %rs554; shr.s16 %rs556, %rs555, 7; and.b16 %rs557, %rs556, -16; or.b16 %rs558, %rs557, %rs12; cvt.rn.f32.s16 %f885, %rs558; sub.ftz.f32 %f886, %f885, %f9; mul.ftz.f32 %f887, %f93, %f886; // begin inline asm { cvt.f32.f16 %f652, %rs336;} // end inline asm fma.rn.ftz.f32 %f888, %f887, %f652, %f878; // begin inline asm { cvt.f32.f16 %f653, %rs337;} // end inline asm fma.rn.ftz.f32 %f889, %f887, %f653, %f879; // begin inline asm { cvt.f32.f16 %f654, %rs338;} // end inline asm fma.rn.ftz.f32 %f890, %f887, %f654, %f880; // begin inline asm { cvt.f32.f16 %f655, %rs339;} // end inline asm fma.rn.ftz.f32 %f891, %f887, %f655, %f881; // begin inline asm { cvt.f32.f16 %f656, %rs340;} // end inline asm fma.rn.ftz.f32 %f892, %f887, %f656, %f882; // begin inline asm { cvt.f32.f16 %f657, %rs341;} // end inline asm fma.rn.ftz.f32 %f893, %f887, %f657, %f883; // begin inline asm { cvt.f32.f16 %f658, %rs342;} // end inline asm fma.rn.ftz.f32 %f894, %f887, %f658, %f884; shl.b16 %rs559, %rs13, 4; cvt.s16.s8 %rs560, %rs559; shr.s16 %rs561, %rs560, 7; and.b16 %rs562, %rs561, -16; or.b16 %rs563, %rs562, %rs14; cvt.rn.f32.s16 %f895, %rs563; sub.ftz.f32 %f896, %f895, %f9; mul.ftz.f32 %f897, %f93, %f896; mov.b32 {%rs343, %rs350}, %r83; // begin inline asm { cvt.f32.f16 %f659, %rs343;} // end inline asm fma.rn.ftz.f32 %f898, %f897, %f659, %f888; mov.b32 {%rs344, %rs351}, %r87; // begin inline asm { cvt.f32.f16 %f660, %rs344;} // end inline asm fma.rn.ftz.f32 %f899, %f897, %f660, %f889; mov.b32 {%rs345, %rs352}, %r93; // begin inline asm { cvt.f32.f16 %f661, %rs345;} // end inline asm fma.rn.ftz.f32 %f900, %f897, %f661, %f890; mov.b32 {%rs346, %rs353}, %r97; // begin inline asm { cvt.f32.f16 %f662, %rs346;} // end inline asm fma.rn.ftz.f32 %f901, %f897, %f662, %f891; mov.b32 {%rs347, %rs354}, %r101; // begin inline asm { cvt.f32.f16 %f663, %rs347;} // end inline asm fma.rn.ftz.f32 %f902, %f897, %f663, %f892; mov.b32 {%rs348, %rs355}, %r105; // begin inline asm { cvt.f32.f16 %f664, %rs348;} // end inline asm fma.rn.ftz.f32 %f903, %f897, %f664, %f893; mov.b32 {%rs349, %rs356}, %r109; // begin inline asm { cvt.f32.f16 %f665, %rs349;} // end inline asm fma.rn.ftz.f32 %f904, %f897, %f665, %f894; shl.b16 %rs564, %rs15, 4; cvt.s16.s8 %rs565, %rs564; shr.s16 %rs566, %rs565, 7; and.b16 %rs567, %rs566, -16; or.b16 %rs568, %rs567, %rs16; cvt.rn.f32.s16 %f905, %rs568; sub.ftz.f32 %f906, %f905, %f9; mul.ftz.f32 %f907, %f93, %f906; // begin inline asm { cvt.f32.f16 %f666, %rs350;} // end inline asm fma.rn.ftz.f32 %f908, %f907, %f666, %f898; // begin inline asm { cvt.f32.f16 %f667, %rs351;} // end inline asm fma.rn.ftz.f32 %f909, %f907, %f667, %f899; // begin inline asm { cvt.f32.f16 %f668, %rs352;} // end inline asm fma.rn.ftz.f32 %f910, %f907, %f668, %f900; // begin inline asm { cvt.f32.f16 %f669, %rs353;} // end inline asm fma.rn.ftz.f32 %f911, %f907, %f669, %f901; // begin inline asm { cvt.f32.f16 %f670, %rs354;} // end inline asm fma.rn.ftz.f32 %f912, %f907, %f670, %f902; // begin inline asm { cvt.f32.f16 %f671, %rs355;} // end inline asm fma.rn.ftz.f32 %f913, %f907, %f671, %f903; // begin inline asm { cvt.f32.f16 %f672, %rs356;} // end inline asm fma.rn.ftz.f32 %f914, %f907, %f672, %f904; shl.b16 %rs569, %rs17, 4; cvt.s16.s8 %rs570, %rs569; shr.s16 %rs571, %rs570, 7; and.b16 %rs572, %rs571, -16; or.b16 %rs573, %rs572, %rs18; cvt.rn.f32.s16 %f915, %rs573; sub.ftz.f32 %f916, %f915, %f9; mul.ftz.f32 %f917, %f93, %f916; mov.b32 {%rs357, %rs364}, %r84; // begin inline asm { cvt.f32.f16 %f673, %rs357;} // end inline asm fma.rn.ftz.f32 %f918, %f917, %f673, %f908; mov.b32 {%rs358, %rs365}, %r88; // begin inline asm { cvt.f32.f16 %f674, %rs358;} // end inline asm fma.rn.ftz.f32 %f919, %f917, %f674, %f909; mov.b32 {%rs359, %rs366}, %r94; // begin inline asm { cvt.f32.f16 %f675, %rs359;} // end inline asm fma.rn.ftz.f32 %f920, %f917, %f675, %f910; mov.b32 {%rs360, %rs367}, %r98; // begin inline asm { cvt.f32.f16 %f676, %rs360;} // end inline asm fma.rn.ftz.f32 %f921, %f917, %f676, %f911; mov.b32 {%rs361, %rs368}, %r102; // begin inline asm { cvt.f32.f16 %f677, %rs361;} // end inline asm fma.rn.ftz.f32 %f922, %f917, %f677, %f912; mov.b32 {%rs362, %rs369}, %r106; // begin inline asm { cvt.f32.f16 %f678, %rs362;} // end inline asm fma.rn.ftz.f32 %f923, %f917, %f678, %f913; mov.b32 {%rs363, %rs370}, %r110; // begin inline asm { cvt.f32.f16 %f679, %rs363;} // end inline asm fma.rn.ftz.f32 %f924, %f917, %f679, %f914; shl.b16 %rs574, %rs19, 4; cvt.s16.s8 %rs575, %rs574; shr.s16 %rs576, %rs575, 7; and.b16 %rs577, %rs576, -16; or.b16 %rs578, %rs577, %rs19; cvt.rn.f32.s16 %f925, %rs578; sub.ftz.f32 %f926, %f925, %f9; mul.ftz.f32 %f927, %f93, %f926; // begin inline asm { cvt.f32.f16 %f680, %rs364;} // end inline asm fma.rn.ftz.f32 %f928, %f927, %f680, %f918; // begin inline asm { cvt.f32.f16 %f681, %rs365;} // end inline asm fma.rn.ftz.f32 %f929, %f927, %f681, %f919; // begin inline asm { cvt.f32.f16 %f682, %rs366;} // end inline asm fma.rn.ftz.f32 %f930, %f927, %f682, %f920; // begin inline asm { cvt.f32.f16 %f683, %rs367;} // end inline asm fma.rn.ftz.f32 %f931, %f927, %f683, %f921; // begin inline asm { cvt.f32.f16 %f684, %rs368;} // end inline asm fma.rn.ftz.f32 %f932, %f927, %f684, %f922; // begin inline asm { cvt.f32.f16 %f685, %rs369;} // end inline asm fma.rn.ftz.f32 %f933, %f927, %f685, %f923; // begin inline asm { cvt.f32.f16 %f686, %rs370;} // end inline asm fma.rn.ftz.f32 %f934, %f927, %f686, %f924; ld.global.v4.u32 {%r313, %r314, %r315, %r316}, [%rd7+16]; ld.global.v4.u32 {%r321, %r322, %r323, %r324}, [%rd9]; ld.global.v4.u32 {%r329, %r330, %r331, %r332}, [%rd8+16]; ld.global.v4.u32 {%r337, %r338, %r339, %r340}, [%rd10]; ld.global.v4.u32 {%r345, %r346, %r347, %r348}, [%rd11]; ld.global.v4.u32 {%r353, %r354, %r355, %r356}, [%rd12]; ld.global.v4.u32 {%r361, %r362, %r363, %r364}, [%rd13]; shl.b16 %rs579, %rs20, 4; cvt.s16.s8 %rs580, %rs579; shr.s16 %rs581, %rs580, 7; and.b16 %rs582, %rs581, -16; or.b16 %rs583, %rs582, %rs21; cvt.rn.f32.s16 %f935, %rs583; sub.ftz.f32 %f936, %f935, %f9; mul.ftz.f32 %f937, %f93, %f936; mov.b32 {%rs371, %rs378}, %r313; // begin inline asm { cvt.f32.f16 %f687, %rs371;} // end inline asm fma.rn.ftz.f32 %f938, %f937, %f687, %f928; mov.b32 {%rs372, %rs379}, %r321; // begin inline asm { cvt.f32.f16 %f688, %rs372;} // end inline asm fma.rn.ftz.f32 %f939, %f937, %f688, %f929; mov.b32 {%rs373, %rs380}, %r329; // begin inline asm { cvt.f32.f16 %f689, %rs373;} // end inline asm fma.rn.ftz.f32 %f940, %f937, %f689, %f930; mov.b32 {%rs374, %rs381}, %r337; // begin inline asm { cvt.f32.f16 %f690, %rs374;} // end inline asm fma.rn.ftz.f32 %f941, %f937, %f690, %f931; mov.b32 {%rs375, %rs382}, %r345; // begin inline asm { cvt.f32.f16 %f691, %rs375;} // end inline asm fma.rn.ftz.f32 %f942, %f937, %f691, %f932; mov.b32 {%rs376, %rs383}, %r353; // begin inline asm { cvt.f32.f16 %f692, %rs376;} // end inline asm fma.rn.ftz.f32 %f943, %f937, %f692, %f933; mov.b32 {%rs377, %rs384}, %r361; // begin inline asm { cvt.f32.f16 %f693, %rs377;} // end inline asm fma.rn.ftz.f32 %f944, %f937, %f693, %f934; shl.b16 %rs584, %rs22, 4; cvt.s16.s8 %rs585, %rs584; shr.s16 %rs586, %rs585, 7; and.b16 %rs587, %rs586, -16; or.b16 %rs588, %rs587, %rs23; cvt.rn.f32.s16 %f945, %rs588; sub.ftz.f32 %f946, %f945, %f9; mul.ftz.f32 %f947, %f93, %f946; // begin inline asm { cvt.f32.f16 %f694, %rs378;} // end inline asm fma.rn.ftz.f32 %f948, %f947, %f694, %f938; // begin inline asm { cvt.f32.f16 %f695, %rs379;} // end inline asm fma.rn.ftz.f32 %f949, %f947, %f695, %f939; // begin inline asm { cvt.f32.f16 %f696, %rs380;} // end inline asm fma.rn.ftz.f32 %f950, %f947, %f696, %f940; // begin inline asm { cvt.f32.f16 %f697, %rs381;} // end inline asm fma.rn.ftz.f32 %f951, %f947, %f697, %f941; // begin inline asm { cvt.f32.f16 %f698, %rs382;} // end inline asm fma.rn.ftz.f32 %f952, %f947, %f698, %f942; // begin inline asm { cvt.f32.f16 %f699, %rs383;} // end inline asm fma.rn.ftz.f32 %f953, %f947, %f699, %f943; // begin inline asm { cvt.f32.f16 %f700, %rs384;} // end inline asm fma.rn.ftz.f32 %f954, %f947, %f700, %f944; shl.b16 %rs589, %rs24, 4; cvt.s16.s8 %rs590, %rs589; shr.s16 %rs591, %rs590, 7; and.b16 %rs592, %rs591, -16; or.b16 %rs593, %rs592, %rs25; cvt.rn.f32.s16 %f955, %rs593; sub.ftz.f32 %f956, %f955, %f9; mul.ftz.f32 %f957, %f93, %f956; mov.b32 {%rs385, %rs392}, %r314; // begin inline asm { cvt.f32.f16 %f701, %rs385;} // end inline asm fma.rn.ftz.f32 %f958, %f957, %f701, %f948; mov.b32 {%rs386, %rs393}, %r322; // begin inline asm { cvt.f32.f16 %f702, %rs386;} // end inline asm fma.rn.ftz.f32 %f959, %f957, %f702, %f949; mov.b32 {%rs387, %rs394}, %r330; // begin inline asm { cvt.f32.f16 %f703, %rs387;} // end inline asm fma.rn.ftz.f32 %f960, %f957, %f703, %f950; mov.b32 {%rs388, %rs395}, %r338; // begin inline asm { cvt.f32.f16 %f704, %rs388;} // end inline asm fma.rn.ftz.f32 %f961, %f957, %f704, %f951; mov.b32 {%rs389, %rs396}, %r346; // begin inline asm { cvt.f32.f16 %f705, %rs389;} // end inline asm fma.rn.ftz.f32 %f962, %f957, %f705, %f952; mov.b32 {%rs390, %rs397}, %r354; // begin inline asm { cvt.f32.f16 %f706, %rs390;} // end inline asm fma.rn.ftz.f32 %f963, %f957, %f706, %f953; mov.b32 {%rs391, %rs398}, %r362; // begin inline asm { cvt.f32.f16 %f707, %rs391;} // end inline asm fma.rn.ftz.f32 %f964, %f957, %f707, %f954; shl.b16 %rs594, %rs26, 4; cvt.s16.s8 %rs595, %rs594; shr.s16 %rs596, %rs595, 7; and.b16 %rs597, %rs596, -16; or.b16 %rs598, %rs597, %rs27; cvt.rn.f32.s16 %f965, %rs598; sub.ftz.f32 %f966, %f965, %f9; mul.ftz.f32 %f967, %f93, %f966; // begin inline asm { cvt.f32.f16 %f708, %rs392;} // end inline asm fma.rn.ftz.f32 %f968, %f967, %f708, %f958; // begin inline asm { cvt.f32.f16 %f709, %rs393;} // end inline asm fma.rn.ftz.f32 %f969, %f967, %f709, %f959; // begin inline asm { cvt.f32.f16 %f710, %rs394;} // end inline asm fma.rn.ftz.f32 %f970, %f967, %f710, %f960; // begin inline asm { cvt.f32.f16 %f711, %rs395;} // end inline asm fma.rn.ftz.f32 %f971, %f967, %f711, %f961; // begin inline asm { cvt.f32.f16 %f712, %rs396;} // end inline asm fma.rn.ftz.f32 %f972, %f967, %f712, %f962; // begin inline asm { cvt.f32.f16 %f713, %rs397;} // end inline asm fma.rn.ftz.f32 %f973, %f967, %f713, %f963; // begin inline asm { cvt.f32.f16 %f714, %rs398;} // end inline asm fma.rn.ftz.f32 %f974, %f967, %f714, %f964; shl.b16 %rs599, %rs28, 4; cvt.s16.s8 %rs600, %rs599; shr.s16 %rs601, %rs600, 7; and.b16 %rs602, %rs601, -16; or.b16 %rs603, %rs602, %rs29; cvt.rn.f32.s16 %f975, %rs603; sub.ftz.f32 %f976, %f975, %f9; mul.ftz.f32 %f977, %f93, %f976; mov.b32 {%rs399, %rs406}, %r315; // begin inline asm { cvt.f32.f16 %f715, %rs399;} // end inline asm fma.rn.ftz.f32 %f978, %f977, %f715, %f968; mov.b32 {%rs400, %rs407}, %r323; // begin inline asm { cvt.f32.f16 %f716, %rs400;} // end inline asm fma.rn.ftz.f32 %f979, %f977, %f716, %f969; mov.b32 {%rs401, %rs408}, %r331; // begin inline asm { cvt.f32.f16 %f717, %rs401;} // end inline asm fma.rn.ftz.f32 %f980, %f977, %f717, %f970; mov.b32 {%rs402, %rs409}, %r339; // begin inline asm { cvt.f32.f16 %f718, %rs402;} // end inline asm fma.rn.ftz.f32 %f981, %f977, %f718, %f971; mov.b32 {%rs403, %rs410}, %r347; // begin inline asm { cvt.f32.f16 %f719, %rs403;} // end inline asm fma.rn.ftz.f32 %f982, %f977, %f719, %f972; mov.b32 {%rs404, %rs411}, %r355; // begin inline asm { cvt.f32.f16 %f720, %rs404;} // end inline asm fma.rn.ftz.f32 %f983, %f977, %f720, %f973; mov.b32 {%rs405, %rs412}, %r363; // begin inline asm { cvt.f32.f16 %f721, %rs405;} // end inline asm fma.rn.ftz.f32 %f984, %f977, %f721, %f974; shl.b16 %rs604, %rs30, 4; cvt.s16.s8 %rs605, %rs604; shr.s16 %rs606, %rs605, 7; and.b16 %rs607, %rs606, -16; or.b16 %rs608, %rs607, %rs31; cvt.rn.f32.s16 %f985, %rs608; sub.ftz.f32 %f986, %f985, %f9; mul.ftz.f32 %f987, %f93, %f986; // begin inline asm { cvt.f32.f16 %f722, %rs406;} // end inline asm fma.rn.ftz.f32 %f988, %f987, %f722, %f978; // begin inline asm { cvt.f32.f16 %f723, %rs407;} // end inline asm fma.rn.ftz.f32 %f989, %f987, %f723, %f979; // begin inline asm { cvt.f32.f16 %f724, %rs408;} // end inline asm fma.rn.ftz.f32 %f990, %f987, %f724, %f980; // begin inline asm { cvt.f32.f16 %f725, %rs409;} // end inline asm fma.rn.ftz.f32 %f991, %f987, %f725, %f981; // begin inline asm { cvt.f32.f16 %f726, %rs410;} // end inline asm fma.rn.ftz.f32 %f992, %f987, %f726, %f982; // begin inline asm { cvt.f32.f16 %f727, %rs411;} // end inline asm fma.rn.ftz.f32 %f993, %f987, %f727, %f983; // begin inline asm { cvt.f32.f16 %f728, %rs412;} // end inline asm fma.rn.ftz.f32 %f994, %f987, %f728, %f984; shl.b16 %rs609, %rs32, 4; cvt.s16.s8 %rs610, %rs609; shr.s16 %rs611, %rs610, 7; and.b16 %rs612, %rs611, -16; or.b16 %rs613, %rs612, %rs33; cvt.rn.f32.s16 %f995, %rs613; sub.ftz.f32 %f996, %f995, %f9; mul.ftz.f32 %f997, %f93, %f996; mov.b32 {%rs413, %rs420}, %r316; // begin inline asm { cvt.f32.f16 %f729, %rs413;} // end inline asm fma.rn.ftz.f32 %f998, %f997, %f729, %f988; mov.b32 {%rs414, %rs421}, %r324; // begin inline asm { cvt.f32.f16 %f730, %rs414;} // end inline asm fma.rn.ftz.f32 %f999, %f997, %f730, %f989; mov.b32 {%rs415, %rs422}, %r332; // begin inline asm { cvt.f32.f16 %f731, %rs415;} // end inline asm fma.rn.ftz.f32 %f1000, %f997, %f731, %f990; mov.b32 {%rs416, %rs423}, %r340; // begin inline asm { cvt.f32.f16 %f732, %rs416;} // end inline asm fma.rn.ftz.f32 %f1001, %f997, %f732, %f991; mov.b32 {%rs417, %rs424}, %r348; // begin inline asm { cvt.f32.f16 %f733, %rs417;} // end inline asm fma.rn.ftz.f32 %f1002, %f997, %f733, %f992; mov.b32 {%rs418, %rs425}, %r356; // begin inline asm { cvt.f32.f16 %f734, %rs418;} // end inline asm fma.rn.ftz.f32 %f1003, %f997, %f734, %f993; mov.b32 {%rs419, %rs426}, %r364; // begin inline asm { cvt.f32.f16 %f735, %rs419;} // end inline asm fma.rn.ftz.f32 %f1004, %f997, %f735, %f994; shl.b16 %rs614, %rs34, 4; cvt.s16.s8 %rs615, %rs614; shr.s16 %rs616, %rs615, 7; and.b16 %rs617, %rs616, -16; or.b16 %rs618, %rs617, %rs34; cvt.rn.f32.s16 %f1005, %rs618; sub.ftz.f32 %f1006, %f1005, %f9; mul.ftz.f32 %f1007, %f93, %f1006; // begin inline asm { cvt.f32.f16 %f736, %rs420;} // end inline asm fma.rn.ftz.f32 %f1008, %f1007, %f736, %f998; // begin inline asm { cvt.f32.f16 %f737, %rs421;} // end inline asm fma.rn.ftz.f32 %f1009, %f1007, %f737, %f999; // begin inline asm { cvt.f32.f16 %f738, %rs422;} // end inline asm fma.rn.ftz.f32 %f1010, %f1007, %f738, %f1000; // begin inline asm { cvt.f32.f16 %f739, %rs423;} // end inline asm fma.rn.ftz.f32 %f1011, %f1007, %f739, %f1001; // begin inline asm { cvt.f32.f16 %f740, %rs424;} // end inline asm fma.rn.ftz.f32 %f1012, %f1007, %f740, %f1002; // begin inline asm { cvt.f32.f16 %f741, %rs425;} // end inline asm fma.rn.ftz.f32 %f1013, %f1007, %f741, %f1003; // begin inline asm { cvt.f32.f16 %f742, %rs426;} // end inline asm fma.rn.ftz.f32 %f1014, %f1007, %f742, %f1004; ld.global.v4.u32 {%r369, %r370, %r371, %r372}, [%rd7+32]; ld.global.v4.u32 {%r377, %r378, %r379, %r380}, [%rd9+16]; ld.global.v4.u32 {%r385, %r386, %r387, %r388}, [%rd8+32]; ld.global.v4.u32 {%r393, %r394, %r395, %r396}, [%rd10+16]; ld.global.v4.u32 {%r401, %r402, %r403, %r404}, [%rd11+16]; ld.global.v4.u32 {%r409, %r410, %r411, %r412}, [%rd12+16]; ld.global.v4.u32 {%r417, %r418, %r419, %r420}, [%rd13+16]; shl.b16 %rs619, %rs35, 4; cvt.s16.s8 %rs620, %rs619; shr.s16 %rs621, %rs620, 7; and.b16 %rs622, %rs621, -16; or.b16 %rs623, %rs622, %rs36; cvt.rn.f32.s16 %f1015, %rs623; sub.ftz.f32 %f1016, %f1015, %f9; mul.ftz.f32 %f1017, %f93, %f1016; mov.b32 {%rs427, %rs434}, %r369; // begin inline asm { cvt.f32.f16 %f743, %rs427;} // end inline asm fma.rn.ftz.f32 %f1018, %f1017, %f743, %f1008; mov.b32 {%rs428, %rs435}, %r377; // begin inline asm { cvt.f32.f16 %f744, %rs428;} // end inline asm fma.rn.ftz.f32 %f1019, %f1017, %f744, %f1009; mov.b32 {%rs429, %rs436}, %r385; // begin inline asm { cvt.f32.f16 %f745, %rs429;} // end inline asm fma.rn.ftz.f32 %f1020, %f1017, %f745, %f1010; mov.b32 {%rs430, %rs437}, %r393; // begin inline asm { cvt.f32.f16 %f746, %rs430;} // end inline asm fma.rn.ftz.f32 %f1021, %f1017, %f746, %f1011; mov.b32 {%rs431, %rs438}, %r401; // begin inline asm { cvt.f32.f16 %f747, %rs431;} // end inline asm fma.rn.ftz.f32 %f1022, %f1017, %f747, %f1012; mov.b32 {%rs432, %rs439}, %r409; // begin inline asm { cvt.f32.f16 %f748, %rs432;} // end inline asm fma.rn.ftz.f32 %f1023, %f1017, %f748, %f1013; mov.b32 {%rs433, %rs440}, %r417; // begin inline asm { cvt.f32.f16 %f749, %rs433;} // end inline asm fma.rn.ftz.f32 %f1024, %f1017, %f749, %f1014; shl.b16 %rs624, %rs37, 4; cvt.s16.s8 %rs625, %rs624; shr.s16 %rs626, %rs625, 7; and.b16 %rs627, %rs626, -16; or.b16 %rs628, %rs627, %rs38; cvt.rn.f32.s16 %f1025, %rs628; sub.ftz.f32 %f1026, %f1025, %f9; mul.ftz.f32 %f1027, %f93, %f1026; // begin inline asm { cvt.f32.f16 %f750, %rs434;} // end inline asm fma.rn.ftz.f32 %f1028, %f1027, %f750, %f1018; // begin inline asm { cvt.f32.f16 %f751, %rs435;} // end inline asm fma.rn.ftz.f32 %f1029, %f1027, %f751, %f1019; // begin inline asm { cvt.f32.f16 %f752, %rs436;} // end inline asm fma.rn.ftz.f32 %f1030, %f1027, %f752, %f1020; // begin inline asm { cvt.f32.f16 %f753, %rs437;} // end inline asm fma.rn.ftz.f32 %f1031, %f1027, %f753, %f1021; // begin inline asm { cvt.f32.f16 %f754, %rs438;} // end inline asm fma.rn.ftz.f32 %f1032, %f1027, %f754, %f1022; // begin inline asm { cvt.f32.f16 %f755, %rs439;} // end inline asm fma.rn.ftz.f32 %f1033, %f1027, %f755, %f1023; // begin inline asm { cvt.f32.f16 %f756, %rs440;} // end inline asm fma.rn.ftz.f32 %f1034, %f1027, %f756, %f1024; shl.b16 %rs629, %rs39, 4; cvt.s16.s8 %rs630, %rs629; shr.s16 %rs631, %rs630, 7; and.b16 %rs632, %rs631, -16; or.b16 %rs633, %rs632, %rs40; cvt.rn.f32.s16 %f1035, %rs633; sub.ftz.f32 %f1036, %f1035, %f9; mul.ftz.f32 %f1037, %f93, %f1036; mov.b32 {%rs441, %rs448}, %r370; // begin inline asm { cvt.f32.f16 %f757, %rs441;} // end inline asm fma.rn.ftz.f32 %f1038, %f1037, %f757, %f1028; mov.b32 {%rs442, %rs449}, %r378; // begin inline asm { cvt.f32.f16 %f758, %rs442;} // end inline asm fma.rn.ftz.f32 %f1039, %f1037, %f758, %f1029; mov.b32 {%rs443, %rs450}, %r386; // begin inline asm { cvt.f32.f16 %f759, %rs443;} // end inline asm fma.rn.ftz.f32 %f1040, %f1037, %f759, %f1030; mov.b32 {%rs444, %rs451}, %r394; // begin inline asm { cvt.f32.f16 %f760, %rs444;} // end inline asm fma.rn.ftz.f32 %f1041, %f1037, %f760, %f1031; mov.b32 {%rs445, %rs452}, %r402; // begin inline asm { cvt.f32.f16 %f761, %rs445;} // end inline asm fma.rn.ftz.f32 %f1042, %f1037, %f761, %f1032; mov.b32 {%rs446, %rs453}, %r410; // begin inline asm { cvt.f32.f16 %f762, %rs446;} // end inline asm fma.rn.ftz.f32 %f1043, %f1037, %f762, %f1033; mov.b32 {%rs447, %rs454}, %r418; // begin inline asm { cvt.f32.f16 %f763, %rs447;} // end inline asm fma.rn.ftz.f32 %f1044, %f1037, %f763, %f1034; shl.b16 %rs634, %rs41, 4; cvt.s16.s8 %rs635, %rs634; shr.s16 %rs636, %rs635, 7; and.b16 %rs637, %rs636, -16; or.b16 %rs638, %rs637, %rs42; cvt.rn.f32.s16 %f1045, %rs638; sub.ftz.f32 %f1046, %f1045, %f9; mul.ftz.f32 %f1047, %f93, %f1046; // begin inline asm { cvt.f32.f16 %f764, %rs448;} // end inline asm fma.rn.ftz.f32 %f1048, %f1047, %f764, %f1038; // begin inline asm { cvt.f32.f16 %f765, %rs449;} // end inline asm fma.rn.ftz.f32 %f1049, %f1047, %f765, %f1039; // begin inline asm { cvt.f32.f16 %f766, %rs450;} // end inline asm fma.rn.ftz.f32 %f1050, %f1047, %f766, %f1040; // begin inline asm { cvt.f32.f16 %f767, %rs451;} // end inline asm fma.rn.ftz.f32 %f1051, %f1047, %f767, %f1041; // begin inline asm { cvt.f32.f16 %f768, %rs452;} // end inline asm fma.rn.ftz.f32 %f1052, %f1047, %f768, %f1042; // begin inline asm { cvt.f32.f16 %f769, %rs453;} // end inline asm fma.rn.ftz.f32 %f1053, %f1047, %f769, %f1043; // begin inline asm { cvt.f32.f16 %f770, %rs454;} // end inline asm fma.rn.ftz.f32 %f1054, %f1047, %f770, %f1044; shl.b16 %rs639, %rs43, 4; cvt.s16.s8 %rs640, %rs639; shr.s16 %rs641, %rs640, 7; and.b16 %rs642, %rs641, -16; or.b16 %rs643, %rs642, %rs44; cvt.rn.f32.s16 %f1055, %rs643; sub.ftz.f32 %f1056, %f1055, %f9; mul.ftz.f32 %f1057, %f93, %f1056; mov.b32 {%rs455, %rs462}, %r371; // begin inline asm { cvt.f32.f16 %f771, %rs455;} // end inline asm fma.rn.ftz.f32 %f1058, %f1057, %f771, %f1048; mov.b32 {%rs456, %rs463}, %r379; // begin inline asm { cvt.f32.f16 %f772, %rs456;} // end inline asm fma.rn.ftz.f32 %f1059, %f1057, %f772, %f1049; mov.b32 {%rs457, %rs464}, %r387; // begin inline asm { cvt.f32.f16 %f773, %rs457;} // end inline asm fma.rn.ftz.f32 %f1060, %f1057, %f773, %f1050; mov.b32 {%rs458, %rs465}, %r395; // begin inline asm { cvt.f32.f16 %f774, %rs458;} // end inline asm fma.rn.ftz.f32 %f1061, %f1057, %f774, %f1051; mov.b32 {%rs459, %rs466}, %r403; // begin inline asm { cvt.f32.f16 %f775, %rs459;} // end inline asm fma.rn.ftz.f32 %f1062, %f1057, %f775, %f1052; mov.b32 {%rs460, %rs467}, %r411; // begin inline asm { cvt.f32.f16 %f776, %rs460;} // end inline asm fma.rn.ftz.f32 %f1063, %f1057, %f776, %f1053; mov.b32 {%rs461, %rs468}, %r419; // begin inline asm { cvt.f32.f16 %f777, %rs461;} // end inline asm fma.rn.ftz.f32 %f1064, %f1057, %f777, %f1054; shl.b16 %rs644, %rs45, 4; cvt.s16.s8 %rs645, %rs644; shr.s16 %rs646, %rs645, 7; and.b16 %rs647, %rs646, -16; or.b16 %rs648, %rs647, %rs46; cvt.rn.f32.s16 %f1065, %rs648; sub.ftz.f32 %f1066, %f1065, %f9; mul.ftz.f32 %f1067, %f93, %f1066; // begin inline asm { cvt.f32.f16 %f778, %rs462;} // end inline asm fma.rn.ftz.f32 %f1068, %f1067, %f778, %f1058; // begin inline asm { cvt.f32.f16 %f779, %rs463;} // end inline asm fma.rn.ftz.f32 %f1069, %f1067, %f779, %f1059; // begin inline asm { cvt.f32.f16 %f780, %rs464;} // end inline asm fma.rn.ftz.f32 %f1070, %f1067, %f780, %f1060; // begin inline asm { cvt.f32.f16 %f781, %rs465;} // end inline asm fma.rn.ftz.f32 %f1071, %f1067, %f781, %f1061; // begin inline asm { cvt.f32.f16 %f782, %rs466;} // end inline asm fma.rn.ftz.f32 %f1072, %f1067, %f782, %f1062; // begin inline asm { cvt.f32.f16 %f783, %rs467;} // end inline asm fma.rn.ftz.f32 %f1073, %f1067, %f783, %f1063; // begin inline asm { cvt.f32.f16 %f784, %rs468;} // end inline asm fma.rn.ftz.f32 %f1074, %f1067, %f784, %f1064; shl.b16 %rs649, %rs47, 4; cvt.s16.s8 %rs650, %rs649; shr.s16 %rs651, %rs650, 7; and.b16 %rs652, %rs651, -16; or.b16 %rs653, %rs652, %rs48; cvt.rn.f32.s16 %f1075, %rs653; sub.ftz.f32 %f1076, %f1075, %f9; mul.ftz.f32 %f1077, %f93, %f1076; mov.b32 {%rs469, %rs476}, %r372; // begin inline asm { cvt.f32.f16 %f785, %rs469;} // end inline asm fma.rn.ftz.f32 %f1078, %f1077, %f785, %f1068; mov.b32 {%rs470, %rs477}, %r380; // begin inline asm { cvt.f32.f16 %f786, %rs470;} // end inline asm fma.rn.ftz.f32 %f1079, %f1077, %f786, %f1069; mov.b32 {%rs471, %rs478}, %r388; // begin inline asm { cvt.f32.f16 %f787, %rs471;} // end inline asm fma.rn.ftz.f32 %f1080, %f1077, %f787, %f1070; mov.b32 {%rs472, %rs479}, %r396; // begin inline asm { cvt.f32.f16 %f788, %rs472;} // end inline asm fma.rn.ftz.f32 %f1081, %f1077, %f788, %f1071; mov.b32 {%rs473, %rs480}, %r404; // begin inline asm { cvt.f32.f16 %f789, %rs473;} // end inline asm fma.rn.ftz.f32 %f1082, %f1077, %f789, %f1072; mov.b32 {%rs474, %rs481}, %r412; // begin inline asm { cvt.f32.f16 %f790, %rs474;} // end inline asm fma.rn.ftz.f32 %f1083, %f1077, %f790, %f1073; mov.b32 {%rs475, %rs482}, %r420; // begin inline asm { cvt.f32.f16 %f791, %rs475;} // end inline asm fma.rn.ftz.f32 %f1084, %f1077, %f791, %f1074; shl.b16 %rs654, %rs49, 4; cvt.s16.s8 %rs655, %rs654; shr.s16 %rs656, %rs655, 7; and.b16 %rs657, %rs656, -16; or.b16 %rs658, %rs657, %rs49; cvt.rn.f32.s16 %f1085, %rs658; sub.ftz.f32 %f1086, %f1085, %f9; mul.ftz.f32 %f1087, %f93, %f1086; // begin inline asm { cvt.f32.f16 %f792, %rs476;} // end inline asm fma.rn.ftz.f32 %f1088, %f1087, %f792, %f1078; // begin inline asm { cvt.f32.f16 %f793, %rs477;} // end inline asm fma.rn.ftz.f32 %f1089, %f1087, %f793, %f1079; // begin inline asm { cvt.f32.f16 %f794, %rs478;} // end inline asm fma.rn.ftz.f32 %f1090, %f1087, %f794, %f1080; // begin inline asm { cvt.f32.f16 %f795, %rs479;} // end inline asm fma.rn.ftz.f32 %f1091, %f1087, %f795, %f1081; // begin inline asm { cvt.f32.f16 %f796, %rs480;} // end inline asm fma.rn.ftz.f32 %f1092, %f1087, %f796, %f1082; // begin inline asm { cvt.f32.f16 %f797, %rs481;} // end inline asm fma.rn.ftz.f32 %f1093, %f1087, %f797, %f1083; // begin inline asm { cvt.f32.f16 %f798, %rs482;} // end inline asm fma.rn.ftz.f32 %f1094, %f1087, %f798, %f1084; ld.global.v4.u32 {%r425, %r426, %r427, %r428}, [%rd7+48]; ld.global.v4.u32 {%r433, %r434, %r435, %r436}, [%rd9+32]; ld.global.v4.u32 {%r441, %r442, %r443, %r444}, [%rd8+48]; ld.global.v4.u32 {%r449, %r450, %r451, %r452}, [%rd10+32]; ld.global.v4.u32 {%r457, %r458, %r459, %r460}, [%rd11+32]; ld.global.v4.u32 {%r465, %r466, %r467, %r468}, [%rd12+32]; ld.global.v4.u32 {%r473, %r474, %r475, %r476}, [%rd13+32]; shl.b16 %rs659, %rs50, 4; cvt.s16.s8 %rs660, %rs659; shr.s16 %rs661, %rs660, 7; and.b16 %rs662, %rs661, -16; or.b16 %rs663, %rs662, %rs51; cvt.rn.f32.s16 %f1095, %rs663; sub.ftz.f32 %f1096, %f1095, %f9; mul.ftz.f32 %f1097, %f93, %f1096; mov.b32 {%rs483, %rs490}, %r425; // begin inline asm { cvt.f32.f16 %f799, %rs483;} // end inline asm fma.rn.ftz.f32 %f1098, %f1097, %f799, %f1088; mov.b32 {%rs484, %rs491}, %r433; // begin inline asm { cvt.f32.f16 %f800, %rs484;} // end inline asm fma.rn.ftz.f32 %f1099, %f1097, %f800, %f1089; mov.b32 {%rs485, %rs492}, %r441; // begin inline asm { cvt.f32.f16 %f801, %rs485;} // end inline asm fma.rn.ftz.f32 %f1100, %f1097, %f801, %f1090; mov.b32 {%rs486, %rs493}, %r449; // begin inline asm { cvt.f32.f16 %f802, %rs486;} // end inline asm fma.rn.ftz.f32 %f1101, %f1097, %f802, %f1091; mov.b32 {%rs487, %rs494}, %r457; // begin inline asm { cvt.f32.f16 %f803, %rs487;} // end inline asm fma.rn.ftz.f32 %f1102, %f1097, %f803, %f1092; mov.b32 {%rs488, %rs495}, %r465; // begin inline asm { cvt.f32.f16 %f804, %rs488;} // end inline asm fma.rn.ftz.f32 %f1103, %f1097, %f804, %f1093; mov.b32 {%rs489, %rs496}, %r473; // begin inline asm { cvt.f32.f16 %f805, %rs489;} // end inline asm fma.rn.ftz.f32 %f1104, %f1097, %f805, %f1094; shl.b16 %rs664, %rs52, 4; cvt.s16.s8 %rs665, %rs664; shr.s16 %rs666, %rs665, 7; and.b16 %rs667, %rs666, -16; or.b16 %rs668, %rs667, %rs53; cvt.rn.f32.s16 %f1105, %rs668; sub.ftz.f32 %f1106, %f1105, %f9; mul.ftz.f32 %f1107, %f93, %f1106; // begin inline asm { cvt.f32.f16 %f806, %rs490;} // end inline asm fma.rn.ftz.f32 %f1108, %f1107, %f806, %f1098; // begin inline asm { cvt.f32.f16 %f807, %rs491;} // end inline asm fma.rn.ftz.f32 %f1109, %f1107, %f807, %f1099; // begin inline asm { cvt.f32.f16 %f808, %rs492;} // end inline asm fma.rn.ftz.f32 %f1110, %f1107, %f808, %f1100; // begin inline asm { cvt.f32.f16 %f809, %rs493;} // end inline asm fma.rn.ftz.f32 %f1111, %f1107, %f809, %f1101; // begin inline asm { cvt.f32.f16 %f810, %rs494;} // end inline asm fma.rn.ftz.f32 %f1112, %f1107, %f810, %f1102; // begin inline asm { cvt.f32.f16 %f811, %rs495;} // end inline asm fma.rn.ftz.f32 %f1113, %f1107, %f811, %f1103; // begin inline asm { cvt.f32.f16 %f812, %rs496;} // end inline asm fma.rn.ftz.f32 %f1114, %f1107, %f812, %f1104; shl.b16 %rs669, %rs54, 4; cvt.s16.s8 %rs670, %rs669; shr.s16 %rs671, %rs670, 7; and.b16 %rs672, %rs671, -16; or.b16 %rs673, %rs672, %rs55; cvt.rn.f32.s16 %f1115, %rs673; sub.ftz.f32 %f1116, %f1115, %f9; mul.ftz.f32 %f1117, %f93, %f1116; mov.b32 {%rs497, %rs504}, %r426; // begin inline asm { cvt.f32.f16 %f813, %rs497;} // end inline asm fma.rn.ftz.f32 %f1118, %f1117, %f813, %f1108; mov.b32 {%rs498, %rs505}, %r434; // begin inline asm { cvt.f32.f16 %f814, %rs498;} // end inline asm fma.rn.ftz.f32 %f1119, %f1117, %f814, %f1109; mov.b32 {%rs499, %rs506}, %r442; // begin inline asm { cvt.f32.f16 %f815, %rs499;} // end inline asm fma.rn.ftz.f32 %f1120, %f1117, %f815, %f1110; mov.b32 {%rs500, %rs507}, %r450; // begin inline asm { cvt.f32.f16 %f816, %rs500;} // end inline asm fma.rn.ftz.f32 %f1121, %f1117, %f816, %f1111; mov.b32 {%rs501, %rs508}, %r458; // begin inline asm { cvt.f32.f16 %f817, %rs501;} // end inline asm fma.rn.ftz.f32 %f1122, %f1117, %f817, %f1112; mov.b32 {%rs502, %rs509}, %r466; // begin inline asm { cvt.f32.f16 %f818, %rs502;} // end inline asm fma.rn.ftz.f32 %f1123, %f1117, %f818, %f1113; mov.b32 {%rs503, %rs510}, %r474; // begin inline asm { cvt.f32.f16 %f819, %rs503;} // end inline asm fma.rn.ftz.f32 %f1124, %f1117, %f819, %f1114; shl.b16 %rs674, %rs56, 4; cvt.s16.s8 %rs675, %rs674; shr.s16 %rs676, %rs675, 7; and.b16 %rs677, %rs676, -16; or.b16 %rs678, %rs677, %rs57; cvt.rn.f32.s16 %f1125, %rs678; sub.ftz.f32 %f1126, %f1125, %f9; mul.ftz.f32 %f1127, %f93, %f1126; // begin inline asm { cvt.f32.f16 %f820, %rs504;} // end inline asm fma.rn.ftz.f32 %f1128, %f1127, %f820, %f1118; // begin inline asm { cvt.f32.f16 %f821, %rs505;} // end inline asm fma.rn.ftz.f32 %f1129, %f1127, %f821, %f1119; // begin inline asm { cvt.f32.f16 %f822, %rs506;} // end inline asm fma.rn.ftz.f32 %f1130, %f1127, %f822, %f1120; // begin inline asm { cvt.f32.f16 %f823, %rs507;} // end inline asm fma.rn.ftz.f32 %f1131, %f1127, %f823, %f1121; // begin inline asm { cvt.f32.f16 %f824, %rs508;} // end inline asm fma.rn.ftz.f32 %f1132, %f1127, %f824, %f1122; // begin inline asm { cvt.f32.f16 %f825, %rs509;} // end inline asm fma.rn.ftz.f32 %f1133, %f1127, %f825, %f1123; // begin inline asm { cvt.f32.f16 %f826, %rs510;} // end inline asm fma.rn.ftz.f32 %f1134, %f1127, %f826, %f1124; shl.b16 %rs679, %rs58, 4; cvt.s16.s8 %rs680, %rs679; shr.s16 %rs681, %rs680, 7; and.b16 %rs682, %rs681, -16; or.b16 %rs683, %rs682, %rs59; cvt.rn.f32.s16 %f1135, %rs683; sub.ftz.f32 %f1136, %f1135, %f9; mul.ftz.f32 %f1137, %f93, %f1136; mov.b32 {%rs511, %rs518}, %r427; // begin inline asm { cvt.f32.f16 %f827, %rs511;} // end inline asm fma.rn.ftz.f32 %f1138, %f1137, %f827, %f1128; mov.b32 {%rs512, %rs519}, %r435; // begin inline asm { cvt.f32.f16 %f828, %rs512;} // end inline asm fma.rn.ftz.f32 %f1139, %f1137, %f828, %f1129; mov.b32 {%rs513, %rs520}, %r443; // begin inline asm { cvt.f32.f16 %f829, %rs513;} // end inline asm fma.rn.ftz.f32 %f1140, %f1137, %f829, %f1130; mov.b32 {%rs514, %rs521}, %r451; // begin inline asm { cvt.f32.f16 %f830, %rs514;} // end inline asm fma.rn.ftz.f32 %f1141, %f1137, %f830, %f1131; mov.b32 {%rs515, %rs522}, %r459; // begin inline asm { cvt.f32.f16 %f831, %rs515;} // end inline asm fma.rn.ftz.f32 %f1142, %f1137, %f831, %f1132; mov.b32 {%rs516, %rs523}, %r467; // begin inline asm { cvt.f32.f16 %f832, %rs516;} // end inline asm fma.rn.ftz.f32 %f1143, %f1137, %f832, %f1133; mov.b32 {%rs517, %rs524}, %r475; // begin inline asm { cvt.f32.f16 %f833, %rs517;} // end inline asm fma.rn.ftz.f32 %f1144, %f1137, %f833, %f1134; shl.b16 %rs684, %rs60, 4; cvt.s16.s8 %rs685, %rs684; shr.s16 %rs686, %rs685, 7; and.b16 %rs687, %rs686, -16; or.b16 %rs688, %rs687, %rs61; cvt.rn.f32.s16 %f1145, %rs688; sub.ftz.f32 %f1146, %f1145, %f9; mul.ftz.f32 %f1147, %f93, %f1146; // begin inline asm { cvt.f32.f16 %f834, %rs518;} // end inline asm fma.rn.ftz.f32 %f1148, %f1147, %f834, %f1138; // begin inline asm { cvt.f32.f16 %f835, %rs519;} // end inline asm fma.rn.ftz.f32 %f1149, %f1147, %f835, %f1139; // begin inline asm { cvt.f32.f16 %f836, %rs520;} // end inline asm fma.rn.ftz.f32 %f1150, %f1147, %f836, %f1140; // begin inline asm { cvt.f32.f16 %f837, %rs521;} // end inline asm fma.rn.ftz.f32 %f1151, %f1147, %f837, %f1141; // begin inline asm { cvt.f32.f16 %f838, %rs522;} // end inline asm fma.rn.ftz.f32 %f1152, %f1147, %f838, %f1142; // begin inline asm { cvt.f32.f16 %f839, %rs523;} // end inline asm fma.rn.ftz.f32 %f1153, %f1147, %f839, %f1143; // begin inline asm { cvt.f32.f16 %f840, %rs524;} // end inline asm fma.rn.ftz.f32 %f1154, %f1147, %f840, %f1144; shl.b16 %rs689, %rs62, 4; cvt.s16.s8 %rs690, %rs689; shr.s16 %rs691, %rs690, 7; and.b16 %rs692, %rs691, -16; or.b16 %rs693, %rs692, %rs63; cvt.rn.f32.s16 %f1155, %rs693; sub.ftz.f32 %f1156, %f1155, %f9; mul.ftz.f32 %f1157, %f93, %f1156; mov.b32 {%rs525, %rs532}, %r428; // begin inline asm { cvt.f32.f16 %f841, %rs525;} // end inline asm fma.rn.ftz.f32 %f1158, %f1157, %f841, %f1148; mov.b32 {%rs526, %rs533}, %r436; // begin inline asm { cvt.f32.f16 %f842, %rs526;} // end inline asm fma.rn.ftz.f32 %f1159, %f1157, %f842, %f1149; mov.b32 {%rs527, %rs534}, %r444; // begin inline asm { cvt.f32.f16 %f843, %rs527;} // end inline asm fma.rn.ftz.f32 %f1160, %f1157, %f843, %f1150; mov.b32 {%rs528, %rs535}, %r452; // begin inline asm { cvt.f32.f16 %f844, %rs528;} // end inline asm fma.rn.ftz.f32 %f1161, %f1157, %f844, %f1151; mov.b32 {%rs529, %rs536}, %r460; // begin inline asm { cvt.f32.f16 %f845, %rs529;} // end inline asm fma.rn.ftz.f32 %f1162, %f1157, %f845, %f1152; mov.b32 {%rs530, %rs537}, %r468; // begin inline asm { cvt.f32.f16 %f846, %rs530;} // end inline asm fma.rn.ftz.f32 %f1163, %f1157, %f846, %f1153; mov.b32 {%rs531, %rs538}, %r476; // begin inline asm { cvt.f32.f16 %f847, %rs531;} // end inline asm fma.rn.ftz.f32 %f1164, %f1157, %f847, %f1154; shl.b16 %rs694, %rs64, 4; cvt.s16.s8 %rs695, %rs694; shr.s16 %rs696, %rs695, 7; and.b16 %rs697, %rs696, -16; or.b16 %rs698, %rs697, %rs64; cvt.rn.f32.s16 %f1165, %rs698; sub.ftz.f32 %f1166, %f1165, %f9; mul.ftz.f32 %f1167, %f93, %f1166; // begin inline asm { cvt.f32.f16 %f848, %rs532;} // end inline asm fma.rn.ftz.f32 %f1335, %f1167, %f848, %f1158; // begin inline asm { cvt.f32.f16 %f849, %rs533;} // end inline asm fma.rn.ftz.f32 %f1334, %f1167, %f849, %f1159; // begin inline asm { cvt.f32.f16 %f850, %rs534;} // end inline asm fma.rn.ftz.f32 %f1333, %f1167, %f850, %f1160; // begin inline asm { cvt.f32.f16 %f851, %rs535;} // end inline asm fma.rn.ftz.f32 %f1332, %f1167, %f851, %f1161; // begin inline asm { cvt.f32.f16 %f852, %rs536;} // end inline asm fma.rn.ftz.f32 %f1331, %f1167, %f852, %f1162; // begin inline asm { cvt.f32.f16 %f853, %rs537;} // end inline asm fma.rn.ftz.f32 %f1330, %f1167, %f853, %f1163; // begin inline asm { cvt.f32.f16 %f854, %rs538;} // end inline asm fma.rn.ftz.f32 %f1329, %f1167, %f854, %f1164; $L__BB0_8: add.s32 %r678, %r678, 4; shl.b32 %r481, %r678, 5; add.s32 %r677, %r481, %r62; shl.b32 %r676, %r677, 2; setp.lt.u32 %p7, %r676, %r59; @%p7 bra $L__BB0_2; $L__BB0_9: mov.u32 %r483, %tid.y; shl.b32 %r484, %r483, 5; add.s32 %r48, %r484, %r62; setp.lt.u32 %p8, %r48, 32; shl.b32 %r486, %r48, 2; mov.u32 %r487, _ZZ9gemv_int4ILi4ELi128ELi7EEvP6__halfPKS0_S3_PKjPKhS3_iiiiffbE12temp_storage; add.s32 %r488, %r487, %r486; @%p8 bra $L__BB0_11; add.s32 %r669, %r488, -112; st.shared.f32 [%r669], %f1335; $L__BB0_11: setp.gt.u32 %p9, %r48, 31; bar.sync 0; mad.lo.s32 %r50, %r48, 12, %r487; @%p9 bra $L__BB0_13; mov.u32 %r507, 16; ld.shared.f32 %f1183, [%r50+16]; add.ftz.f32 %f1184, %f1335, %f1183; ld.shared.f32 %f1185, [%r50+20]; add.ftz.f32 %f1186, %f1184, %f1185; ld.shared.f32 %f1187, [%r50+24]; add.ftz.f32 %f1170, %f1186, %f1187; mov.u32 %r495, 1; mov.u32 %r508, 31; mov.u32 %r509, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1170, %r495, %r508, %r509; @p add.f32 r0, r0, %f1170; mov.f32 %f1168, r0;} // end inline asm mov.u32 %r498, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1168, %r498, %r508, %r509; @p add.f32 r0, r0, %f1168; mov.f32 %f1171, r0;} // end inline asm mov.u32 %r501, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1171, %r501, %r508, %r509; @p add.f32 r0, r0, %f1171; mov.f32 %f1174, r0;} // end inline asm mov.u32 %r504, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1174, %r504, %r508, %r509; @p add.f32 r0, r0, %f1174; mov.f32 %f1177, r0;} // end inline asm // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1177, %r507, %r508, %r509; @p add.f32 r0, r0, %f1177; mov.f32 %f1335, r0;} // end inline asm $L__BB0_13: @%p8 bra $L__BB0_15; add.s32 %r670, %r488, -112; st.shared.f32 [%r670+640], %f1334; $L__BB0_15: bar.sync 0; @%p9 bra $L__BB0_17; ld.shared.f32 %f1203, [%r50+656]; add.ftz.f32 %f1204, %f1334, %f1203; ld.shared.f32 %f1205, [%r50+660]; add.ftz.f32 %f1206, %f1204, %f1205; ld.shared.f32 %f1207, [%r50+664]; add.ftz.f32 %f1190, %f1206, %f1207; mov.u32 %r519, 1; mov.u32 %r532, 31; mov.u32 %r533, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1190, %r519, %r532, %r533; @p add.f32 r0, r0, %f1190; mov.f32 %f1188, r0;} // end inline asm mov.u32 %r522, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1188, %r522, %r532, %r533; @p add.f32 r0, r0, %f1188; mov.f32 %f1191, r0;} // end inline asm mov.u32 %r525, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1191, %r525, %r532, %r533; @p add.f32 r0, r0, %f1191; mov.f32 %f1194, r0;} // end inline asm mov.u32 %r528, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1194, %r528, %r532, %r533; @p add.f32 r0, r0, %f1194; mov.f32 %f1197, r0;} // end inline asm mov.u32 %r531, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1197, %r531, %r532, %r533; @p add.f32 r0, r0, %f1197; mov.f32 %f1334, r0;} // end inline asm $L__BB0_17: @%p8 bra $L__BB0_19; add.s32 %r671, %r488, -112; st.shared.f32 [%r671+1280], %f1333; $L__BB0_19: bar.sync 0; @%p9 bra $L__BB0_21; ld.shared.f32 %f1223, [%r50+1296]; add.ftz.f32 %f1224, %f1333, %f1223; ld.shared.f32 %f1225, [%r50+1300]; add.ftz.f32 %f1226, %f1224, %f1225; ld.shared.f32 %f1227, [%r50+1304]; add.ftz.f32 %f1210, %f1226, %f1227; mov.u32 %r543, 1; mov.u32 %r556, 31; mov.u32 %r557, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1210, %r543, %r556, %r557; @p add.f32 r0, r0, %f1210; mov.f32 %f1208, r0;} // end inline asm mov.u32 %r546, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1208, %r546, %r556, %r557; @p add.f32 r0, r0, %f1208; mov.f32 %f1211, r0;} // end inline asm mov.u32 %r549, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1211, %r549, %r556, %r557; @p add.f32 r0, r0, %f1211; mov.f32 %f1214, r0;} // end inline asm mov.u32 %r552, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1214, %r552, %r556, %r557; @p add.f32 r0, r0, %f1214; mov.f32 %f1217, r0;} // end inline asm mov.u32 %r555, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1217, %r555, %r556, %r557; @p add.f32 r0, r0, %f1217; mov.f32 %f1333, r0;} // end inline asm $L__BB0_21: @%p8 bra $L__BB0_23; add.s32 %r672, %r488, -112; st.shared.f32 [%r672+1920], %f1332; $L__BB0_23: bar.sync 0; @%p9 bra $L__BB0_25; ld.shared.f32 %f1243, [%r50+1936]; add.ftz.f32 %f1244, %f1332, %f1243; ld.shared.f32 %f1245, [%r50+1940]; add.ftz.f32 %f1246, %f1244, %f1245; ld.shared.f32 %f1247, [%r50+1944]; add.ftz.f32 %f1230, %f1246, %f1247; mov.u32 %r567, 1; mov.u32 %r580, 31; mov.u32 %r581, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1230, %r567, %r580, %r581; @p add.f32 r0, r0, %f1230; mov.f32 %f1228, r0;} // end inline asm mov.u32 %r570, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1228, %r570, %r580, %r581; @p add.f32 r0, r0, %f1228; mov.f32 %f1231, r0;} // end inline asm mov.u32 %r573, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1231, %r573, %r580, %r581; @p add.f32 r0, r0, %f1231; mov.f32 %f1234, r0;} // end inline asm mov.u32 %r576, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1234, %r576, %r580, %r581; @p add.f32 r0, r0, %f1234; mov.f32 %f1237, r0;} // end inline asm mov.u32 %r579, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1237, %r579, %r580, %r581; @p add.f32 r0, r0, %f1237; mov.f32 %f1332, r0;} // end inline asm $L__BB0_25: @%p8 bra $L__BB0_27; add.s32 %r673, %r488, -112; st.shared.f32 [%r673+2560], %f1331; $L__BB0_27: bar.sync 0; @%p9 bra $L__BB0_29; ld.shared.f32 %f1263, [%r50+2576]; add.ftz.f32 %f1264, %f1331, %f1263; ld.shared.f32 %f1265, [%r50+2580]; add.ftz.f32 %f1266, %f1264, %f1265; ld.shared.f32 %f1267, [%r50+2584]; add.ftz.f32 %f1250, %f1266, %f1267; mov.u32 %r591, 1; mov.u32 %r604, 31; mov.u32 %r605, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1250, %r591, %r604, %r605; @p add.f32 r0, r0, %f1250; mov.f32 %f1248, r0;} // end inline asm mov.u32 %r594, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1248, %r594, %r604, %r605; @p add.f32 r0, r0, %f1248; mov.f32 %f1251, r0;} // end inline asm mov.u32 %r597, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1251, %r597, %r604, %r605; @p add.f32 r0, r0, %f1251; mov.f32 %f1254, r0;} // end inline asm mov.u32 %r600, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1254, %r600, %r604, %r605; @p add.f32 r0, r0, %f1254; mov.f32 %f1257, r0;} // end inline asm mov.u32 %r603, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1257, %r603, %r604, %r605; @p add.f32 r0, r0, %f1257; mov.f32 %f1331, r0;} // end inline asm $L__BB0_29: @%p8 bra $L__BB0_31; add.s32 %r674, %r488, -112; st.shared.f32 [%r674+3200], %f1330; $L__BB0_31: bar.sync 0; @%p9 bra $L__BB0_33; ld.shared.f32 %f1283, [%r50+3216]; add.ftz.f32 %f1284, %f1330, %f1283; ld.shared.f32 %f1285, [%r50+3220]; add.ftz.f32 %f1286, %f1284, %f1285; ld.shared.f32 %f1287, [%r50+3224]; add.ftz.f32 %f1270, %f1286, %f1287; mov.u32 %r615, 1; mov.u32 %r628, 31; mov.u32 %r629, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1270, %r615, %r628, %r629; @p add.f32 r0, r0, %f1270; mov.f32 %f1268, r0;} // end inline asm mov.u32 %r618, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1268, %r618, %r628, %r629; @p add.f32 r0, r0, %f1268; mov.f32 %f1271, r0;} // end inline asm mov.u32 %r621, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1271, %r621, %r628, %r629; @p add.f32 r0, r0, %f1271; mov.f32 %f1274, r0;} // end inline asm mov.u32 %r624, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1274, %r624, %r628, %r629; @p add.f32 r0, r0, %f1274; mov.f32 %f1277, r0;} // end inline asm mov.u32 %r627, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1277, %r627, %r628, %r629; @p add.f32 r0, r0, %f1277; mov.f32 %f1330, r0;} // end inline asm $L__BB0_33: @%p8 bra $L__BB0_35; add.s32 %r675, %r488, -112; st.shared.f32 [%r675+3840], %f1329; $L__BB0_35: bar.sync 0; @%p9 bra $L__BB0_37; ld.shared.f32 %f1303, [%r50+3856]; add.ftz.f32 %f1304, %f1329, %f1303; ld.shared.f32 %f1305, [%r50+3860]; add.ftz.f32 %f1306, %f1304, %f1305; ld.shared.f32 %f1307, [%r50+3864]; add.ftz.f32 %f1290, %f1306, %f1307; mov.u32 %r639, 1; mov.u32 %r652, 31; mov.u32 %r653, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1290, %r639, %r652, %r653; @p add.f32 r0, r0, %f1290; mov.f32 %f1288, r0;} // end inline asm mov.u32 %r642, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1288, %r642, %r652, %r653; @p add.f32 r0, r0, %f1288; mov.f32 %f1291, r0;} // end inline asm mov.u32 %r645, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1291, %r645, %r652, %r653; @p add.f32 r0, r0, %f1291; mov.f32 %f1294, r0;} // end inline asm mov.u32 %r648, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1294, %r648, %r652, %r653; @p add.f32 r0, r0, %f1294; mov.f32 %f1297, r0;} // end inline asm mov.u32 %r651, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1297, %r651, %r652, %r653; @p add.f32 r0, r0, %f1297; mov.f32 %f1329, r0;} // end inline asm $L__BB0_37: or.b32 %r656, %r62, %r483; setp.ne.s32 %p22, %r656, 0; @%p22 bra $L__BB0_53; ld.param.u64 %rd97, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0+8]; setp.eq.s64 %p23, %rd97, 0; mul.ftz.f32 %f1350, %f84, %f1335; mov.u32 %r657, %ctaid.x; cvt.s64.s32 %rd14, %r657; @%p23 bra $L__BB0_40; shl.b64 %rd59, %rd14, 1; add.s64 %rd60, %rd2, %rd59; ld.global.u16 %rs699, [%rd60]; // begin inline asm { cvt.f32.f16 %f1308, %rs699;} // end inline asm fma.rn.ftz.f32 %f1350, %f85, %f1308, %f1350; $L__BB0_40: ld.param.u64 %rd98, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0]; // begin inline asm { cvt.rn.f16.f32 %rs700, %f1350;} // end inline asm // begin inline asm createpolicy.fractional.L2::evict_last.L2::evict_unchanged.b64 %rd61, 1.0; // end inline asm shl.b64 %rd64, %rd14, 1; add.s64 %rd62, %rd98, %rd64; // begin inline asm st.global.L1::evict_normal.L2::cache_hint.u16 [%rd62], %rs700, %rd61; // end inline asm mul.ftz.f32 %f1351, %f84, %f1334; add.s32 %r659, %r58, %r657; cvt.s64.s32 %rd17, %r659; @%p23 bra $L__BB0_42; shl.b64 %rd65, %rd17, 1; add.s64 %rd66, %rd2, %rd65; ld.global.u16 %rs702, [%rd66]; // begin inline asm { cvt.f32.f16 %f1310, %rs702;} // end inline asm fma.rn.ftz.f32 %f1351, %f85, %f1310, %f1351; $L__BB0_42: cvt.s64.s32 %rd18, %r58; mul.wide.s32 %rd70, %r58, 2; add.s64 %rd68, %rd62, %rd70; // begin inline asm { cvt.rn.f16.f32 %rs703, %f1351;} // end inline asm // begin inline asm createpolicy.fractional.L2::evict_last.L2::evict_unchanged.b64 %rd67, 1.0; // end inline asm // begin inline asm st.global.L1::evict_normal.L2::cache_hint.u16 [%rd68], %rs703, %rd67; // end inline asm mul.ftz.f32 %f1352, %f84, %f1333; cvt.u32.u64 %r660, %rd17; add.s32 %r661, %r660, %r58; cvt.s64.s32 %rd19, %r661; @%p23 bra $L__BB0_44; shl.b64 %rd71, %rd19, 1; add.s64 %rd72, %rd2, %rd71; ld.global.u16 %rs705, [%rd72]; // begin inline asm { cvt.f32.f16 %f1312, %rs705;} // end inline asm fma.rn.ftz.f32 %f1352, %f85, %f1312, %f1352; $L__BB0_44: ld.param.u64 %rd99, [_Z28dequant_gemv_group128_batch723DequantGemvKernelParams_param_0]; shl.b64 %rd76, %rd19, 1; add.s64 %rd74, %rd99, %rd76; // begin inline asm { cvt.rn.f16.f32 %rs706, %f1352;} // end inline asm // begin inline asm createpolicy.fractional.L2::evict_last.L2::evict_unchanged.b64 %rd73, 1.0; // end inline asm // begin inline asm st.global.L1::evict_normal.L2::cache_hint.u16 [%rd74], %rs706, %rd73; // end inline asm mul.ftz.f32 %f1353, %f84, %f1332; cvt.u32.u64 %r662, %rd19; add.s32 %r663, %r662, %r58; cvt.s64.s32 %rd21, %r663; @%p23 bra $L__BB0_46; shl.b64 %rd77, %rd21, 1; add.s64 %rd78, %rd2, %rd77; ld.global.u16 %rs708, [%rd78]; // begin inline asm { cvt.f32.f16 %f1314, %rs708;} // end inline asm fma.rn.ftz.f32 %f1353, %f85, %f1314, %f1353; $L__BB0_46: // begin inline asm { cvt.rn.f16.f32 %rs709, %f1353;} // end inline asm // begin inline asm createpolicy.fractional.L2::evict_last.L2::evict_unchanged.b64 %rd79, 1.0; // end inline asm shl.b64 %rd22, %rd18, 1; add.s64 %rd80, %rd74, %rd22; // begin inline asm st.global.L1::evict_normal.L2::cache_hint.u16 [%rd80], %rs709, %rd79; // end inline asm mul.ftz.f32 %f1354, %f84, %f1331; cvt.u32.u64 %r664, %rd21; add.s32 %r665, %r664, %r58; cvt.s64.s32 %rd24, %r665; @%p23 bra $L__BB0_48; shl.b64 %rd82, %rd24, 1; add.s64 %rd83, %rd2, %rd82; ld.global.u16 %rs711, [%rd83]; // begin inline asm { cvt.f32.f16 %f1316, %rs711;} // end inline asm fma.rn.ftz.f32 %f1354, %f85, %f1316, %f1354; $L__BB0_48: // begin inline asm { cvt.rn.f16.f32 %rs712, %f1354;} // end inline asm // begin inline asm createpolicy.fractional.L2::evict_last.L2::evict_unchanged.b64 %rd84, 1.0; // end inline asm add.s64 %rd85, %rd80, %rd22; // begin inline asm st.global.L1::evict_normal.L2::cache_hint.u16 [%rd85], %rs712, %rd84; // end inline asm mul.ftz.f32 %f1355, %f84, %f1330; cvt.u32.u64 %r666, %rd24; add.s32 %r667, %r666, %r58; cvt.s64.s32 %rd26, %r667; @%p23 bra $L__BB0_50; shl.b64 %rd87, %rd26, 1; add.s64 %rd88, %rd2, %rd87; ld.global.u16 %rs714, [%rd88]; // begin inline asm { cvt.f32.f16 %f1318, %rs714;} // end inline asm fma.rn.ftz.f32 %f1355, %f85, %f1318, %f1355; $L__BB0_50: // begin inline asm { cvt.rn.f16.f32 %rs715, %f1355;} // end inline asm // begin inline asm createpolicy.fractional.L2::evict_last.L2::evict_unchanged.b64 %rd89, 1.0; // end inline asm add.s64 %rd90, %rd85, %rd22; // begin inline asm st.global.L1::evict_normal.L2::cache_hint.u16 [%rd90], %rs715, %rd89; // end inline asm mul.ftz.f32 %f1356, %f84, %f1329; cvt.u32.u64 %r668, %rd26; add.s32 %r52, %r668, %r58; @%p23 bra $L__BB0_52; mul.wide.s32 %rd92, %r52, 2; add.s64 %rd93, %rd2, %rd92; ld.global.u16 %rs717, [%rd93]; // begin inline asm { cvt.f32.f16 %f1320, %rs717;} // end inline asm fma.rn.ftz.f32 %f1356, %f85, %f1320, %f1356; $L__BB0_52: // begin inline asm { cvt.rn.f16.f32 %rs718, %f1356;} // end inline asm // begin inline asm createpolicy.fractional.L2::evict_last.L2::evict_unchanged.b64 %rd94, 1.0; // end inline asm add.s64 %rd95, %rd90, %rd22; // begin inline asm st.global.L1::evict_normal.L2::cache_hint.u16 [%rd95], %rs718, %rd94; // end inline asm $L__BB0_53: ret; } // .globl _ZN3cub11EmptyKernelIvEEvv .visible .entry _ZN3cub11EmptyKernelIvEEvv() { ret; }