128_batch823DequantGemvKernelParams_param_0+48]; ld.param.v2.u32 {%r61, %r62}, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0+56]; ld.param.v2.f32 {%f77, %f78}, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0+64]; ld.param.v4.u8 {%rs13, %rs14, %rs15, %rs16}, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0+72]; ld.param.u64 %rd26, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0+40]; ld.param.u64 %rd25, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0+32]; ld.param.u64 %rd24, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0+24]; ld.param.u64 %rd23, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0+16]; mov.u32 %r764, %tid.y; shl.b32 %r63, %r764, 5; mov.u32 %r64, %tid.x; add.s32 %r763, %r63, %r64; shl.b32 %r762, %r763, 2; setp.ge.u32 %p1, %r762, %r61; mov.f32 %f1480, 0f00000000; mov.f32 %f1481, %f1480; mov.f32 %f1482, %f1480; mov.f32 %f1483, %f1480; mov.f32 %f1484, %f1480; mov.f32 %f1485, %f1480; mov.f32 %f1486, %f1480; mov.f32 %f1487, %f1480; @%p1 bra $L__BB0_9; cvta.to.global.u64 %rd2, %rd23; mov.u32 %r65, %ctaid.x; mul.lo.s32 %r6, %r62, %r65; shl.b16 %rs2, %rs13, 3; cvta.to.global.u64 %rd3, %rd24; cvta.to.global.u64 %rd4, %rd26; $L__BB0_2: mad.lo.s32 %r67, %r61, %r65, %r762; mul.wide.u32 %rd27, %r67, 4; add.s64 %rd28, %rd3, %rd27; ld.global.v4.u32 {%r68, %r69, %r70, %r71}, [%rd28]; shr.u32 %r73, %r64, 2; shl.b32 %r74, %r764, 3; add.s32 %r14, %r74, %r73; add.s32 %r15, %r14, %r6; mul.wide.s32 %rd29, %r15, 2; add.s64 %rd30, %rd4, %rd29; ld.global.u16 %rs21, [%rd30]; // begin inline asm { cvt.f32.f16 %f87, %rs21;} // end inline asm setp.eq.s64 %p2, %rd25, 0; mov.u16 %rs841, %rs2; @%p2 bra $L__BB0_4; shr.u32 %r75, %r15, 31; add.s32 %r76, %r15, %r75; shr.s32 %r77, %r76, 1; cvt.s64.s32 %rd31, %r77; cvta.to.global.u64 %rd32, %rd25; add.s64 %rd33, %rd32, %rd31; ld.global.u8 %r78, [%rd33]; shl.b32 %r79, %r14, 2; and.b32 %r80, %r79, 4; shr.u32 %r81, %r78, %r80; cvt.u16.u32 %rs22, %r81; and.b16 %rs841, %rs22, 15; $L__BB0_4: shl.b32 %r16, %r763, 5; setp.ge.s32 %p3, %r16, %r59; @%p3 bra $L__BB0_8; setp.eq.s16 %p4, %rs13, 0; shr.u16 %rs24, %rs841, 3; and.b16 %rs25, %rs24, 1; setp.eq.b16 %p5, %rs25, 1; and.pred %p6, %p4, %p5; selp.b16 %rs26, -16, 0, %p6; or.b16 %rs27, %rs26, %rs841; cvt.s16.s8 %rs28, %rs27; cvt.rn.f32.s16 %f10, %rs28; mul.wide.s32 %rd34, %r16, 2; add.s64 %rd5, %rd2, %rd34; ld.global.v4.u32 {%r82, %r83, %r84, %r85}, [%rd5]; mul.wide.s32 %rd35, %r59, 2; add.s64 %rd36, %rd5, %rd35; ld.global.v4.u32 {%r86, %r87, %r88, %r89}, [%rd36]; add.s32 %r90, %r16, %r59; add.s32 %r91, %r90, %r59; mul.wide.s32 %rd37, %r91, 2; add.s64 %rd6, %rd2, %rd37; ld.global.v4.u32 {%r92, %r93, %r94, %r95}, [%rd6]; add.s64 %rd38, %rd6, %rd35; ld.global.v4.u32 {%r96, %r97, %r98, %r99}, [%rd38]; add.s64 %rd39, %rd38, %rd35; ld.global.v4.u32 {%r100, %r101, %r102, %r103}, [%rd39]; add.s64 %rd40, %rd39, %rd35; ld.global.v4.u32 {%r104, %r105, %r106, %r107}, [%rd40]; add.s64 %rd41, %rd40, %rd35; ld.global.v4.u32 {%r108, %r109, %r110, %r111}, [%rd41]; add.s64 %rd42, %rd41, %rd35; ld.global.v4.u32 {%r112, %r113, %r114, %r115}, [%rd42]; add.s32 %r116, %r90, 8; mul.wide.s32 %rd43, %r116, 2; add.s64 %rd7, %rd2, %rd43; add.s32 %r117, %r116, %r59; add.s32 %r118, %r117, %r59; mul.wide.s32 %rd44, %r118, 2; add.s64 %rd8, %rd2, %rd44; add.s32 %r119, %r118, %r59; mul.wide.s32 %rd45, %r119, 2; add.s64 %rd9, %rd2, %rd45; add.s32 %r120, %r119, %r59; mul.wide.s32 %rd46, %r120, 2; add.s64 %rd10, %rd2, %rd46; add.s32 %r121, %r120, %r59; mul.wide.s32 %rd47, %r121, 2; add.s64 %rd11, %rd2, %rd47; add.s32 %r122, %r121, %r59; mul.wide.s32 %rd48, %r122, 2; add.s64 %rd12, %rd2, %rd48; @%p4 bra $L__BB0_7; cvt.u16.u32 %rs285, %r68; and.b16 %rs286, %rs285, 240; and.b16 %rs287, %rs285, 15; cvt.rn.f32.s16 %f344, %rs287; sub.ftz.f32 %f345, %f344, %f10; mul.ftz.f32 %f346, %f87, %f345; mov.b32 {%rs29, %rs37}, %r82; // begin inline asm { cvt.f32.f16 %f88, %rs29;} // end inline asm fma.rn.ftz.f32 %f347, %f346, %f88, %f1487; mov.b32 {%rs30, %rs38}, %r86; // begin inline asm { cvt.f32.f16 %f89, %rs30;} // end inline asm fma.rn.ftz.f32 %f348, %f346, %f89, %f1486; mov.b32 {%rs31, %rs39}, %r92; // begin inline asm { cvt.f32.f16 %f90, %rs31;} // end inline asm fma.rn.ftz.f32 %f349, %f346, %f90, %f1485; mov.b32 {%rs32, %rs40}, %r96; // begin inline asm { cvt.f32.f16 %f91, %rs32;} // end inline asm fma.rn.ftz.f32 %f350, %f346, %f91, %f1484; mov.b32 {%rs33, %rs41}, %r100; // begin inline asm { cvt.f32.f16 %f92, %rs33;} // end inline asm fma.rn.ftz.f32 %f351, %f346, %f92, %f1483; mov.b32 {%rs34, %rs42}, %r104; // begin inline asm { cvt.f32.f16 %f93, %rs34;} // end inline asm fma.rn.ftz.f32 %f352, %f346, %f93, %f1482; mov.b32 {%rs35, %rs43}, %r108; // begin inline asm { cvt.f32.f16 %f94, %rs35;} // end inline asm fma.rn.ftz.f32 %f353, %f346, %f94, %f1481; mov.b32 {%rs36, %rs44}, %r112; // begin inline asm { cvt.f32.f16 %f95, %rs36;} // end inline asm fma.rn.ftz.f32 %f354, %f346, %f95, %f1480; shr.u16 %rs288, %rs286, 4; cvt.rn.f32.s16 %f355, %rs288; sub.ftz.f32 %f356, %f355, %f10; mul.ftz.f32 %f357, %f87, %f356; // begin inline asm { cvt.f32.f16 %f96, %rs37;} // end inline asm fma.rn.ftz.f32 %f358, %f357, %f96, %f347; // begin inline asm { cvt.f32.f16 %f97, %rs38;} // end inline asm fma.rn.ftz.f32 %f359, %f357, %f97, %f348; // begin inline asm { cvt.f32.f16 %f98, %rs39;} // end inline asm fma.rn.ftz.f32 %f360, %f357, %f98, %f349; // begin inline asm { cvt.f32.f16 %f99, %rs40;} // end inline asm fma.rn.ftz.f32 %f361, %f357, %f99, %f350; // begin inline asm { cvt.f32.f16 %f100, %rs41;} // end inline asm fma.rn.ftz.f32 %f362, %f357, %f100, %f351; // begin inline asm { cvt.f32.f16 %f101, %rs42;} // end inline asm fma.rn.ftz.f32 %f363, %f357, %f101, %f352; // begin inline asm { cvt.f32.f16 %f102, %rs43;} // end inline asm fma.rn.ftz.f32 %f364, %f357, %f102, %f353; // begin inline asm { cvt.f32.f16 %f103, %rs44;} // end inline asm fma.rn.ftz.f32 %f365, %f357, %f103, %f354; shr.u16 %rs289, %rs285, 8; and.b16 %rs290, %rs289, 15; cvt.rn.f32.s16 %f366, %rs290; sub.ftz.f32 %f367, %f366, %f10; mul.ftz.f32 %f368, %f87, %f367; mov.b32 {%rs45, %rs53}, %r83; // begin inline asm { cvt.f32.f16 %f104, %rs45;} // end inline asm fma.rn.ftz.f32 %f369, %f368, %f104, %f358; mov.b32 {%rs46, %rs54}, %r87; // begin inline asm { cvt.f32.f16 %f105, %rs46;} // end inline asm fma.rn.ftz.f32 %f370, %f368, %f105, %f359; mov.b32 {%rs47, %rs55}, %r93; // begin inline asm { cvt.f32.f16 %f106, %rs47;} // end inline asm fma.rn.ftz.f32 %f371, %f368, %f106, %f360; mov.b32 {%rs48, %rs56}, %r97; // begin inline asm { cvt.f32.f16 %f107, %rs48;} // end inline asm fma.rn.ftz.f32 %f372, %f368, %f107, %f361; mov.b32 {%rs49, %rs57}, %r101; // begin inline asm { cvt.f32.f16 %f108, %rs49;} // end inline asm fma.rn.ftz.f32 %f373, %f368, %f108, %f362; mov.b32 {%rs50, %rs58}, %r105; // begin inline asm { cvt.f32.f16 %f109, %rs50;} // end inline asm fma.rn.ftz.f32 %f374, %f368, %f109, %f363; mov.b32 {%rs51, %rs59}, %r109; // begin inline asm { cvt.f32.f16 %f110, %rs51;} // end inline asm fma.rn.ftz.f32 %f375, %f368, %f110, %f364; mov.b32 {%rs52, %rs60}, %r113; // begin inline asm { cvt.f32.f16 %f111, %rs52;} // end inline asm fma.rn.ftz.f32 %f376, %f368, %f111, %f365; shr.u16 %rs291, %rs285, 12; cvt.rn.f32.s16 %f377, %rs291; sub.ftz.f32 %f378, %f377, %f10; mul.ftz.f32 %f379, %f87, %f378; // begin inline asm { cvt.f32.f16 %f112, %rs53;} // end inline asm fma.rn.ftz.f32 %f380, %f379, %f112, %f369; // begin inline asm { cvt.f32.f16 %f113, %rs54;} // end inline asm fma.rn.ftz.f32 %f381, %f379, %f113, %f370; // begin inline asm { cvt.f32.f16 %f114, %rs55;} // end inline asm fma.rn.ftz.f32 %f382, %f379, %f114, %f371; // begin inline asm { cvt.f32.f16 %f115, %rs56;} // end inline asm fma.rn.ftz.f32 %f383, %f379, %f115, %f372; // begin inline asm { cvt.f32.f16 %f116, %rs57;} // end inline asm fma.rn.ftz.f32 %f384, %f379, %f116, %f373; // begin inline asm { cvt.f32.f16 %f117, %rs58;} // end inline asm fma.rn.ftz.f32 %f385, %f379, %f117, %f374; // begin inline asm { cvt.f32.f16 %f118, %rs59;} // end inline asm fma.rn.ftz.f32 %f386, %f379, %f118, %f375; // begin inline asm { cvt.f32.f16 %f119, %rs60;} // end inline asm fma.rn.ftz.f32 %f387, %f379, %f119, %f376; shr.u32 %r123, %r68, 16; cvt.u16.u32 %rs292, %r123; and.b16 %rs293, %rs292, 15; cvt.rn.f32.s16 %f388, %rs293; sub.ftz.f32 %f389, %f388, %f10; mul.ftz.f32 %f390, %f87, %f389; mov.b32 {%rs61, %rs69}, %r84; // begin inline asm { cvt.f32.f16 %f120, %rs61;} // end inline asm fma.rn.ftz.f32 %f391, %f390, %f120, %f380; mov.b32 {%rs62, %rs70}, %r88; // begin inline asm { cvt.f32.f16 %f121, %rs62;} // end inline asm fma.rn.ftz.f32 %f392, %f390, %f121, %f381; mov.b32 {%rs63, %rs71}, %r94; // begin inline asm { cvt.f32.f16 %f122, %rs63;} // end inline asm fma.rn.ftz.f32 %f393, %f390, %f122, %f382; mov.b32 {%rs64, %rs72}, %r98; // begin inline asm { cvt.f32.f16 %f123, %rs64;} // end inline asm fma.rn.ftz.f32 %f394, %f390, %f123, %f383; mov.b32 {%rs65, %rs73}, %r102; // begin inline asm { cvt.f32.f16 %f124, %rs65;} // end inline asm fma.rn.ftz.f32 %f395, %f390, %f124, %f384; mov.b32 {%rs66, %rs74}, %r106; // begin inline asm { cvt.f32.f16 %f125, %rs66;} // end inline asm fma.rn.ftz.f32 %f396, %f390, %f125, %f385; mov.b32 {%rs67, %rs75}, %r110; // begin inline asm { cvt.f32.f16 %f126, %rs67;} // end inline asm fma.rn.ftz.f32 %f397, %f390, %f126, %f386; mov.b32 {%rs68, %rs76}, %r114; // begin inline asm { cvt.f32.f16 %f127, %rs68;} // end inline asm fma.rn.ftz.f32 %f398, %f390, %f127, %f387; shr.u32 %r124, %r68, 20; cvt.u16.u32 %rs294, %r124; and.b16 %rs295, %rs294, 15; cvt.rn.f32.s16 %f399, %rs295; sub.ftz.f32 %f400, %f399, %f10; mul.ftz.f32 %f401, %f87, %f400; // begin inline asm { cvt.f32.f16 %f128, %rs69;} // end inline asm fma.rn.ftz.f32 %f402, %f401, %f128, %f391; // begin inline asm { cvt.f32.f16 %f129, %rs70;} // end inline asm fma.rn.ftz.f32 %f403, %f401, %f129, %f392; // begin inline asm { cvt.f32.f16 %f130, %rs71;} // end inline asm fma.rn.ftz.f32 %f404, %f401, %f130, %f393; // begin inline asm { cvt.f32.f16 %f131, %rs72;} // end inline asm fma.rn.ftz.f32 %f405, %f401, %f131, %f394; // begin inline asm { cvt.f32.f16 %f132, %rs73;} // end inline asm fma.rn.ftz.f32 %f406, %f401, %f132, %f395; // begin inline asm { cvt.f32.f16 %f133, %rs74;} // end inline asm fma.rn.ftz.f32 %f407, %f401, %f133, %f396; // begin inline asm { cvt.f32.f16 %f134, %rs75;} // end inline asm fma.rn.ftz.f32 %f408, %f401, %f134, %f397; // begin inline asm { cvt.f32.f16 %f135, %rs76;} // end inline asm fma.rn.ftz.f32 %f409, %f401, %f135, %f398; shr.u32 %r125, %r68, 24; cvt.u16.u32 %rs296, %r125; and.b16 %rs297, %rs296, 15; cvt.rn.f32.s16 %f410, %rs297; sub.ftz.f32 %f411, %f410, %f10; mul.ftz.f32 %f412, %f87, %f411; mov.b32 {%rs77, %rs85}, %r85; // begin inline asm { cvt.f32.f16 %f136, %rs77;} // end inline asm fma.rn.ftz.f32 %f413, %f412, %f136, %f402; mov.b32 {%rs78, %rs86}, %r89; // begin inline asm { cvt.f32.f16 %f137, %rs78;} // end inline asm fma.rn.ftz.f32 %f414, %f412, %f137, %f403; mov.b32 {%rs79, %rs87}, %r95; // begin inline asm { cvt.f32.f16 %f138, %rs79;} // end inline asm fma.rn.ftz.f32 %f415, %f412, %f138, %f404; mov.b32 {%rs80, %rs88}, %r99; // begin inline asm { cvt.f32.f16 %f139, %rs80;} // end inline asm fma.rn.ftz.f32 %f416, %f412, %f139, %f405; mov.b32 {%rs81, %rs89}, %r103; // begin inline asm { cvt.f32.f16 %f140, %rs81;} // end inline asm fma.rn.ftz.f32 %f417, %f412, %f140, %f406; mov.b32 {%rs82, %rs90}, %r107; // begin inline asm { cvt.f32.f16 %f141, %rs82;} // end inline asm fma.rn.ftz.f32 %f418, %f412, %f141, %f407; mov.b32 {%rs83, %rs91}, %r111; // begin inline asm { cvt.f32.f16 %f142, %rs83;} // end inline asm fma.rn.ftz.f32 %f419, %f412, %f142, %f408; mov.b32 {%rs84, %rs92}, %r115; // begin inline asm { cvt.f32.f16 %f143, %rs84;} // end inline asm fma.rn.ftz.f32 %f420, %f412, %f143, %f409; shr.u32 %r126, %r68, 28; cvt.u16.u32 %rs298, %r126; cvt.rn.f32.s16 %f421, %rs298; sub.ftz.f32 %f422, %f421, %f10; mul.ftz.f32 %f423, %f87, %f422; // begin inline asm { cvt.f32.f16 %f144, %rs85;} // end inline asm fma.rn.ftz.f32 %f424, %f423, %f144, %f413; // begin inline asm { cvt.f32.f16 %f145, %rs86;} // end inline asm fma.rn.ftz.f32 %f425, %f423, %f145, %f414; // begin inline asm { cvt.f32.f16 %f146, %rs87;} // end inline asm fma.rn.ftz.f32 %f426, %f423, %f146, %f415; // begin inline asm { cvt.f32.f16 %f147, %rs88;} // end inline asm fma.rn.ftz.f32 %f427, %f423, %f147, %f416; // begin inline asm { cvt.f32.f16 %f148, %rs89;} // end inline asm fma.rn.ftz.f32 %f428, %f423, %f148, %f417; // begin inline asm { cvt.f32.f16 %f149, %rs90;} // end inline asm fma.rn.ftz.f32 %f429, %f423, %f149, %f418; // begin inline asm { cvt.f32.f16 %f150, %rs91;} // end inline asm fma.rn.ftz.f32 %f430, %f423, %f150, %f419; // begin inline asm { cvt.f32.f16 %f151, %rs92;} // end inline asm fma.rn.ftz.f32 %f431, %f423, %f151, %f420; ld.global.v4.u32 {%r127, %r128, %r129, %r130}, [%rd5+16]; ld.global.v4.u32 {%r135, %r136, %r137, %r138}, [%rd7]; ld.global.v4.u32 {%r143, %r144, %r145, %r146}, [%rd6+16]; ld.global.v4.u32 {%r151, %r152, %r153, %r154}, [%rd8]; ld.global.v4.u32 {%r159, %r160, %r161, %r162}, [%rd9]; ld.global.v4.u32 {%r167, %r168, %r169, %r170}, [%rd10]; ld.global.v4.u32 {%r175, %r176, %r177, %r178}, [%rd11]; ld.global.v4.u32 {%r183, %r184, %r185, %r186}, [%rd12]; cvt.u16.u32 %rs299, %r69; and.b16 %rs300, %rs299, 240; and.b16 %rs301, %rs299, 15; cvt.rn.f32.s16 %f432, %rs301; sub.ftz.f32 %f433, %f432, %f10; mul.ftz.f32 %f434, %f87, %f433; mov.b32 {%rs93, %rs101}, %r127; // begin inline asm { cvt.f32.f16 %f152, %rs93;} // end inline asm fma.rn.ftz.f32 %f435, %f434, %f152, %f424; mov.b32 {%rs94, %rs102}, %r135; // begin inline asm { cvt.f32.f16 %f153, %rs94;} // end inline asm fma.rn.ftz.f32 %f436, %f434, %f153, %f425; mov.b32 {%rs95, %rs103}, %r143; // begin inline asm { cvt.f32.f16 %f154, %rs95;} // end inline asm fma.rn.ftz.f32 %f437, %f434, %f154, %f426; mov.b32 {%rs96, %rs104}, %r151; // begin inline asm { cvt.f32.f16 %f155, %rs96;} // end inline asm fma.rn.ftz.f32 %f438, %f434, %f155, %f427; mov.b32 {%rs97, %rs105}, %r159; // begin inline asm { cvt.f32.f16 %f156, %rs97;} // end inline asm fma.rn.ftz.f32 %f439, %f434, %f156, %f428; mov.b32 {%rs98, %rs106}, %r167; // begin inline asm { cvt.f32.f16 %f157, %rs98;} // end inline asm fma.rn.ftz.f32 %f440, %f434, %f157, %f429; mov.b32 {%rs99, %rs107}, %r175; // begin inline asm { cvt.f32.f16 %f158, %rs99;} // end inline asm fma.rn.ftz.f32 %f441, %f434, %f158, %f430; mov.b32 {%rs100, %rs108}, %r183; // begin inline asm { cvt.f32.f16 %f159, %rs100;} // end inline asm fma.rn.ftz.f32 %f442, %f434, %f159, %f431; shr.u16 %rs302, %rs300, 4; cvt.rn.f32.s16 %f443, %rs302; sub.ftz.f32 %f444, %f443, %f10; mul.ftz.f32 %f445, %f87, %f444; // begin inline asm { cvt.f32.f16 %f160, %rs101;} // end inline asm fma.rn.ftz.f32 %f446, %f445, %f160, %f435; // begin inline asm { cvt.f32.f16 %f161, %rs102;} // end inline asm fma.rn.ftz.f32 %f447, %f445, %f161, %f436; // begin inline asm { cvt.f32.f16 %f162, %rs103;} // end inline asm fma.rn.ftz.f32 %f448, %f445, %f162, %f437; // begin inline asm { cvt.f32.f16 %f163, %rs104;} // end inline asm fma.rn.ftz.f32 %f449, %f445, %f163, %f438; // begin inline asm { cvt.f32.f16 %f164, %rs105;} // end inline asm fma.rn.ftz.f32 %f450, %f445, %f164, %f439; // begin inline asm { cvt.f32.f16 %f165, %rs106;} // end inline asm fma.rn.ftz.f32 %f451, %f445, %f165, %f440; // begin inline asm { cvt.f32.f16 %f166, %rs107;} // end inline asm fma.rn.ftz.f32 %f452, %f445, %f166, %f441; // begin inline asm { cvt.f32.f16 %f167, %rs108;} // end inline asm fma.rn.ftz.f32 %f453, %f445, %f167, %f442; shr.u16 %rs303, %rs299, 8; and.b16 %rs304, %rs303, 15; cvt.rn.f32.s16 %f454, %rs304; sub.ftz.f32 %f455, %f454, %f10; mul.ftz.f32 %f456, %f87, %f455; mov.b32 {%rs109, %rs117}, %r128; // begin inline asm { cvt.f32.f16 %f168, %rs109;} // end inline asm fma.rn.ftz.f32 %f457, %f456, %f168, %f446; mov.b32 {%rs110, %rs118}, %r136; // begin inline asm { cvt.f32.f16 %f169, %rs110;} // end inline asm fma.rn.ftz.f32 %f458, %f456, %f169, %f447; mov.b32 {%rs111, %rs119}, %r144; // begin inline asm { cvt.f32.f16 %f170, %rs111;} // end inline asm fma.rn.ftz.f32 %f459, %f456, %f170, %f448; mov.b32 {%rs112, %rs120}, %r152; // begin inline asm { cvt.f32.f16 %f171, %rs112;} // end inline asm fma.rn.ftz.f32 %f460, %f456, %f171, %f449; mov.b32 {%rs113, %rs121}, %r160; // begin inline asm { cvt.f32.f16 %f172, %rs113;} // end inline asm fma.rn.ftz.f32 %f461, %f456, %f172, %f450; mov.b32 {%rs114, %rs122}, %r168; // begin inline asm { cvt.f32.f16 %f173, %rs114;} // end inline asm fma.rn.ftz.f32 %f462, %f456, %f173, %f451; mov.b32 {%rs115, %rs123}, %r176; // begin inline asm { cvt.f32.f16 %f174, %rs115;} // end inline asm fma.rn.ftz.f32 %f463, %f456, %f174, %f452; mov.b32 {%rs116, %rs124}, %r184; // begin inline asm { cvt.f32.f16 %f175, %rs116;} // end inline asm fma.rn.ftz.f32 %f464, %f456, %f175, %f453; shr.u16 %rs305, %rs299, 12; cvt.rn.f32.s16 %f465, %rs305; sub.ftz.f32 %f466, %f465, %f10; mul.ftz.f32 %f467, %f87, %f466; // begin inline asm { cvt.f32.f16 %f176, %rs117;} // end inline asm fma.rn.ftz.f32 %f468, %f467, %f176, %f457; // begin inline asm { cvt.f32.f16 %f177, %rs118;} // end inline asm fma.rn.ftz.f32 %f469, %f467, %f177, %f458; // begin inline asm { cvt.f32.f16 %f178, %rs119;} // end inline asm fma.rn.ftz.f32 %f470, %f467, %f178, %f459; // begin inline asm { cvt.f32.f16 %f179, %rs120;} // end inline asm fma.rn.ftz.f32 %f471, %f467, %f179, %f460; // begin inline asm { cvt.f32.f16 %f180, %rs121;} // end inline asm fma.rn.ftz.f32 %f472, %f467, %f180, %f461; // begin inline asm { cvt.f32.f16 %f181, %rs122;} // end inline asm fma.rn.ftz.f32 %f473, %f467, %f181, %f462; // begin inline asm { cvt.f32.f16 %f182, %rs123;} // end inline asm fma.rn.ftz.f32 %f474, %f467, %f182, %f463; // begin inline asm { cvt.f32.f16 %f183, %rs124;} // end inline asm fma.rn.ftz.f32 %f475, %f467, %f183, %f464; shr.u32 %r191, %r69, 16; cvt.u16.u32 %rs306, %r191; and.b16 %rs307, %rs306, 15; cvt.rn.f32.s16 %f476, %rs307; sub.ftz.f32 %f477, %f476, %f10; mul.ftz.f32 %f478, %f87, %f477; mov.b32 {%rs125, %rs133}, %r129; // begin inline asm { cvt.f32.f16 %f184, %rs125;} // end inline asm fma.rn.ftz.f32 %f479, %f478, %f184, %f468; mov.b32 {%rs126, %rs134}, %r137; // begin inline asm { cvt.f32.f16 %f185, %rs126;} // end inline asm fma.rn.ftz.f32 %f480, %f478, %f185, %f469; mov.b32 {%rs127, %rs135}, %r145; // begin inline asm { cvt.f32.f16 %f186, %rs127;} // end inline asm fma.rn.ftz.f32 %f481, %f478, %f186, %f470; mov.b32 {%rs128, %rs136}, %r153; // begin inline asm { cvt.f32.f16 %f187, %rs128;} // end inline asm fma.rn.ftz.f32 %f482, %f478, %f187, %f471; mov.b32 {%rs129, %rs137}, %r161; // begin inline asm { cvt.f32.f16 %f188, %rs129;} // end inline asm fma.rn.ftz.f32 %f483, %f478, %f188, %f472; mov.b32 {%rs130, %rs138}, %r169; // begin inline asm { cvt.f32.f16 %f189, %rs130;} // end inline asm fma.rn.ftz.f32 %f484, %f478, %f189, %f473; mov.b32 {%rs131, %rs139}, %r177; // begin inline asm { cvt.f32.f16 %f190, %rs131;} // end inline asm fma.rn.ftz.f32 %f485, %f478, %f190, %f474; mov.b32 {%rs132, %rs140}, %r185; // begin inline asm { cvt.f32.f16 %f191, %rs132;} // end inline asm fma.rn.ftz.f32 %f486, %f478, %f191, %f475; shr.u32 %r192, %r69, 20; cvt.u16.u32 %rs308, %r192; and.b16 %rs309, %rs308, 15; cvt.rn.f32.s16 %f487, %rs309; sub.ftz.f32 %f488, %f487, %f10; mul.ftz.f32 %f489, %f87, %f488; // begin inline asm { cvt.f32.f16 %f192, %rs133;} // end inline asm fma.rn.ftz.f32 %f490, %f489, %f192, %f479; // begin inline asm { cvt.f32.f16 %f193, %rs134;} // end inline asm fma.rn.ftz.f32 %f491, %f489, %f193, %f480; // begin inline asm { cvt.f32.f16 %f194, %rs135;} // end inline asm fma.rn.ftz.f32 %f492, %f489, %f194, %f481; // begin inline asm { cvt.f32.f16 %f195, %rs136;} // end inline asm fma.rn.ftz.f32 %f493, %f489, %f195, %f482; // begin inline asm { cvt.f32.f16 %f196, %rs137;} // end inline asm fma.rn.ftz.f32 %f494, %f489, %f196, %f483; // begin inline asm { cvt.f32.f16 %f197, %rs138;} // end inline asm fma.rn.ftz.f32 %f495, %f489, %f197, %f484; // begin inline asm { cvt.f32.f16 %f198, %rs139;} // end inline asm fma.rn.ftz.f32 %f496, %f489, %f198, %f485; // begin inline asm { cvt.f32.f16 %f199, %rs140;} // end inline asm fma.rn.ftz.f32 %f497, %f489, %f199, %f486; shr.u32 %r193, %r69, 24; cvt.u16.u32 %rs310, %r193; and.b16 %rs311, %rs310, 15; cvt.rn.f32.s16 %f498, %rs311; sub.ftz.f32 %f499, %f498, %f10; mul.ftz.f32 %f500, %f87, %f499; mov.b32 {%rs141, %rs149}, %r130; // begin inline asm { cvt.f32.f16 %f200, %rs141;} // end inline asm fma.rn.ftz.f32 %f501, %f500, %f200, %f490; mov.b32 {%rs142, %rs150}, %r138; // begin inline asm { cvt.f32.f16 %f201, %rs142;} // end inline asm fma.rn.ftz.f32 %f502, %f500, %f201, %f491; mov.b32 {%rs143, %rs151}, %r146; // begin inline asm { cvt.f32.f16 %f202, %rs143;} // end inline asm fma.rn.ftz.f32 %f503, %f500, %f202, %f492; mov.b32 {%rs144, %rs152}, %r154; // begin inline asm { cvt.f32.f16 %f203, %rs144;} // end inline asm fma.rn.ftz.f32 %f504, %f500, %f203, %f493; mov.b32 {%rs145, %rs153}, %r162; // begin inline asm { cvt.f32.f16 %f204, %rs145;} // end inline asm fma.rn.ftz.f32 %f505, %f500, %f204, %f494; mov.b32 {%rs146, %rs154}, %r170; // begin inline asm { cvt.f32.f16 %f205, %rs146;} // end inline asm fma.rn.ftz.f32 %f506, %f500, %f205, %f495; mov.b32 {%rs147, %rs155}, %r178; // begin inline asm { cvt.f32.f16 %f206, %rs147;} // end inline asm fma.rn.ftz.f32 %f507, %f500, %f206, %f496; mov.b32 {%rs148, %rs156}, %r186; // begin inline asm { cvt.f32.f16 %f207, %rs148;} // end inline asm fma.rn.ftz.f32 %f508, %f500, %f207, %f497; shr.u32 %r194, %r69, 28; cvt.u16.u32 %rs312, %r194; cvt.rn.f32.s16 %f509, %rs312; sub.ftz.f32 %f510, %f509, %f10; mul.ftz.f32 %f511, %f87, %f510; // begin inline asm { cvt.f32.f16 %f208, %rs149;} // end inline asm fma.rn.ftz.f32 %f512, %f511, %f208, %f501; // begin inline asm { cvt.f32.f16 %f209, %rs150;} // end inline asm fma.rn.ftz.f32 %f513, %f511, %f209, %f502; // begin inline asm { cvt.f32.f16 %f210, %rs151;} // end inline asm fma.rn.ftz.f32 %f514, %f511, %f210, %f503; // begin inline asm { cvt.f32.f16 %f211, %rs152;} // end inline asm fma.rn.ftz.f32 %f515, %f511, %f211, %f504; // begin inline asm { cvt.f32.f16 %f212, %rs153;} // end inline asm fma.rn.ftz.f32 %f516, %f511, %f212, %f505; // begin inline asm { cvt.f32.f16 %f213, %rs154;} // end inline asm fma.rn.ftz.f32 %f517, %f511, %f213, %f506; // begin inline asm { cvt.f32.f16 %f214, %rs155;} // end inline asm fma.rn.ftz.f32 %f518, %f511, %f214, %f507; // begin inline asm { cvt.f32.f16 %f215, %rs156;} // end inline asm fma.rn.ftz.f32 %f519, %f511, %f215, %f508; ld.global.v4.u32 {%r195, %r196, %r197, %r198}, [%rd5+32]; ld.global.v4.u32 {%r203, %r204, %r205, %r206}, [%rd7+16]; ld.global.v4.u32 {%r211, %r212, %r213, %r214}, [%rd6+32]; ld.global.v4.u32 {%r219, %r220, %r221, %r222}, [%rd8+16]; ld.global.v4.u32 {%r227, %r228, %r229, %r230}, [%rd9+16]; ld.global.v4.u32 {%r235, %r236, %r237, %r238}, [%rd10+16]; ld.global.v4.u32 {%r243, %r244, %r245, %r246}, [%rd11+16]; ld.global.v4.u32 {%r251, %r252, %r253, %r254}, [%rd12+16]; cvt.u16.u32 %rs313, %r70; and.b16 %rs314, %rs313, 240; and.b16 %rs315, %rs313, 15; cvt.rn.f32.s16 %f520, %rs315; sub.ftz.f32 %f521, %f520, %f10; mul.ftz.f32 %f522, %f87, %f521; mov.b32 {%rs157, %rs165}, %r195; // begin inline asm { cvt.f32.f16 %f216, %rs157;} // end inline asm fma.rn.ftz.f32 %f523, %f522, %f216, %f512; mov.b32 {%rs158, %rs166}, %r203; // begin inline asm { cvt.f32.f16 %f217, %rs158;} // end inline asm fma.rn.ftz.f32 %f524, %f522, %f217, %f513; mov.b32 {%rs159, %rs167}, %r211; // begin inline asm { cvt.f32.f16 %f218, %rs159;} // end inline asm fma.rn.ftz.f32 %f525, %f522, %f218, %f514; mov.b32 {%rs160, %rs168}, %r219; // begin inline asm { cvt.f32.f16 %f219, %rs160;} // end inline asm fma.rn.ftz.f32 %f526, %f522, %f219, %f515; mov.b32 {%rs161, %rs169}, %r227; // begin inline asm { cvt.f32.f16 %f220, %rs161;} // end inline asm fma.rn.ftz.f32 %f527, %f522, %f220, %f516; mov.b32 {%rs162, %rs170}, %r235; // begin inline asm { cvt.f32.f16 %f221, %rs162;} // end inline asm fma.rn.ftz.f32 %f528, %f522, %f221, %f517; mov.b32 {%rs163, %rs171}, %r243; // begin inline asm { cvt.f32.f16 %f222, %rs163;} // end inline asm fma.rn.ftz.f32 %f529, %f522, %f222, %f518; mov.b32 {%rs164, %rs172}, %r251; // begin inline asm { cvt.f32.f16 %f223, %rs164;} // end inline asm fma.rn.ftz.f32 %f530, %f522, %f223, %f519; shr.u16 %rs316, %rs314, 4; cvt.rn.f32.s16 %f531, %rs316; sub.ftz.f32 %f532, %f531, %f10; mul.ftz.f32 %f533, %f87, %f532; // begin inline asm { cvt.f32.f16 %f224, %rs165;} // end inline asm fma.rn.ftz.f32 %f534, %f533, %f224, %f523; // begin inline asm { cvt.f32.f16 %f225, %rs166;} // end inline asm fma.rn.ftz.f32 %f535, %f533, %f225, %f524; // begin inline asm { cvt.f32.f16 %f226, %rs167;} // end inline asm fma.rn.ftz.f32 %f536, %f533, %f226, %f525; // begin inline asm { cvt.f32.f16 %f227, %rs168;} // end inline asm fma.rn.ftz.f32 %f537, %f533, %f227, %f526; // begin inline asm { cvt.f32.f16 %f228, %rs169;} // end inline asm fma.rn.ftz.f32 %f538, %f533, %f228, %f527; // begin inline asm { cvt.f32.f16 %f229, %rs170;} // end inline asm fma.rn.ftz.f32 %f539, %f533, %f229, %f528; // begin inline asm { cvt.f32.f16 %f230, %rs171;} // end inline asm fma.rn.ftz.f32 %f540, %f533, %f230, %f529; // begin inline asm { cvt.f32.f16 %f231, %rs172;} // end inline asm fma.rn.ftz.f32 %f541, %f533, %f231, %f530; shr.u16 %rs317, %rs313, 8; and.b16 %rs318, %rs317, 15; cvt.rn.f32.s16 %f542, %rs318; sub.ftz.f32 %f543, %f542, %f10; mul.ftz.f32 %f544, %f87, %f543; mov.b32 {%rs173, %rs181}, %r196; // begin inline asm { cvt.f32.f16 %f232, %rs173;} // end inline asm fma.rn.ftz.f32 %f545, %f544, %f232, %f534; mov.b32 {%rs174, %rs182}, %r204; // begin inline asm { cvt.f32.f16 %f233, %rs174;} // end inline asm fma.rn.ftz.f32 %f546, %f544, %f233, %f535; mov.b32 {%rs175, %rs183}, %r212; // begin inline asm { cvt.f32.f16 %f234, %rs175;} // end inline asm fma.rn.ftz.f32 %f547, %f544, %f234, %f536; mov.b32 {%rs176, %rs184}, %r220; // begin inline asm { cvt.f32.f16 %f235, %rs176;} // end inline asm fma.rn.ftz.f32 %f548, %f544, %f235, %f537; mov.b32 {%rs177, %rs185}, %r228; // begin inline asm { cvt.f32.f16 %f236, %rs177;} // end inline asm fma.rn.ftz.f32 %f549, %f544, %f236, %f538; mov.b32 {%rs178, %rs186}, %r236; // begin inline asm { cvt.f32.f16 %f237, %rs178;} // end inline asm fma.rn.ftz.f32 %f550, %f544, %f237, %f539; mov.b32 {%rs179, %rs187}, %r244; // begin inline asm { cvt.f32.f16 %f238, %rs179;} // end inline asm fma.rn.ftz.f32 %f551, %f544, %f238, %f540; mov.b32 {%rs180, %rs188}, %r252; // begin inline asm { cvt.f32.f16 %f239, %rs180;} // end inline asm fma.rn.ftz.f32 %f552, %f544, %f239, %f541; shr.u16 %rs319, %rs313, 12; cvt.rn.f32.s16 %f553, %rs319; sub.ftz.f32 %f554, %f553, %f10; mul.ftz.f32 %f555, %f87, %f554; // begin inline asm { cvt.f32.f16 %f240, %rs181;} // end inline asm fma.rn.ftz.f32 %f556, %f555, %f240, %f545; // begin inline asm { cvt.f32.f16 %f241, %rs182;} // end inline asm fma.rn.ftz.f32 %f557, %f555, %f241, %f546; // begin inline asm { cvt.f32.f16 %f242, %rs183;} // end inline asm fma.rn.ftz.f32 %f558, %f555, %f242, %f547; // begin inline asm { cvt.f32.f16 %f243, %rs184;} // end inline asm fma.rn.ftz.f32 %f559, %f555, %f243, %f548; // begin inline asm { cvt.f32.f16 %f244, %rs185;} // end inline asm fma.rn.ftz.f32 %f560, %f555, %f244, %f549; // begin inline asm { cvt.f32.f16 %f245, %rs186;} // end inline asm fma.rn.ftz.f32 %f561, %f555, %f245, %f550; // begin inline asm { cvt.f32.f16 %f246, %rs187;} // end inline asm fma.rn.ftz.f32 %f562, %f555, %f246, %f551; // begin inline asm { cvt.f32.f16 %f247, %rs188;} // end inline asm fma.rn.ftz.f32 %f563, %f555, %f247, %f552; shr.u32 %r259, %r70, 16; cvt.u16.u32 %rs320, %r259; and.b16 %rs321, %rs320, 15; cvt.rn.f32.s16 %f564, %rs321; sub.ftz.f32 %f565, %f564, %f10; mul.ftz.f32 %f566, %f87, %f565; mov.b32 {%rs189, %rs197}, %r197; // begin inline asm { cvt.f32.f16 %f248, %rs189;} // end inline asm fma.rn.ftz.f32 %f567, %f566, %f248, %f556; mov.b32 {%rs190, %rs198}, %r205; // begin inline asm { cvt.f32.f16 %f249, %rs190;} // end inline asm fma.rn.ftz.f32 %f568, %f566, %f249, %f557; mov.b32 {%rs191, %rs199}, %r213; // begin inline asm { cvt.f32.f16 %f250, %rs191;} // end inline asm fma.rn.ftz.f32 %f569, %f566, %f250, %f558; mov.b32 {%rs192, %rs200}, %r221; // begin inline asm { cvt.f32.f16 %f251, %rs192;} // end inline asm fma.rn.ftz.f32 %f570, %f566, %f251, %f559; mov.b32 {%rs193, %rs201}, %r229; // begin inline asm { cvt.f32.f16 %f252, %rs193;} // end inline asm fma.rn.ftz.f32 %f571, %f566, %f252, %f560; mov.b32 {%rs194, %rs202}, %r237; // begin inline asm { cvt.f32.f16 %f253, %rs194;} // end inline asm fma.rn.ftz.f32 %f572, %f566, %f253, %f561; mov.b32 {%rs195, %rs203}, %r245; // begin inline asm { cvt.f32.f16 %f254, %rs195;} // end inline asm fma.rn.ftz.f32 %f573, %f566, %f254, %f562; mov.b32 {%rs196, %rs204}, %r253; // begin inline asm { cvt.f32.f16 %f255, %rs196;} // end inline asm fma.rn.ftz.f32 %f574, %f566, %f255, %f563; shr.u32 %r260, %r70, 20; cvt.u16.u32 %rs322, %r260; and.b16 %rs323, %rs322, 15; cvt.rn.f32.s16 %f575, %rs323; sub.ftz.f32 %f576, %f575, %f10; mul.ftz.f32 %f577, %f87, %f576; // begin inline asm { cvt.f32.f16 %f256, %rs197;} // end inline asm fma.rn.ftz.f32 %f578, %f577, %f256, %f567; // begin inline asm { cvt.f32.f16 %f257, %rs198;} // end inline asm fma.rn.ftz.f32 %f579, %f577, %f257, %f568; // begin inline asm { cvt.f32.f16 %f258, %rs199;} // end inline asm fma.rn.ftz.f32 %f580, %f577, %f258, %f569; // begin inline asm { cvt.f32.f16 %f259, %rs200;} // end inline asm fma.rn.ftz.f32 %f581, %f577, %f259, %f570; // begin inline asm { cvt.f32.f16 %f260, %rs201;} // end inline asm fma.rn.ftz.f32 %f582, %f577, %f260, %f571; // begin inline asm { cvt.f32.f16 %f261, %rs202;} // end inline asm fma.rn.ftz.f32 %f583, %f577, %f261, %f572; // begin inline asm { cvt.f32.f16 %f262, %rs203;} // end inline asm fma.rn.ftz.f32 %f584, %f577, %f262, %f573; // begin inline asm { cvt.f32.f16 %f263, %rs204;} // end inline asm fma.rn.ftz.f32 %f585, %f577, %f263, %f574; shr.u32 %r261, %r70, 24; cvt.u16.u32 %rs324, %r261; and.b16 %rs325, %rs324, 15; cvt.rn.f32.s16 %f586, %rs325; sub.ftz.f32 %f587, %f586, %f10; mul.ftz.f32 %f588, %f87, %f587; mov.b32 {%rs205, %rs213}, %r198; // begin inline asm { cvt.f32.f16 %f264, %rs205;} // end inline asm fma.rn.ftz.f32 %f589, %f588, %f264, %f578; mov.b32 {%rs206, %rs214}, %r206; // begin inline asm { cvt.f32.f16 %f265, %rs206;} // end inline asm fma.rn.ftz.f32 %f590, %f588, %f265, %f579; mov.b32 {%rs207, %rs215}, %r214; // begin inline asm { cvt.f32.f16 %f266, %rs207;} // end inline asm fma.rn.ftz.f32 %f591, %f588, %f266, %f580; mov.b32 {%rs208, %rs216}, %r222; // begin inline asm { cvt.f32.f16 %f267, %rs208;} // end inline asm fma.rn.ftz.f32 %f592, %f588, %f267, %f581; mov.b32 {%rs209, %rs217}, %r230; // begin inline asm { cvt.f32.f16 %f268, %rs209;} // end inline asm fma.rn.ftz.f32 %f593, %f588, %f268, %f582; mov.b32 {%rs210, %rs218}, %r238; // begin inline asm { cvt.f32.f16 %f269, %rs210;} // end inline asm fma.rn.ftz.f32 %f594, %f588, %f269, %f583; mov.b32 {%rs211, %rs219}, %r246; // begin inline asm { cvt.f32.f16 %f270, %rs211;} // end inline asm fma.rn.ftz.f32 %f595, %f588, %f270, %f584; mov.b32 {%rs212, %rs220}, %r254; // begin inline asm { cvt.f32.f16 %f271, %rs212;} // end inline asm fma.rn.ftz.f32 %f596, %f588, %f271, %f585; shr.u32 %r262, %r70, 28; cvt.u16.u32 %rs326, %r262; cvt.rn.f32.s16 %f597, %rs326; sub.ftz.f32 %f598, %f597, %f10; mul.ftz.f32 %f599, %f87, %f598; // begin inline asm { cvt.f32.f16 %f272, %rs213;} // end inline asm fma.rn.ftz.f32 %f600, %f599, %f272, %f589; // begin inline asm { cvt.f32.f16 %f273, %rs214;} // end inline asm fma.rn.ftz.f32 %f601, %f599, %f273, %f590; // begin inline asm { cvt.f32.f16 %f274, %rs215;} // end inline asm fma.rn.ftz.f32 %f602, %f599, %f274, %f591; // begin inline asm { cvt.f32.f16 %f275, %rs216;} // end inline asm fma.rn.ftz.f32 %f603, %f599, %f275, %f592; // begin inline asm { cvt.f32.f16 %f276, %rs217;} // end inline asm fma.rn.ftz.f32 %f604, %f599, %f276, %f593; // begin inline asm { cvt.f32.f16 %f277, %rs218;} // end inline asm fma.rn.ftz.f32 %f605, %f599, %f277, %f594; // begin inline asm { cvt.f32.f16 %f278, %rs219;} // end inline asm fma.rn.ftz.f32 %f606, %f599, %f278, %f595; // begin inline asm { cvt.f32.f16 %f279, %rs220;} // end inline asm fma.rn.ftz.f32 %f607, %f599, %f279, %f596; ld.global.v4.u32 {%r263, %r264, %r265, %r266}, [%rd5+48]; ld.global.v4.u32 {%r271, %r272, %r273, %r274}, [%rd7+32]; ld.global.v4.u32 {%r279, %r280, %r281, %r282}, [%rd6+48]; ld.global.v4.u32 {%r287, %r288, %r289, %r290}, [%rd8+32]; ld.global.v4.u32 {%r295, %r296, %r297, %r298}, [%rd9+32]; ld.global.v4.u32 {%r303, %r304, %r305, %r306}, [%rd10+32]; ld.global.v4.u32 {%r311, %r312, %r313, %r314}, [%rd11+32]; ld.global.v4.u32 {%r319, %r320, %r321, %r322}, [%rd12+32]; cvt.u16.u32 %rs327, %r71; and.b16 %rs328, %rs327, 240; and.b16 %rs329, %rs327, 15; cvt.rn.f32.s16 %f608, %rs329; sub.ftz.f32 %f609, %f608, %f10; mul.ftz.f32 %f610, %f87, %f609; mov.b32 {%rs221, %rs229}, %r263; // begin inline asm { cvt.f32.f16 %f280, %rs221;} // end inline asm fma.rn.ftz.f32 %f611, %f610, %f280, %f600; mov.b32 {%rs222, %rs230}, %r271; // begin inline asm { cvt.f32.f16 %f281, %rs222;} // end inline asm fma.rn.ftz.f32 %f612, %f610, %f281, %f601; mov.b32 {%rs223, %rs231}, %r279; // begin inline asm { cvt.f32.f16 %f282, %rs223;} // end inline asm fma.rn.ftz.f32 %f613, %f610, %f282, %f602; mov.b32 {%rs224, %rs232}, %r287; // begin inline asm { cvt.f32.f16 %f283, %rs224;} // end inline asm fma.rn.ftz.f32 %f614, %f610, %f283, %f603; mov.b32 {%rs225, %rs233}, %r295; // begin inline asm { cvt.f32.f16 %f284, %rs225;} // end inline asm fma.rn.ftz.f32 %f615, %f610, %f284, %f604; mov.b32 {%rs226, %rs234}, %r303; // begin inline asm { cvt.f32.f16 %f285, %rs226;} // end inline asm fma.rn.ftz.f32 %f616, %f610, %f285, %f605; mov.b32 {%rs227, %rs235}, %r311; // begin inline asm { cvt.f32.f16 %f286, %rs227;} // end inline asm fma.rn.ftz.f32 %f617, %f610, %f286, %f606; mov.b32 {%rs228, %rs236}, %r319; // begin inline asm { cvt.f32.f16 %f287, %rs228;} // end inline asm fma.rn.ftz.f32 %f618, %f610, %f287, %f607; shr.u16 %rs330, %rs328, 4; cvt.rn.f32.s16 %f619, %rs330; sub.ftz.f32 %f620, %f619, %f10; mul.ftz.f32 %f621, %f87, %f620; // begin inline asm { cvt.f32.f16 %f288, %rs229;} // end inline asm fma.rn.ftz.f32 %f622, %f621, %f288, %f611; // begin inline asm { cvt.f32.f16 %f289, %rs230;} // end inline asm fma.rn.ftz.f32 %f623, %f621, %f289, %f612; // begin inline asm { cvt.f32.f16 %f290, %rs231;} // end inline asm fma.rn.ftz.f32 %f624, %f621, %f290, %f613; // begin inline asm { cvt.f32.f16 %f291, %rs232;} // end inline asm fma.rn.ftz.f32 %f625, %f621, %f291, %f614; // begin inline asm { cvt.f32.f16 %f292, %rs233;} // end inline asm fma.rn.ftz.f32 %f626, %f621, %f292, %f615; // begin inline asm { cvt.f32.f16 %f293, %rs234;} // end inline asm fma.rn.ftz.f32 %f627, %f621, %f293, %f616; // begin inline asm { cvt.f32.f16 %f294, %rs235;} // end inline asm fma.rn.ftz.f32 %f628, %f621, %f294, %f617; // begin inline asm { cvt.f32.f16 %f295, %rs236;} // end inline asm fma.rn.ftz.f32 %f629, %f621, %f295, %f618; shr.u16 %rs331, %rs327, 8; and.b16 %rs332, %rs331, 15; cvt.rn.f32.s16 %f630, %rs332; sub.ftz.f32 %f631, %f630, %f10; mul.ftz.f32 %f632, %f87, %f631; mov.b32 {%rs237, %rs245}, %r264; // begin inline asm { cvt.f32.f16 %f296, %rs237;} // end inline asm fma.rn.ftz.f32 %f633, %f632, %f296, %f622; mov.b32 {%rs238, %rs246}, %r272; // begin inline asm { cvt.f32.f16 %f297, %rs238;} // end inline asm fma.rn.ftz.f32 %f634, %f632, %f297, %f623; mov.b32 {%rs239, %rs247}, %r280; // begin inline asm { cvt.f32.f16 %f298, %rs239;} // end inline asm fma.rn.ftz.f32 %f635, %f632, %f298, %f624; mov.b32 {%rs240, %rs248}, %r288; // begin inline asm { cvt.f32.f16 %f299, %rs240;} // end inline asm fma.rn.ftz.f32 %f636, %f632, %f299, %f625; mov.b32 {%rs241, %rs249}, %r296; // begin inline asm { cvt.f32.f16 %f300, %rs241;} // end inline asm fma.rn.ftz.f32 %f637, %f632, %f300, %f626; mov.b32 {%rs242, %rs250}, %r304; // begin inline asm { cvt.f32.f16 %f301, %rs242;} // end inline asm fma.rn.ftz.f32 %f638, %f632, %f301, %f627; mov.b32 {%rs243, %rs251}, %r312; // begin inline asm { cvt.f32.f16 %f302, %rs243;} // end inline asm fma.rn.ftz.f32 %f639, %f632, %f302, %f628; mov.b32 {%rs244, %rs252}, %r320; // begin inline asm { cvt.f32.f16 %f303, %rs244;} // end inline asm fma.rn.ftz.f32 %f640, %f632, %f303, %f629; shr.u16 %rs333, %rs327, 12; cvt.rn.f32.s16 %f641, %rs333; sub.ftz.f32 %f642, %f641, %f10; mul.ftz.f32 %f643, %f87, %f642; // begin inline asm { cvt.f32.f16 %f304, %rs245;} // end inline asm fma.rn.ftz.f32 %f644, %f643, %f304, %f633; // begin inline asm { cvt.f32.f16 %f305, %rs246;} // end inline asm fma.rn.ftz.f32 %f645, %f643, %f305, %f634; // begin inline asm { cvt.f32.f16 %f306, %rs247;} // end inline asm fma.rn.ftz.f32 %f646, %f643, %f306, %f635; // begin inline asm { cvt.f32.f16 %f307, %rs248;} // end inline asm fma.rn.ftz.f32 %f647, %f643, %f307, %f636; // begin inline asm { cvt.f32.f16 %f308, %rs249;} // end inline asm fma.rn.ftz.f32 %f648, %f643, %f308, %f637; // begin inline asm { cvt.f32.f16 %f309, %rs250;} // end inline asm fma.rn.ftz.f32 %f649, %f643, %f309, %f638; // begin inline asm { cvt.f32.f16 %f310, %rs251;} // end inline asm fma.rn.ftz.f32 %f650, %f643, %f310, %f639; // begin inline asm { cvt.f32.f16 %f311, %rs252;} // end inline asm fma.rn.ftz.f32 %f651, %f643, %f311, %f640; shr.u32 %r327, %r71, 16; cvt.u16.u32 %rs334, %r327; and.b16 %rs335, %rs334, 15; cvt.rn.f32.s16 %f652, %rs335; sub.ftz.f32 %f653, %f652, %f10; mul.ftz.f32 %f654, %f87, %f653; mov.b32 {%rs253, %rs261}, %r265; // begin inline asm { cvt.f32.f16 %f312, %rs253;} // end inline asm fma.rn.ftz.f32 %f655, %f654, %f312, %f644; mov.b32 {%rs254, %rs262}, %r273; // begin inline asm { cvt.f32.f16 %f313, %rs254;} // end inline asm fma.rn.ftz.f32 %f656, %f654, %f313, %f645; mov.b32 {%rs255, %rs263}, %r281; // begin inline asm { cvt.f32.f16 %f314, %rs255;} // end inline asm fma.rn.ftz.f32 %f657, %f654, %f314, %f646; mov.b32 {%rs256, %rs264}, %r289; // begin inline asm { cvt.f32.f16 %f315, %rs256;} // end inline asm fma.rn.ftz.f32 %f658, %f654, %f315, %f647; mov.b32 {%rs257, %rs265}, %r297; // begin inline asm { cvt.f32.f16 %f316, %rs257;} // end inline asm fma.rn.ftz.f32 %f659, %f654, %f316, %f648; mov.b32 {%rs258, %rs266}, %r305; // begin inline asm { cvt.f32.f16 %f317, %rs258;} // end inline asm fma.rn.ftz.f32 %f660, %f654, %f317, %f649; mov.b32 {%rs259, %rs267}, %r313; // begin inline asm { cvt.f32.f16 %f318, %rs259;} // end inline asm fma.rn.ftz.f32 %f661, %f654, %f318, %f650; mov.b32 {%rs260, %rs268}, %r321; // begin inline asm { cvt.f32.f16 %f319, %rs260;} // end inline asm fma.rn.ftz.f32 %f662, %f654, %f319, %f651; shr.u32 %r328, %r71, 20; cvt.u16.u32 %rs336, %r328; and.b16 %rs337, %rs336, 15; cvt.rn.f32.s16 %f663, %rs337; sub.ftz.f32 %f664, %f663, %f10; mul.ftz.f32 %f665, %f87, %f664; // begin inline asm { cvt.f32.f16 %f320, %rs261;} // end inline asm fma.rn.ftz.f32 %f666, %f665, %f320, %f655; // begin inline asm { cvt.f32.f16 %f321, %rs262;} // end inline asm fma.rn.ftz.f32 %f667, %f665, %f321, %f656; // begin inline asm { cvt.f32.f16 %f322, %rs263;} // end inline asm fma.rn.ftz.f32 %f668, %f665, %f322, %f657; // begin inline asm { cvt.f32.f16 %f323, %rs264;} // end inline asm fma.rn.ftz.f32 %f669, %f665, %f323, %f658; // begin inline asm { cvt.f32.f16 %f324, %rs265;} // end inline asm fma.rn.ftz.f32 %f670, %f665, %f324, %f659; // begin inline asm { cvt.f32.f16 %f325, %rs266;} // end inline asm fma.rn.ftz.f32 %f671, %f665, %f325, %f660; // begin inline asm { cvt.f32.f16 %f326, %rs267;} // end inline asm fma.rn.ftz.f32 %f672, %f665, %f326, %f661; // begin inline asm { cvt.f32.f16 %f327, %rs268;} // end inline asm fma.rn.ftz.f32 %f673, %f665, %f327, %f662; shr.u32 %r329, %r71, 24; cvt.u16.u32 %rs338, %r329; and.b16 %rs339, %rs338, 15; cvt.rn.f32.s16 %f674, %rs339; sub.ftz.f32 %f675, %f674, %f10; mul.ftz.f32 %f676, %f87, %f675; mov.b32 {%rs269, %rs277}, %r266; // begin inline asm { cvt.f32.f16 %f328, %rs269;} // end inline asm fma.rn.ftz.f32 %f677, %f676, %f328, %f666; mov.b32 {%rs270, %rs278}, %r274; // begin inline asm { cvt.f32.f16 %f329, %rs270;} // end inline asm fma.rn.ftz.f32 %f678, %f676, %f329, %f667; mov.b32 {%rs271, %rs279}, %r282; // begin inline asm { cvt.f32.f16 %f330, %rs271;} // end inline asm fma.rn.ftz.f32 %f679, %f676, %f330, %f668; mov.b32 {%rs272, %rs280}, %r290; // begin inline asm { cvt.f32.f16 %f331, %rs272;} // end inline asm fma.rn.ftz.f32 %f680, %f676, %f331, %f669; mov.b32 {%rs273, %rs281}, %r298; // begin inline asm { cvt.f32.f16 %f332, %rs273;} // end inline asm fma.rn.ftz.f32 %f681, %f676, %f332, %f670; mov.b32 {%rs274, %rs282}, %r306; // begin inline asm { cvt.f32.f16 %f333, %rs274;} // end inline asm fma.rn.ftz.f32 %f682, %f676, %f333, %f671; mov.b32 {%rs275, %rs283}, %r314; // begin inline asm { cvt.f32.f16 %f334, %rs275;} // end inline asm fma.rn.ftz.f32 %f683, %f676, %f334, %f672; mov.b32 {%rs276, %rs284}, %r322; // begin inline asm { cvt.f32.f16 %f335, %rs276;} // end inline asm fma.rn.ftz.f32 %f684, %f676, %f335, %f673; shr.u32 %r330, %r71, 28; cvt.u16.u32 %rs340, %r330; cvt.rn.f32.s16 %f685, %rs340; sub.ftz.f32 %f686, %f685, %f10; mul.ftz.f32 %f687, %f87, %f686; // begin inline asm { cvt.f32.f16 %f336, %rs277;} // end inline asm fma.rn.ftz.f32 %f1487, %f687, %f336, %f677; // begin inline asm { cvt.f32.f16 %f337, %rs278;} // end inline asm fma.rn.ftz.f32 %f1486, %f687, %f337, %f678; // begin inline asm { cvt.f32.f16 %f338, %rs279;} // end inline asm fma.rn.ftz.f32 %f1485, %f687, %f338, %f679; // begin inline asm { cvt.f32.f16 %f339, %rs280;} // end inline asm fma.rn.ftz.f32 %f1484, %f687, %f339, %f680; // begin inline asm { cvt.f32.f16 %f340, %rs281;} // end inline asm fma.rn.ftz.f32 %f1483, %f687, %f340, %f681; // begin inline asm { cvt.f32.f16 %f341, %rs282;} // end inline asm fma.rn.ftz.f32 %f1482, %f687, %f341, %f682; // begin inline asm { cvt.f32.f16 %f342, %rs283;} // end inline asm fma.rn.ftz.f32 %f1481, %f687, %f342, %f683; // begin inline asm { cvt.f32.f16 %f343, %rs284;} // end inline asm fma.rn.ftz.f32 %f1480, %f687, %f343, %f684; bra.uni $L__BB0_8; $L__BB0_7: cvt.u16.u32 %rs597, %r68; shl.b16 %rs598, %rs597, 4; cvt.s16.s8 %rs599, %rs598; shr.s16 %rs600, %rs599, 7; and.b16 %rs601, %rs600, -16; and.b16 %rs602, %rs597, 15; or.b16 %rs603, %rs601, %rs602; cvt.rn.f32.s16 %f944, %rs603; sub.ftz.f32 %f945, %f944, %f10; mul.ftz.f32 %f946, %f87, %f945; mov.b32 {%rs341, %rs349}, %r82; // begin inline asm { cvt.f32.f16 %f688, %rs341;} // end inline asm fma.rn.ftz.f32 %f947, %f946, %f688, %f1487; mov.b32 {%rs342, %rs350}, %r86; // begin inline asm { cvt.f32.f16 %f689, %rs342;} // end inline asm fma.rn.ftz.f32 %f948, %f946, %f689, %f1486; mov.b32 {%rs343, %rs351}, %r92; // begin inline asm { cvt.f32.f16 %f690, %rs343;} // end inline asm fma.rn.ftz.f32 %f949, %f946, %f690, %f1485; mov.b32 {%rs344, %rs352}, %r96; // begin inline asm { cvt.f32.f16 %f691, %rs344;} // end inline asm fma.rn.ftz.f32 %f950, %f946, %f691, %f1484; mov.b32 {%rs345, %rs353}, %r100; // begin inline asm { cvt.f32.f16 %f692, %rs345;} // end inline asm fma.rn.ftz.f32 %f951, %f946, %f692, %f1483; mov.b32 {%rs346, %rs354}, %r104; // begin inline asm { cvt.f32.f16 %f693, %rs346;} // end inline asm fma.rn.ftz.f32 %f952, %f946, %f693, %f1482; mov.b32 {%rs347, %rs355}, %r108; // begin inline asm { cvt.f32.f16 %f694, %rs347;} // end inline asm fma.rn.ftz.f32 %f953, %f946, %f694, %f1481; mov.b32 {%rs348, %rs356}, %r112; // begin inline asm { cvt.f32.f16 %f695, %rs348;} // end inline asm fma.rn.ftz.f32 %f954, %f946, %f695, %f1480; shr.u32 %r331, %r68, 4; cvt.u16.u32 %rs604, %r331; shl.b16 %rs605, %rs604, 4; cvt.s16.s8 %rs606, %rs605; shr.s16 %rs607, %rs606, 7; and.b16 %rs608, %rs607, -16; and.b16 %rs609, %rs604, 15; or.b16 %rs610, %rs608, %rs609; cvt.rn.f32.s16 %f955, %rs610; sub.ftz.f32 %f956, %f955, %f10; mul.ftz.f32 %f957, %f87, %f956; // begin inline asm { cvt.f32.f16 %f696, %rs349;} // end inline asm fma.rn.ftz.f32 %f958, %f957, %f696, %f947; // begin inline asm { cvt.f32.f16 %f697, %rs350;} // end inline asm fma.rn.ftz.f32 %f959, %f957, %f697, %f948; // begin inline asm { cvt.f32.f16 %f698, %rs351;} // end inline asm fma.rn.ftz.f32 %f960, %f957, %f698, %f949; // begin inline asm { cvt.f32.f16 %f699, %rs352;} // end inline asm fma.rn.ftz.f32 %f961, %f957, %f699, %f950; // begin inline asm { cvt.f32.f16 %f700, %rs353;} // end inline asm fma.rn.ftz.f32 %f962, %f957, %f700, %f951; // begin inline asm { cvt.f32.f16 %f701, %rs354;} // end inline asm fma.rn.ftz.f32 %f963, %f957, %f701, %f952; // begin inline asm { cvt.f32.f16 %f702, %rs355;} // end inline asm fma.rn.ftz.f32 %f964, %f957, %f702, %f953; // begin inline asm { cvt.f32.f16 %f703, %rs356;} // end inline asm fma.rn.ftz.f32 %f965, %f957, %f703, %f954; shr.u32 %r332, %r68, 8; cvt.u16.u32 %rs611, %r332; shl.b16 %rs612, %rs611, 4; cvt.s16.s8 %rs613, %rs612; shr.s16 %rs614, %rs613, 7; and.b16 %rs615, %rs614, -16; and.b16 %rs616, %rs611, 15; or.b16 %rs617, %rs615, %rs616; cvt.rn.f32.s16 %f966, %rs617; sub.ftz.f32 %f967, %f966, %f10; mul.ftz.f32 %f968, %f87, %f967; mov.b32 {%rs357, %rs365}, %r83; // begin inline asm { cvt.f32.f16 %f704, %rs357;} // end inline asm fma.rn.ftz.f32 %f969, %f968, %f704, %f958; mov.b32 {%rs358, %rs366}, %r87; // begin inline asm { cvt.f32.f16 %f705, %rs358;} // end inline asm fma.rn.ftz.f32 %f970, %f968, %f705, %f959; mov.b32 {%rs359, %rs367}, %r93; // begin inline asm { cvt.f32.f16 %f706, %rs359;} // end inline asm fma.rn.ftz.f32 %f971, %f968, %f706, %f960; mov.b32 {%rs360, %rs368}, %r97; // begin inline asm { cvt.f32.f16 %f707, %rs360;} // end inline asm fma.rn.ftz.f32 %f972, %f968, %f707, %f961; mov.b32 {%rs361, %rs369}, %r101; // begin inline asm { cvt.f32.f16 %f708, %rs361;} // end inline asm fma.rn.ftz.f32 %f973, %f968, %f708, %f962; mov.b32 {%rs362, %rs370}, %r105; // begin inline asm { cvt.f32.f16 %f709, %rs362;} // end inline asm fma.rn.ftz.f32 %f974, %f968, %f709, %f963; mov.b32 {%rs363, %rs371}, %r109; // begin inline asm { cvt.f32.f16 %f710, %rs363;} // end inline asm fma.rn.ftz.f32 %f975, %f968, %f710, %f964; mov.b32 {%rs364, %rs372}, %r113; // begin inline asm { cvt.f32.f16 %f711, %rs364;} // end inline asm fma.rn.ftz.f32 %f976, %f968, %f711, %f965; shr.u32 %r333, %r68, 12; cvt.u16.u32 %rs618, %r333; shl.b16 %rs619, %rs618, 4; cvt.s16.s8 %rs620, %rs619; shr.s16 %rs621, %rs620, 7; and.b16 %rs622, %rs621, -16; and.b16 %rs623, %rs618, 15; or.b16 %rs624, %rs622, %rs623; cvt.rn.f32.s16 %f977, %rs624; sub.ftz.f32 %f978, %f977, %f10; mul.ftz.f32 %f979, %f87, %f978; // begin inline asm { cvt.f32.f16 %f712, %rs365;} // end inline asm fma.rn.ftz.f32 %f980, %f979, %f712, %f969; // begin inline asm { cvt.f32.f16 %f713, %rs366;} // end inline asm fma.rn.ftz.f32 %f981, %f979, %f713, %f970; // begin inline asm { cvt.f32.f16 %f714, %rs367;} // end inline asm fma.rn.ftz.f32 %f982, %f979, %f714, %f971; // begin inline asm { cvt.f32.f16 %f715, %rs368;} // end inline asm fma.rn.ftz.f32 %f983, %f979, %f715, %f972; // begin inline asm { cvt.f32.f16 %f716, %rs369;} // end inline asm fma.rn.ftz.f32 %f984, %f979, %f716, %f973; // begin inline asm { cvt.f32.f16 %f717, %rs370;} // end inline asm fma.rn.ftz.f32 %f985, %f979, %f717, %f974; // begin inline asm { cvt.f32.f16 %f718, %rs371;} // end inline asm fma.rn.ftz.f32 %f986, %f979, %f718, %f975; // begin inline asm { cvt.f32.f16 %f719, %rs372;} // end inline asm fma.rn.ftz.f32 %f987, %f979, %f719, %f976; shr.u32 %r334, %r68, 16; cvt.u16.u32 %rs625, %r334; shl.b16 %rs626, %rs625, 4; cvt.s16.s8 %rs627, %rs626; shr.s16 %rs628, %rs627, 7; and.b16 %rs629, %rs628, -16; and.b16 %rs630, %rs625, 15; or.b16 %rs631, %rs629, %rs630; cvt.rn.f32.s16 %f988, %rs631; sub.ftz.f32 %f989, %f988, %f10; mul.ftz.f32 %f990, %f87, %f989; mov.b32 {%rs373, %rs381}, %r84; // begin inline asm { cvt.f32.f16 %f720, %rs373;} // end inline asm fma.rn.ftz.f32 %f991, %f990, %f720, %f980; mov.b32 {%rs374, %rs382}, %r88; // begin inline asm { cvt.f32.f16 %f721, %rs374;} // end inline asm fma.rn.ftz.f32 %f992, %f990, %f721, %f981; mov.b32 {%rs375, %rs383}, %r94; // begin inline asm { cvt.f32.f16 %f722, %rs375;} // end inline asm fma.rn.ftz.f32 %f993, %f990, %f722, %f982; mov.b32 {%rs376, %rs384}, %r98; // begin inline asm { cvt.f32.f16 %f723, %rs376;} // end inline asm fma.rn.ftz.f32 %f994, %f990, %f723, %f983; mov.b32 {%rs377, %rs385}, %r102; // begin inline asm { cvt.f32.f16 %f724, %rs377;} // end inline asm fma.rn.ftz.f32 %f995, %f990, %f724, %f984; mov.b32 {%rs378, %rs386}, %r106; // begin inline asm { cvt.f32.f16 %f725, %rs378;} // end inline asm fma.rn.ftz.f32 %f996, %f990, %f725, %f985; mov.b32 {%rs379, %rs387}, %r110; // begin inline asm { cvt.f32.f16 %f726, %rs379;} // end inline asm fma.rn.ftz.f32 %f997, %f990, %f726, %f986; mov.b32 {%rs380, %rs388}, %r114; // begin inline asm { cvt.f32.f16 %f727, %rs380;} // end inline asm fma.rn.ftz.f32 %f998, %f990, %f727, %f987; shr.u32 %r335, %r68, 20; cvt.u16.u32 %rs632, %r335; shl.b16 %rs633, %rs632, 4; cvt.s16.s8 %rs634, %rs633; shr.s16 %rs635, %rs634, 7; and.b16 %rs636, %rs635, -16; and.b16 %rs637, %rs632, 15; or.b16 %rs638, %rs636, %rs637; cvt.rn.f32.s16 %f999, %rs638; sub.ftz.f32 %f1000, %f999, %f10; mul.ftz.f32 %f1001, %f87, %f1000; // begin inline asm { cvt.f32.f16 %f728, %rs381;} // end inline asm fma.rn.ftz.f32 %f1002, %f1001, %f728, %f991; // begin inline asm { cvt.f32.f16 %f729, %rs382;} // end inline asm fma.rn.ftz.f32 %f1003, %f1001, %f729, %f992; // begin inline asm { cvt.f32.f16 %f730, %rs383;} // end inline asm fma.rn.ftz.f32 %f1004, %f1001, %f730, %f993; // begin inline asm { cvt.f32.f16 %f731, %rs384;} // end inline asm fma.rn.ftz.f32 %f1005, %f1001, %f731, %f994; // begin inline asm { cvt.f32.f16 %f732, %rs385;} // end inline asm fma.rn.ftz.f32 %f1006, %f1001, %f732, %f995; // begin inline asm { cvt.f32.f16 %f733, %rs386;} // end inline asm fma.rn.ftz.f32 %f1007, %f1001, %f733, %f996; // begin inline asm { cvt.f32.f16 %f734, %rs387;} // end inline asm fma.rn.ftz.f32 %f1008, %f1001, %f734, %f997; // begin inline asm { cvt.f32.f16 %f735, %rs388;} // end inline asm fma.rn.ftz.f32 %f1009, %f1001, %f735, %f998; shr.u32 %r336, %r68, 24; cvt.u16.u32 %rs639, %r336; shl.b16 %rs640, %rs639, 4; cvt.s16.s8 %rs641, %rs640; shr.s16 %rs642, %rs641, 7; and.b16 %rs643, %rs642, -16; and.b16 %rs644, %rs639, 15; or.b16 %rs645, %rs643, %rs644; cvt.rn.f32.s16 %f1010, %rs645; sub.ftz.f32 %f1011, %f1010, %f10; mul.ftz.f32 %f1012, %f87, %f1011; mov.b32 {%rs389, %rs397}, %r85; // begin inline asm { cvt.f32.f16 %f736, %rs389;} // end inline asm fma.rn.ftz.f32 %f1013, %f1012, %f736, %f1002; mov.b32 {%rs390, %rs398}, %r89; // begin inline asm { cvt.f32.f16 %f737, %rs390;} // end inline asm fma.rn.ftz.f32 %f1014, %f1012, %f737, %f1003; mov.b32 {%rs391, %rs399}, %r95; // begin inline asm { cvt.f32.f16 %f738, %rs391;} // end inline asm fma.rn.ftz.f32 %f1015, %f1012, %f738, %f1004; mov.b32 {%rs392, %rs400}, %r99; // begin inline asm { cvt.f32.f16 %f739, %rs392;} // end inline asm fma.rn.ftz.f32 %f1016, %f1012, %f739, %f1005; mov.b32 {%rs393, %rs401}, %r103; // begin inline asm { cvt.f32.f16 %f740, %rs393;} // end inline asm fma.rn.ftz.f32 %f1017, %f1012, %f740, %f1006; mov.b32 {%rs394, %rs402}, %r107; // begin inline asm { cvt.f32.f16 %f741, %rs394;} // end inline asm fma.rn.ftz.f32 %f1018, %f1012, %f741, %f1007; mov.b32 {%rs395, %rs403}, %r111; // begin inline asm { cvt.f32.f16 %f742, %rs395;} // end inline asm fma.rn.ftz.f32 %f1019, %f1012, %f742, %f1008; mov.b32 {%rs396, %rs404}, %r115; // begin inline asm { cvt.f32.f16 %f743, %rs396;} // end inline asm fma.rn.ftz.f32 %f1020, %f1012, %f743, %f1009; shr.u32 %r337, %r68, 28; cvt.u16.u32 %rs646, %r337; shl.b16 %rs647, %rs646, 4; cvt.s16.s8 %rs648, %rs647; shr.s16 %rs649, %rs648, 7; and.b16 %rs650, %rs649, -16; or.b16 %rs651, %rs650, %rs646; cvt.rn.f32.s16 %f1021, %rs651; sub.ftz.f32 %f1022, %f1021, %f10; mul.ftz.f32 %f1023, %f87, %f1022; // begin inline asm { cvt.f32.f16 %f744, %rs397;} // end inline asm fma.rn.ftz.f32 %f1024, %f1023, %f744, %f1013; // begin inline asm { cvt.f32.f16 %f745, %rs398;} // end inline asm fma.rn.ftz.f32 %f1025, %f1023, %f745, %f1014; // begin inline asm { cvt.f32.f16 %f746, %rs399;} // end inline asm fma.rn.ftz.f32 %f1026, %f1023, %f746, %f1015; // begin inline asm { cvt.f32.f16 %f747, %rs400;} // end inline asm fma.rn.ftz.f32 %f1027, %f1023, %f747, %f1016; // begin inline asm { cvt.f32.f16 %f748, %rs401;} // end inline asm fma.rn.ftz.f32 %f1028, %f1023, %f748, %f1017; // begin inline asm { cvt.f32.f16 %f749, %rs402;} // end inline asm fma.rn.ftz.f32 %f1029, %f1023, %f749, %f1018; // begin inline asm { cvt.f32.f16 %f750, %rs403;} // end inline asm fma.rn.ftz.f32 %f1030, %f1023, %f750, %f1019; // begin inline asm { cvt.f32.f16 %f751, %rs404;} // end inline asm fma.rn.ftz.f32 %f1031, %f1023, %f751, %f1020; ld.global.v4.u32 {%r338, %r339, %r340, %r341}, [%rd5+16]; ld.global.v4.u32 {%r346, %r347, %r348, %r349}, [%rd7]; ld.global.v4.u32 {%r354, %r355, %r356, %r357}, [%rd6+16]; ld.global.v4.u32 {%r362, %r363, %r364, %r365}, [%rd8]; ld.global.v4.u32 {%r370, %r371, %r372, %r373}, [%rd9]; ld.global.v4.u32 {%r378, %r379, %r380, %r381}, [%rd10]; ld.global.v4.u32 {%r386, %r387, %r388, %r389}, [%rd11]; ld.global.v4.u32 {%r394, %r395, %r396, %r397}, [%rd12]; cvt.u16.u32 %rs652, %r69; shl.b16 %rs653, %rs652, 4; cvt.s16.s8 %rs654, %rs653; shr.s16 %rs655, %rs654, 7; and.b16 %rs656, %rs655, -16; and.b16 %rs657, %rs652, 15; or.b16 %rs658, %rs656, %rs657; cvt.rn.f32.s16 %f1032, %rs658; sub.ftz.f32 %f1033, %f1032, %f10; mul.ftz.f32 %f1034, %f87, %f1033; mov.b32 {%rs405, %rs413}, %r338; // begin inline asm { cvt.f32.f16 %f752, %rs405;} // end inline asm fma.rn.ftz.f32 %f1035, %f1034, %f752, %f1024; mov.b32 {%rs406, %rs414}, %r346; // begin inline asm { cvt.f32.f16 %f753, %rs406;} // end inline asm fma.rn.ftz.f32 %f1036, %f1034, %f753, %f1025; mov.b32 {%rs407, %rs415}, %r354; // begin inline asm { cvt.f32.f16 %f754, %rs407;} // end inline asm fma.rn.ftz.f32 %f1037, %f1034, %f754, %f1026; mov.b32 {%rs408, %rs416}, %r362; // begin inline asm { cvt.f32.f16 %f755, %rs408;} // end inline asm fma.rn.ftz.f32 %f1038, %f1034, %f755, %f1027; mov.b32 {%rs409, %rs417}, %r370; // begin inline asm { cvt.f32.f16 %f756, %rs409;} // end inline asm fma.rn.ftz.f32 %f1039, %f1034, %f756, %f1028; mov.b32 {%rs410, %rs418}, %r378; // begin inline asm { cvt.f32.f16 %f757, %rs410;} // end inline asm fma.rn.ftz.f32 %f1040, %f1034, %f757, %f1029; mov.b32 {%rs411, %rs419}, %r386; // begin inline asm { cvt.f32.f16 %f758, %rs411;} // end inline asm fma.rn.ftz.f32 %f1041, %f1034, %f758, %f1030; mov.b32 {%rs412, %rs420}, %r394; // begin inline asm { cvt.f32.f16 %f759, %rs412;} // end inline asm fma.rn.ftz.f32 %f1042, %f1034, %f759, %f1031; shr.u32 %r402, %r69, 4; cvt.u16.u32 %rs659, %r402; shl.b16 %rs660, %rs659, 4; cvt.s16.s8 %rs661, %rs660; shr.s16 %rs662, %rs661, 7; and.b16 %rs663, %rs662, -16; and.b16 %rs664, %rs659, 15; or.b16 %rs665, %rs663, %rs664; cvt.rn.f32.s16 %f1043, %rs665; sub.ftz.f32 %f1044, %f1043, %f10; mul.ftz.f32 %f1045, %f87, %f1044; // begin inline asm { cvt.f32.f16 %f760, %rs413;} // end inline asm fma.rn.ftz.f32 %f1046, %f1045, %f760, %f1035; // begin inline asm { cvt.f32.f16 %f761, %rs414;} // end inline asm fma.rn.ftz.f32 %f1047, %f1045, %f761, %f1036; // begin inline asm { cvt.f32.f16 %f762, %rs415;} // end inline asm fma.rn.ftz.f32 %f1048, %f1045, %f762, %f1037; // begin inline asm { cvt.f32.f16 %f763, %rs416;} // end inline asm fma.rn.ftz.f32 %f1049, %f1045, %f763, %f1038; // begin inline asm { cvt.f32.f16 %f764, %rs417;} // end inline asm fma.rn.ftz.f32 %f1050, %f1045, %f764, %f1039; // begin inline asm { cvt.f32.f16 %f765, %rs418;} // end inline asm fma.rn.ftz.f32 %f1051, %f1045, %f765, %f1040; // begin inline asm { cvt.f32.f16 %f766, %rs419;} // end inline asm fma.rn.ftz.f32 %f1052, %f1045, %f766, %f1041; // begin inline asm { cvt.f32.f16 %f767, %rs420;} // end inline asm fma.rn.ftz.f32 %f1053, %f1045, %f767, %f1042; shr.u32 %r403, %r69, 8; cvt.u16.u32 %rs666, %r403; shl.b16 %rs667, %rs666, 4; cvt.s16.s8 %rs668, %rs667; shr.s16 %rs669, %rs668, 7; and.b16 %rs670, %rs669, -16; and.b16 %rs671, %rs666, 15; or.b16 %rs672, %rs670, %rs671; cvt.rn.f32.s16 %f1054, %rs672; sub.ftz.f32 %f1055, %f1054, %f10; mul.ftz.f32 %f1056, %f87, %f1055; mov.b32 {%rs421, %rs429}, %r339; // begin inline asm { cvt.f32.f16 %f768, %rs421;} // end inline asm fma.rn.ftz.f32 %f1057, %f1056, %f768, %f1046; mov.b32 {%rs422, %rs430}, %r347; // begin inline asm { cvt.f32.f16 %f769, %rs422;} // end inline asm fma.rn.ftz.f32 %f1058, %f1056, %f769, %f1047; mov.b32 {%rs423, %rs431}, %r355; // begin inline asm { cvt.f32.f16 %f770, %rs423;} // end inline asm fma.rn.ftz.f32 %f1059, %f1056, %f770, %f1048; mov.b32 {%rs424, %rs432}, %r363; // begin inline asm { cvt.f32.f16 %f771, %rs424;} // end inline asm fma.rn.ftz.f32 %f1060, %f1056, %f771, %f1049; mov.b32 {%rs425, %rs433}, %r371; // begin inline asm { cvt.f32.f16 %f772, %rs425;} // end inline asm fma.rn.ftz.f32 %f1061, %f1056, %f772, %f1050; mov.b32 {%rs426, %rs434}, %r379; // begin inline asm { cvt.f32.f16 %f773, %rs426;} // end inline asm fma.rn.ftz.f32 %f1062, %f1056, %f773, %f1051; mov.b32 {%rs427, %rs435}, %r387; // begin inline asm { cvt.f32.f16 %f774, %rs427;} // end inline asm fma.rn.ftz.f32 %f1063, %f1056, %f774, %f1052; mov.b32 {%rs428, %rs436}, %r395; // begin inline asm { cvt.f32.f16 %f775, %rs428;} // end inline asm fma.rn.ftz.f32 %f1064, %f1056, %f775, %f1053; shr.u32 %r404, %r69, 12; cvt.u16.u32 %rs673, %r404; shl.b16 %rs674, %rs673, 4; cvt.s16.s8 %rs675, %rs674; shr.s16 %rs676, %rs675, 7; and.b16 %rs677, %rs676, -16; and.b16 %rs678, %rs673, 15; or.b16 %rs679, %rs677, %rs678; cvt.rn.f32.s16 %f1065, %rs679; sub.ftz.f32 %f1066, %f1065, %f10; mul.ftz.f32 %f1067, %f87, %f1066; // begin inline asm { cvt.f32.f16 %f776, %rs429;} // end inline asm fma.rn.ftz.f32 %f1068, %f1067, %f776, %f1057; // begin inline asm { cvt.f32.f16 %f777, %rs430;} // end inline asm fma.rn.ftz.f32 %f1069, %f1067, %f777, %f1058; // begin inline asm { cvt.f32.f16 %f778, %rs431;} // end inline asm fma.rn.ftz.f32 %f1070, %f1067, %f778, %f1059; // begin inline asm { cvt.f32.f16 %f779, %rs432;} // end inline asm fma.rn.ftz.f32 %f1071, %f1067, %f779, %f1060; // begin inline asm { cvt.f32.f16 %f780, %rs433;} // end inline asm fma.rn.ftz.f32 %f1072, %f1067, %f780, %f1061; // begin inline asm { cvt.f32.f16 %f781, %rs434;} // end inline asm fma.rn.ftz.f32 %f1073, %f1067, %f781, %f1062; // begin inline asm { cvt.f32.f16 %f782, %rs435;} // end inline asm fma.rn.ftz.f32 %f1074, %f1067, %f782, %f1063; // begin inline asm { cvt.f32.f16 %f783, %rs436;} // end inline asm fma.rn.ftz.f32 %f1075, %f1067, %f783, %f1064; shr.u32 %r405, %r69, 16; cvt.u16.u32 %rs680, %r405; shl.b16 %rs681, %rs680, 4; cvt.s16.s8 %rs682, %rs681; shr.s16 %rs683, %rs682, 7; and.b16 %rs684, %rs683, -16; and.b16 %rs685, %rs680, 15; or.b16 %rs686, %rs684, %rs685; cvt.rn.f32.s16 %f1076, %rs686; sub.ftz.f32 %f1077, %f1076, %f10; mul.ftz.f32 %f1078, %f87, %f1077; mov.b32 {%rs437, %rs445}, %r340; // begin inline asm { cvt.f32.f16 %f784, %rs437;} // end inline asm fma.rn.ftz.f32 %f1079, %f1078, %f784, %f1068; mov.b32 {%rs438, %rs446}, %r348; // begin inline asm { cvt.f32.f16 %f785, %rs438;} // end inline asm fma.rn.ftz.f32 %f1080, %f1078, %f785, %f1069; mov.b32 {%rs439, %rs447}, %r356; // begin inline asm { cvt.f32.f16 %f786, %rs439;} // end inline asm fma.rn.ftz.f32 %f1081, %f1078, %f786, %f1070; mov.b32 {%rs440, %rs448}, %r364; // begin inline asm { cvt.f32.f16 %f787, %rs440;} // end inline asm fma.rn.ftz.f32 %f1082, %f1078, %f787, %f1071; mov.b32 {%rs441, %rs449}, %r372; // begin inline asm { cvt.f32.f16 %f788, %rs441;} // end inline asm fma.rn.ftz.f32 %f1083, %f1078, %f788, %f1072; mov.b32 {%rs442, %rs450}, %r380; // begin inline asm { cvt.f32.f16 %f789, %rs442;} // end inline asm fma.rn.ftz.f32 %f1084, %f1078, %f789, %f1073; mov.b32 {%rs443, %rs451}, %r388; // begin inline asm { cvt.f32.f16 %f790, %rs443;} // end inline asm fma.rn.ftz.f32 %f1085, %f1078, %f790, %f1074; mov.b32 {%rs444, %rs452}, %r396; // begin inline asm { cvt.f32.f16 %f791, %rs444;} // end inline asm fma.rn.ftz.f32 %f1086, %f1078, %f791, %f1075; shr.u32 %r406, %r69, 20; cvt.u16.u32 %rs687, %r406; shl.b16 %rs688, %rs687, 4; cvt.s16.s8 %rs689, %rs688; shr.s16 %rs690, %rs689, 7; and.b16 %rs691, %rs690, -16; and.b16 %rs692, %rs687, 15; or.b16 %rs693, %rs691, %rs692; cvt.rn.f32.s16 %f1087, %rs693; sub.ftz.f32 %f1088, %f1087, %f10; mul.ftz.f32 %f1089, %f87, %f1088; // begin inline asm { cvt.f32.f16 %f792, %rs445;} // end inline asm fma.rn.ftz.f32 %f1090, %f1089, %f792, %f1079; // begin inline asm { cvt.f32.f16 %f793, %rs446;} // end inline asm fma.rn.ftz.f32 %f1091, %f1089, %f793, %f1080; // begin inline asm { cvt.f32.f16 %f794, %rs447;} // end inline asm fma.rn.ftz.f32 %f1092, %f1089, %f794, %f1081; // begin inline asm { cvt.f32.f16 %f795, %rs448;} // end inline asm fma.rn.ftz.f32 %f1093, %f1089, %f795, %f1082; // begin inline asm { cvt.f32.f16 %f796, %rs449;} // end inline asm fma.rn.ftz.f32 %f1094, %f1089, %f796, %f1083; // begin inline asm { cvt.f32.f16 %f797, %rs450;} // end inline asm fma.rn.ftz.f32 %f1095, %f1089, %f797, %f1084; // begin inline asm { cvt.f32.f16 %f798, %rs451;} // end inline asm fma.rn.ftz.f32 %f1096, %f1089, %f798, %f1085; // begin inline asm { cvt.f32.f16 %f799, %rs452;} // end inline asm fma.rn.ftz.f32 %f1097, %f1089, %f799, %f1086; shr.u32 %r407, %r69, 24; cvt.u16.u32 %rs694, %r407; shl.b16 %rs695, %rs694, 4; cvt.s16.s8 %rs696, %rs695; shr.s16 %rs697, %rs696, 7; and.b16 %rs698, %rs697, -16; and.b16 %rs699, %rs694, 15; or.b16 %rs700, %rs698, %rs699; cvt.rn.f32.s16 %f1098, %rs700; sub.ftz.f32 %f1099, %f1098, %f10; mul.ftz.f32 %f1100, %f87, %f1099; mov.b32 {%rs453, %rs461}, %r341; // begin inline asm { cvt.f32.f16 %f800, %rs453;} // end inline asm fma.rn.ftz.f32 %f1101, %f1100, %f800, %f1090; mov.b32 {%rs454, %rs462}, %r349; // begin inline asm { cvt.f32.f16 %f801, %rs454;} // end inline asm fma.rn.ftz.f32 %f1102, %f1100, %f801, %f1091; mov.b32 {%rs455, %rs463}, %r357; // begin inline asm { cvt.f32.f16 %f802, %rs455;} // end inline asm fma.rn.ftz.f32 %f1103, %f1100, %f802, %f1092; mov.b32 {%rs456, %rs464}, %r365; // begin inline asm { cvt.f32.f16 %f803, %rs456;} // end inline asm fma.rn.ftz.f32 %f1104, %f1100, %f803, %f1093; mov.b32 {%rs457, %rs465}, %r373; // begin inline asm { cvt.f32.f16 %f804, %rs457;} // end inline asm fma.rn.ftz.f32 %f1105, %f1100, %f804, %f1094; mov.b32 {%rs458, %rs466}, %r381; // begin inline asm { cvt.f32.f16 %f805, %rs458;} // end inline asm fma.rn.ftz.f32 %f1106, %f1100, %f805, %f1095; mov.b32 {%rs459, %rs467}, %r389; // begin inline asm { cvt.f32.f16 %f806, %rs459;} // end inline asm fma.rn.ftz.f32 %f1107, %f1100, %f806, %f1096; mov.b32 {%rs460, %rs468}, %r397; // begin inline asm { cvt.f32.f16 %f807, %rs460;} // end inline asm fma.rn.ftz.f32 %f1108, %f1100, %f807, %f1097; shr.u32 %r408, %r69, 28; cvt.u16.u32 %rs701, %r408; shl.b16 %rs702, %rs701, 4; cvt.s16.s8 %rs703, %rs702; shr.s16 %rs704, %rs703, 7; and.b16 %rs705, %rs704, -16; or.b16 %rs706, %rs705, %rs701; cvt.rn.f32.s16 %f1109, %rs706; sub.ftz.f32 %f1110, %f1109, %f10; mul.ftz.f32 %f1111, %f87, %f1110; // begin inline asm { cvt.f32.f16 %f808, %rs461;} // end inline asm fma.rn.ftz.f32 %f1112, %f1111, %f808, %f1101; // begin inline asm { cvt.f32.f16 %f809, %rs462;} // end inline asm fma.rn.ftz.f32 %f1113, %f1111, %f809, %f1102; // begin inline asm { cvt.f32.f16 %f810, %rs463;} // end inline asm fma.rn.ftz.f32 %f1114, %f1111, %f810, %f1103; // begin inline asm { cvt.f32.f16 %f811, %rs464;} // end inline asm fma.rn.ftz.f32 %f1115, %f1111, %f811, %f1104; // begin inline asm { cvt.f32.f16 %f812, %rs465;} // end inline asm fma.rn.ftz.f32 %f1116, %f1111, %f812, %f1105; // begin inline asm { cvt.f32.f16 %f813, %rs466;} // end inline asm fma.rn.ftz.f32 %f1117, %f1111, %f813, %f1106; // begin inline asm { cvt.f32.f16 %f814, %rs467;} // end inline asm fma.rn.ftz.f32 %f1118, %f1111, %f814, %f1107; // begin inline asm { cvt.f32.f16 %f815, %rs468;} // end inline asm fma.rn.ftz.f32 %f1119, %f1111, %f815, %f1108; ld.global.v4.u32 {%r409, %r410, %r411, %r412}, [%rd5+32]; ld.global.v4.u32 {%r417, %r418, %r419, %r420}, [%rd7+16]; ld.global.v4.u32 {%r425, %r426, %r427, %r428}, [%rd6+32]; ld.global.v4.u32 {%r433, %r434, %r435, %r436}, [%rd8+16]; ld.global.v4.u32 {%r441, %r442, %r443, %r444}, [%rd9+16]; ld.global.v4.u32 {%r449, %r450, %r451, %r452}, [%rd10+16]; ld.global.v4.u32 {%r457, %r458, %r459, %r460}, [%rd11+16]; ld.global.v4.u32 {%r465, %r466, %r467, %r468}, [%rd12+16]; cvt.u16.u32 %rs707, %r70; shl.b16 %rs708, %rs707, 4; cvt.s16.s8 %rs709, %rs708; shr.s16 %rs710, %rs709, 7; and.b16 %rs711, %rs710, -16; and.b16 %rs712, %rs707, 15; or.b16 %rs713, %rs711, %rs712; cvt.rn.f32.s16 %f1120, %rs713; sub.ftz.f32 %f1121, %f1120, %f10; mul.ftz.f32 %f1122, %f87, %f1121; mov.b32 {%rs469, %rs477}, %r409; // begin inline asm { cvt.f32.f16 %f816, %rs469;} // end inline asm fma.rn.ftz.f32 %f1123, %f1122, %f816, %f1112; mov.b32 {%rs470, %rs478}, %r417; // begin inline asm { cvt.f32.f16 %f817, %rs470;} // end inline asm fma.rn.ftz.f32 %f1124, %f1122, %f817, %f1113; mov.b32 {%rs471, %rs479}, %r425; // begin inline asm { cvt.f32.f16 %f818, %rs471;} // end inline asm fma.rn.ftz.f32 %f1125, %f1122, %f818, %f1114; mov.b32 {%rs472, %rs480}, %r433; // begin inline asm { cvt.f32.f16 %f819, %rs472;} // end inline asm fma.rn.ftz.f32 %f1126, %f1122, %f819, %f1115; mov.b32 {%rs473, %rs481}, %r441; // begin inline asm { cvt.f32.f16 %f820, %rs473;} // end inline asm fma.rn.ftz.f32 %f1127, %f1122, %f820, %f1116; mov.b32 {%rs474, %rs482}, %r449; // begin inline asm { cvt.f32.f16 %f821, %rs474;} // end inline asm fma.rn.ftz.f32 %f1128, %f1122, %f821, %f1117; mov.b32 {%rs475, %rs483}, %r457; // begin inline asm { cvt.f32.f16 %f822, %rs475;} // end inline asm fma.rn.ftz.f32 %f1129, %f1122, %f822, %f1118; mov.b32 {%rs476, %rs484}, %r465; // begin inline asm { cvt.f32.f16 %f823, %rs476;} // end inline asm fma.rn.ftz.f32 %f1130, %f1122, %f823, %f1119; shr.u32 %r473, %r70, 4; cvt.u16.u32 %rs714, %r473; shl.b16 %rs715, %rs714, 4; cvt.s16.s8 %rs716, %rs715; shr.s16 %rs717, %rs716, 7; and.b16 %rs718, %rs717, -16; and.b16 %rs719, %rs714, 15; or.b16 %rs720, %rs718, %rs719; cvt.rn.f32.s16 %f1131, %rs720; sub.ftz.f32 %f1132, %f1131, %f10; mul.ftz.f32 %f1133, %f87, %f1132; // begin inline asm { cvt.f32.f16 %f824, %rs477;} // end inline asm fma.rn.ftz.f32 %f1134, %f1133, %f824, %f1123; // begin inline asm { cvt.f32.f16 %f825, %rs478;} // end inline asm fma.rn.ftz.f32 %f1135, %f1133, %f825, %f1124; // begin inline asm { cvt.f32.f16 %f826, %rs479;} // end inline asm fma.rn.ftz.f32 %f1136, %f1133, %f826, %f1125; // begin inline asm { cvt.f32.f16 %f827, %rs480;} // end inline asm fma.rn.ftz.f32 %f1137, %f1133, %f827, %f1126; // begin inline asm { cvt.f32.f16 %f828, %rs481;} // end inline asm fma.rn.ftz.f32 %f1138, %f1133, %f828, %f1127; // begin inline asm { cvt.f32.f16 %f829, %rs482;} // end inline asm fma.rn.ftz.f32 %f1139, %f1133, %f829, %f1128; // begin inline asm { cvt.f32.f16 %f830, %rs483;} // end inline asm fma.rn.ftz.f32 %f1140, %f1133, %f830, %f1129; // begin inline asm { cvt.f32.f16 %f831, %rs484;} // end inline asm fma.rn.ftz.f32 %f1141, %f1133, %f831, %f1130; shr.u32 %r474, %r70, 8; cvt.u16.u32 %rs721, %r474; shl.b16 %rs722, %rs721, 4; cvt.s16.s8 %rs723, %rs722; shr.s16 %rs724, %rs723, 7; and.b16 %rs725, %rs724, -16; and.b16 %rs726, %rs721, 15; or.b16 %rs727, %rs725, %rs726; cvt.rn.f32.s16 %f1142, %rs727; sub.ftz.f32 %f1143, %f1142, %f10; mul.ftz.f32 %f1144, %f87, %f1143; mov.b32 {%rs485, %rs493}, %r410; // begin inline asm { cvt.f32.f16 %f832, %rs485;} // end inline asm fma.rn.ftz.f32 %f1145, %f1144, %f832, %f1134; mov.b32 {%rs486, %rs494}, %r418; // begin inline asm { cvt.f32.f16 %f833, %rs486;} // end inline asm fma.rn.ftz.f32 %f1146, %f1144, %f833, %f1135; mov.b32 {%rs487, %rs495}, %r426; // begin inline asm { cvt.f32.f16 %f834, %rs487;} // end inline asm fma.rn.ftz.f32 %f1147, %f1144, %f834, %f1136; mov.b32 {%rs488, %rs496}, %r434; // begin inline asm { cvt.f32.f16 %f835, %rs488;} // end inline asm fma.rn.ftz.f32 %f1148, %f1144, %f835, %f1137; mov.b32 {%rs489, %rs497}, %r442; // begin inline asm { cvt.f32.f16 %f836, %rs489;} // end inline asm fma.rn.ftz.f32 %f1149, %f1144, %f836, %f1138; mov.b32 {%rs490, %rs498}, %r450; // begin inline asm { cvt.f32.f16 %f837, %rs490;} // end inline asm fma.rn.ftz.f32 %f1150, %f1144, %f837, %f1139; mov.b32 {%rs491, %rs499}, %r458; // begin inline asm { cvt.f32.f16 %f838, %rs491;} // end inline asm fma.rn.ftz.f32 %f1151, %f1144, %f838, %f1140; mov.b32 {%rs492, %rs500}, %r466; // begin inline asm { cvt.f32.f16 %f839, %rs492;} // end inline asm fma.rn.ftz.f32 %f1152, %f1144, %f839, %f1141; shr.u32 %r475, %r70, 12; cvt.u16.u32 %rs728, %r475; shl.b16 %rs729, %rs728, 4; cvt.s16.s8 %rs730, %rs729; shr.s16 %rs731, %rs730, 7; and.b16 %rs732, %rs731, -16; and.b16 %rs733, %rs728, 15; or.b16 %rs734, %rs732, %rs733; cvt.rn.f32.s16 %f1153, %rs734; sub.ftz.f32 %f1154, %f1153, %f10; mul.ftz.f32 %f1155, %f87, %f1154; // begin inline asm { cvt.f32.f16 %f840, %rs493;} // end inline asm fma.rn.ftz.f32 %f1156, %f1155, %f840, %f1145; // begin inline asm { cvt.f32.f16 %f841, %rs494;} // end inline asm fma.rn.ftz.f32 %f1157, %f1155, %f841, %f1146; // begin inline asm { cvt.f32.f16 %f842, %rs495;} // end inline asm fma.rn.ftz.f32 %f1158, %f1155, %f842, %f1147; // begin inline asm { cvt.f32.f16 %f843, %rs496;} // end inline asm fma.rn.ftz.f32 %f1159, %f1155, %f843, %f1148; // begin inline asm { cvt.f32.f16 %f844, %rs497;} // end inline asm fma.rn.ftz.f32 %f1160, %f1155, %f844, %f1149; // begin inline asm { cvt.f32.f16 %f845, %rs498;} // end inline asm fma.rn.ftz.f32 %f1161, %f1155, %f845, %f1150; // begin inline asm { cvt.f32.f16 %f846, %rs499;} // end inline asm fma.rn.ftz.f32 %f1162, %f1155, %f846, %f1151; // begin inline asm { cvt.f32.f16 %f847, %rs500;} // end inline asm fma.rn.ftz.f32 %f1163, %f1155, %f847, %f1152; shr.u32 %r476, %r70, 16; cvt.u16.u32 %rs735, %r476; shl.b16 %rs736, %rs735, 4; cvt.s16.s8 %rs737, %rs736; shr.s16 %rs738, %rs737, 7; and.b16 %rs739, %rs738, -16; and.b16 %rs740, %rs735, 15; or.b16 %rs741, %rs739, %rs740; cvt.rn.f32.s16 %f1164, %rs741; sub.ftz.f32 %f1165, %f1164, %f10; mul.ftz.f32 %f1166, %f87, %f1165; mov.b32 {%rs501, %rs509}, %r411; // begin inline asm { cvt.f32.f16 %f848, %rs501;} // end inline asm fma.rn.ftz.f32 %f1167, %f1166, %f848, %f1156; mov.b32 {%rs502, %rs510}, %r419; // begin inline asm { cvt.f32.f16 %f849, %rs502;} // end inline asm fma.rn.ftz.f32 %f1168, %f1166, %f849, %f1157; mov.b32 {%rs503, %rs511}, %r427; // begin inline asm { cvt.f32.f16 %f850, %rs503;} // end inline asm fma.rn.ftz.f32 %f1169, %f1166, %f850, %f1158; mov.b32 {%rs504, %rs512}, %r435; // begin inline asm { cvt.f32.f16 %f851, %rs504;} // end inline asm fma.rn.ftz.f32 %f1170, %f1166, %f851, %f1159; mov.b32 {%rs505, %rs513}, %r443; // begin inline asm { cvt.f32.f16 %f852, %rs505;} // end inline asm fma.rn.ftz.f32 %f1171, %f1166, %f852, %f1160; mov.b32 {%rs506, %rs514}, %r451; // begin inline asm { cvt.f32.f16 %f853, %rs506;} // end inline asm fma.rn.ftz.f32 %f1172, %f1166, %f853, %f1161; mov.b32 {%rs507, %rs515}, %r459; // begin inline asm { cvt.f32.f16 %f854, %rs507;} // end inline asm fma.rn.ftz.f32 %f1173, %f1166, %f854, %f1162; mov.b32 {%rs508, %rs516}, %r467; // begin inline asm { cvt.f32.f16 %f855, %rs508;} // end inline asm fma.rn.ftz.f32 %f1174, %f1166, %f855, %f1163; shr.u32 %r477, %r70, 20; cvt.u16.u32 %rs742, %r477; shl.b16 %rs743, %rs742, 4; cvt.s16.s8 %rs744, %rs743; shr.s16 %rs745, %rs744, 7; and.b16 %rs746, %rs745, -16; and.b16 %rs747, %rs742, 15; or.b16 %rs748, %rs746, %rs747; cvt.rn.f32.s16 %f1175, %rs748; sub.ftz.f32 %f1176, %f1175, %f10; mul.ftz.f32 %f1177, %f87, %f1176; // begin inline asm { cvt.f32.f16 %f856, %rs509;} // end inline asm fma.rn.ftz.f32 %f1178, %f1177, %f856, %f1167; // begin inline asm { cvt.f32.f16 %f857, %rs510;} // end inline asm fma.rn.ftz.f32 %f1179, %f1177, %f857, %f1168; // begin inline asm { cvt.f32.f16 %f858, %rs511;} // end inline asm fma.rn.ftz.f32 %f1180, %f1177, %f858, %f1169; // begin inline asm { cvt.f32.f16 %f859, %rs512;} // end inline asm fma.rn.ftz.f32 %f1181, %f1177, %f859, %f1170; // begin inline asm { cvt.f32.f16 %f860, %rs513;} // end inline asm fma.rn.ftz.f32 %f1182, %f1177, %f860, %f1171; // begin inline asm { cvt.f32.f16 %f861, %rs514;} // end inline asm fma.rn.ftz.f32 %f1183, %f1177, %f861, %f1172; // begin inline asm { cvt.f32.f16 %f862, %rs515;} // end inline asm fma.rn.ftz.f32 %f1184, %f1177, %f862, %f1173; // begin inline asm { cvt.f32.f16 %f863, %rs516;} // end inline asm fma.rn.ftz.f32 %f1185, %f1177, %f863, %f1174; shr.u32 %r478, %r70, 24; cvt.u16.u32 %rs749, %r478; shl.b16 %rs750, %rs749, 4; cvt.s16.s8 %rs751, %rs750; shr.s16 %rs752, %rs751, 7; and.b16 %rs753, %rs752, -16; and.b16 %rs754, %rs749, 15; or.b16 %rs755, %rs753, %rs754; cvt.rn.f32.s16 %f1186, %rs755; sub.ftz.f32 %f1187, %f1186, %f10; mul.ftz.f32 %f1188, %f87, %f1187; mov.b32 {%rs517, %rs525}, %r412; // begin inline asm { cvt.f32.f16 %f864, %rs517;} // end inline asm fma.rn.ftz.f32 %f1189, %f1188, %f864, %f1178; mov.b32 {%rs518, %rs526}, %r420; // begin inline asm { cvt.f32.f16 %f865, %rs518;} // end inline asm fma.rn.ftz.f32 %f1190, %f1188, %f865, %f1179; mov.b32 {%rs519, %rs527}, %r428; // begin inline asm { cvt.f32.f16 %f866, %rs519;} // end inline asm fma.rn.ftz.f32 %f1191, %f1188, %f866, %f1180; mov.b32 {%rs520, %rs528}, %r436; // begin inline asm { cvt.f32.f16 %f867, %rs520;} // end inline asm fma.rn.ftz.f32 %f1192, %f1188, %f867, %f1181; mov.b32 {%rs521, %rs529}, %r444; // begin inline asm { cvt.f32.f16 %f868, %rs521;} // end inline asm fma.rn.ftz.f32 %f1193, %f1188, %f868, %f1182; mov.b32 {%rs522, %rs530}, %r452; // begin inline asm { cvt.f32.f16 %f869, %rs522;} // end inline asm fma.rn.ftz.f32 %f1194, %f1188, %f869, %f1183; mov.b32 {%rs523, %rs531}, %r460; // begin inline asm { cvt.f32.f16 %f870, %rs523;} // end inline asm fma.rn.ftz.f32 %f1195, %f1188, %f870, %f1184; mov.b32 {%rs524, %rs532}, %r468; // begin inline asm { cvt.f32.f16 %f871, %rs524;} // end inline asm fma.rn.ftz.f32 %f1196, %f1188, %f871, %f1185; shr.u32 %r479, %r70, 28; cvt.u16.u32 %rs756, %r479; shl.b16 %rs757, %rs756, 4; cvt.s16.s8 %rs758, %rs757; shr.s16 %rs759, %rs758, 7; and.b16 %rs760, %rs759, -16; or.b16 %rs761, %rs760, %rs756; cvt.rn.f32.s16 %f1197, %rs761; sub.ftz.f32 %f1198, %f1197, %f10; mul.ftz.f32 %f1199, %f87, %f1198; // begin inline asm { cvt.f32.f16 %f872, %rs525;} // end inline asm fma.rn.ftz.f32 %f1200, %f1199, %f872, %f1189; // begin inline asm { cvt.f32.f16 %f873, %rs526;} // end inline asm fma.rn.ftz.f32 %f1201, %f1199, %f873, %f1190; // begin inline asm { cvt.f32.f16 %f874, %rs527;} // end inline asm fma.rn.ftz.f32 %f1202, %f1199, %f874, %f1191; // begin inline asm { cvt.f32.f16 %f875, %rs528;} // end inline asm fma.rn.ftz.f32 %f1203, %f1199, %f875, %f1192; // begin inline asm { cvt.f32.f16 %f876, %rs529;} // end inline asm fma.rn.ftz.f32 %f1204, %f1199, %f876, %f1193; // begin inline asm { cvt.f32.f16 %f877, %rs530;} // end inline asm fma.rn.ftz.f32 %f1205, %f1199, %f877, %f1194; // begin inline asm { cvt.f32.f16 %f878, %rs531;} // end inline asm fma.rn.ftz.f32 %f1206, %f1199, %f878, %f1195; // begin inline asm { cvt.f32.f16 %f879, %rs532;} // end inline asm fma.rn.ftz.f32 %f1207, %f1199, %f879, %f1196; ld.global.v4.u32 {%r480, %r481, %r482, %r483}, [%rd5+48]; ld.global.v4.u32 {%r488, %r489, %r490, %r491}, [%rd7+32]; ld.global.v4.u32 {%r496, %r497, %r498, %r499}, [%rd6+48]; ld.global.v4.u32 {%r504, %r505, %r506, %r507}, [%rd8+32]; ld.global.v4.u32 {%r512, %r513, %r514, %r515}, [%rd9+32]; ld.global.v4.u32 {%r520, %r521, %r522, %r523}, [%rd10+32]; ld.global.v4.u32 {%r528, %r529, %r530, %r531}, [%rd11+32]; ld.global.v4.u32 {%r536, %r537, %r538, %r539}, [%rd12+32]; cvt.u16.u32 %rs762, %r71; shl.b16 %rs763, %rs762, 4; cvt.s16.s8 %rs764, %rs763; shr.s16 %rs765, %rs764, 7; and.b16 %rs766, %rs765, -16; and.b16 %rs767, %rs762, 15; or.b16 %rs768, %rs766, %rs767; cvt.rn.f32.s16 %f1208, %rs768; sub.ftz.f32 %f1209, %f1208, %f10; mul.ftz.f32 %f1210, %f87, %f1209; mov.b32 {%rs533, %rs541}, %r480; // begin inline asm { cvt.f32.f16 %f880, %rs533;} // end inline asm fma.rn.ftz.f32 %f1211, %f1210, %f880, %f1200; mov.b32 {%rs534, %rs542}, %r488; // begin inline asm { cvt.f32.f16 %f881, %rs534;} // end inline asm fma.rn.ftz.f32 %f1212, %f1210, %f881, %f1201; mov.b32 {%rs535, %rs543}, %r496; // begin inline asm { cvt.f32.f16 %f882, %rs535;} // end inline asm fma.rn.ftz.f32 %f1213, %f1210, %f882, %f1202; mov.b32 {%rs536, %rs544}, %r504; // begin inline asm { cvt.f32.f16 %f883, %rs536;} // end inline asm fma.rn.ftz.f32 %f1214, %f1210, %f883, %f1203; mov.b32 {%rs537, %rs545}, %r512; // begin inline asm { cvt.f32.f16 %f884, %rs537;} // end inline asm fma.rn.ftz.f32 %f1215, %f1210, %f884, %f1204; mov.b32 {%rs538, %rs546}, %r520; // begin inline asm { cvt.f32.f16 %f885, %rs538;} // end inline asm fma.rn.ftz.f32 %f1216, %f1210, %f885, %f1205; mov.b32 {%rs539, %rs547}, %r528; // begin inline asm { cvt.f32.f16 %f886, %rs539;} // end inline asm fma.rn.ftz.f32 %f1217, %f1210, %f886, %f1206; mov.b32 {%rs540, %rs548}, %r536; // begin inline asm { cvt.f32.f16 %f887, %rs540;} // end inline asm fma.rn.ftz.f32 %f1218, %f1210, %f887, %f1207; shr.u32 %r544, %r71, 4; cvt.u16.u32 %rs769, %r544; shl.b16 %rs770, %rs769, 4; cvt.s16.s8 %rs771, %rs770; shr.s16 %rs772, %rs771, 7; and.b16 %rs773, %rs772, -16; and.b16 %rs774, %rs769, 15; or.b16 %rs775, %rs773, %rs774; cvt.rn.f32.s16 %f1219, %rs775; sub.ftz.f32 %f1220, %f1219, %f10; mul.ftz.f32 %f1221, %f87, %f1220; // begin inline asm { cvt.f32.f16 %f888, %rs541;} // end inline asm fma.rn.ftz.f32 %f1222, %f1221, %f888, %f1211; // begin inline asm { cvt.f32.f16 %f889, %rs542;} // end inline asm fma.rn.ftz.f32 %f1223, %f1221, %f889, %f1212; // begin inline asm { cvt.f32.f16 %f890, %rs543;} // end inline asm fma.rn.ftz.f32 %f1224, %f1221, %f890, %f1213; // begin inline asm { cvt.f32.f16 %f891, %rs544;} // end inline asm fma.rn.ftz.f32 %f1225, %f1221, %f891, %f1214; // begin inline asm { cvt.f32.f16 %f892, %rs545;} // end inline asm fma.rn.ftz.f32 %f1226, %f1221, %f892, %f1215; // begin inline asm { cvt.f32.f16 %f893, %rs546;} // end inline asm fma.rn.ftz.f32 %f1227, %f1221, %f893, %f1216; // begin inline asm { cvt.f32.f16 %f894, %rs547;} // end inline asm fma.rn.ftz.f32 %f1228, %f1221, %f894, %f1217; // begin inline asm { cvt.f32.f16 %f895, %rs548;} // end inline asm fma.rn.ftz.f32 %f1229, %f1221, %f895, %f1218; shr.u32 %r545, %r71, 8; cvt.u16.u32 %rs776, %r545; shl.b16 %rs777, %rs776, 4; cvt.s16.s8 %rs778, %rs777; shr.s16 %rs779, %rs778, 7; and.b16 %rs780, %rs779, -16; and.b16 %rs781, %rs776, 15; or.b16 %rs782, %rs780, %rs781; cvt.rn.f32.s16 %f1230, %rs782; sub.ftz.f32 %f1231, %f1230, %f10; mul.ftz.f32 %f1232, %f87, %f1231; mov.b32 {%rs549, %rs557}, %r481; // begin inline asm { cvt.f32.f16 %f896, %rs549;} // end inline asm fma.rn.ftz.f32 %f1233, %f1232, %f896, %f1222; mov.b32 {%rs550, %rs558}, %r489; // begin inline asm { cvt.f32.f16 %f897, %rs550;} // end inline asm fma.rn.ftz.f32 %f1234, %f1232, %f897, %f1223; mov.b32 {%rs551, %rs559}, %r497; // begin inline asm { cvt.f32.f16 %f898, %rs551;} // end inline asm fma.rn.ftz.f32 %f1235, %f1232, %f898, %f1224; mov.b32 {%rs552, %rs560}, %r505; // begin inline asm { cvt.f32.f16 %f899, %rs552;} // end inline asm fma.rn.ftz.f32 %f1236, %f1232, %f899, %f1225; mov.b32 {%rs553, %rs561}, %r513; // begin inline asm { cvt.f32.f16 %f900, %rs553;} // end inline asm fma.rn.ftz.f32 %f1237, %f1232, %f900, %f1226; mov.b32 {%rs554, %rs562}, %r521; // begin inline asm { cvt.f32.f16 %f901, %rs554;} // end inline asm fma.rn.ftz.f32 %f1238, %f1232, %f901, %f1227; mov.b32 {%rs555, %rs563}, %r529; // begin inline asm { cvt.f32.f16 %f902, %rs555;} // end inline asm fma.rn.ftz.f32 %f1239, %f1232, %f902, %f1228; mov.b32 {%rs556, %rs564}, %r537; // begin inline asm { cvt.f32.f16 %f903, %rs556;} // end inline asm fma.rn.ftz.f32 %f1240, %f1232, %f903, %f1229; shr.u32 %r546, %r71, 12; cvt.u16.u32 %rs783, %r546; shl.b16 %rs784, %rs783, 4; cvt.s16.s8 %rs785, %rs784; shr.s16 %rs786, %rs785, 7; and.b16 %rs787, %rs786, -16; and.b16 %rs788, %rs783, 15; or.b16 %rs789, %rs787, %rs788; cvt.rn.f32.s16 %f1241, %rs789; sub.ftz.f32 %f1242, %f1241, %f10; mul.ftz.f32 %f1243, %f87, %f1242; // begin inline asm { cvt.f32.f16 %f904, %rs557;} // end inline asm fma.rn.ftz.f32 %f1244, %f1243, %f904, %f1233; // begin inline asm { cvt.f32.f16 %f905, %rs558;} // end inline asm fma.rn.ftz.f32 %f1245, %f1243, %f905, %f1234; // begin inline asm { cvt.f32.f16 %f906, %rs559;} // end inline asm fma.rn.ftz.f32 %f1246, %f1243, %f906, %f1235; // begin inline asm { cvt.f32.f16 %f907, %rs560;} // end inline asm fma.rn.ftz.f32 %f1247, %f1243, %f907, %f1236; // begin inline asm { cvt.f32.f16 %f908, %rs561;} // end inline asm fma.rn.ftz.f32 %f1248, %f1243, %f908, %f1237; // begin inline asm { cvt.f32.f16 %f909, %rs562;} // end inline asm fma.rn.ftz.f32 %f1249, %f1243, %f909, %f1238; // begin inline asm { cvt.f32.f16 %f910, %rs563;} // end inline asm fma.rn.ftz.f32 %f1250, %f1243, %f910, %f1239; // begin inline asm { cvt.f32.f16 %f911, %rs564;} // end inline asm fma.rn.ftz.f32 %f1251, %f1243, %f911, %f1240; shr.u32 %r547, %r71, 16; cvt.u16.u32 %rs790, %r547; shl.b16 %rs791, %rs790, 4; cvt.s16.s8 %rs792, %rs791; shr.s16 %rs793, %rs792, 7; and.b16 %rs794, %rs793, -16; and.b16 %rs795, %rs790, 15; or.b16 %rs796, %rs794, %rs795; cvt.rn.f32.s16 %f1252, %rs796; sub.ftz.f32 %f1253, %f1252, %f10; mul.ftz.f32 %f1254, %f87, %f1253; mov.b32 {%rs565, %rs573}, %r482; // begin inline asm { cvt.f32.f16 %f912, %rs565;} // end inline asm fma.rn.ftz.f32 %f1255, %f1254, %f912, %f1244; mov.b32 {%rs566, %rs574}, %r490; // begin inline asm { cvt.f32.f16 %f913, %rs566;} // end inline asm fma.rn.ftz.f32 %f1256, %f1254, %f913, %f1245; mov.b32 {%rs567, %rs575}, %r498; // begin inline asm { cvt.f32.f16 %f914, %rs567;} // end inline asm fma.rn.ftz.f32 %f1257, %f1254, %f914, %f1246; mov.b32 {%rs568, %rs576}, %r506; // begin inline asm { cvt.f32.f16 %f915, %rs568;} // end inline asm fma.rn.ftz.f32 %f1258, %f1254, %f915, %f1247; mov.b32 {%rs569, %rs577}, %r514; // begin inline asm { cvt.f32.f16 %f916, %rs569;} // end inline asm fma.rn.ftz.f32 %f1259, %f1254, %f916, %f1248; mov.b32 {%rs570, %rs578}, %r522; // begin inline asm { cvt.f32.f16 %f917, %rs570;} // end inline asm fma.rn.ftz.f32 %f1260, %f1254, %f917, %f1249; mov.b32 {%rs571, %rs579}, %r530; // begin inline asm { cvt.f32.f16 %f918, %rs571;} // end inline asm fma.rn.ftz.f32 %f1261, %f1254, %f918, %f1250; mov.b32 {%rs572, %rs580}, %r538; // begin inline asm { cvt.f32.f16 %f919, %rs572;} // end inline asm fma.rn.ftz.f32 %f1262, %f1254, %f919, %f1251; shr.u32 %r548, %r71, 20; cvt.u16.u32 %rs797, %r548; shl.b16 %rs798, %rs797, 4; cvt.s16.s8 %rs799, %rs798; shr.s16 %rs800, %rs799, 7; and.b16 %rs801, %rs800, -16; and.b16 %rs802, %rs797, 15; or.b16 %rs803, %rs801, %rs802; cvt.rn.f32.s16 %f1263, %rs803; sub.ftz.f32 %f1264, %f1263, %f10; mul.ftz.f32 %f1265, %f87, %f1264; // begin inline asm { cvt.f32.f16 %f920, %rs573;} // end inline asm fma.rn.ftz.f32 %f1266, %f1265, %f920, %f1255; // begin inline asm { cvt.f32.f16 %f921, %rs574;} // end inline asm fma.rn.ftz.f32 %f1267, %f1265, %f921, %f1256; // begin inline asm { cvt.f32.f16 %f922, %rs575;} // end inline asm fma.rn.ftz.f32 %f1268, %f1265, %f922, %f1257; // begin inline asm { cvt.f32.f16 %f923, %rs576;} // end inline asm fma.rn.ftz.f32 %f1269, %f1265, %f923, %f1258; // begin inline asm { cvt.f32.f16 %f924, %rs577;} // end inline asm fma.rn.ftz.f32 %f1270, %f1265, %f924, %f1259; // begin inline asm { cvt.f32.f16 %f925, %rs578;} // end inline asm fma.rn.ftz.f32 %f1271, %f1265, %f925, %f1260; // begin inline asm { cvt.f32.f16 %f926, %rs579;} // end inline asm fma.rn.ftz.f32 %f1272, %f1265, %f926, %f1261; // begin inline asm { cvt.f32.f16 %f927, %rs580;} // end inline asm fma.rn.ftz.f32 %f1273, %f1265, %f927, %f1262; shr.u32 %r549, %r71, 24; cvt.u16.u32 %rs804, %r549; shl.b16 %rs805, %rs804, 4; cvt.s16.s8 %rs806, %rs805; shr.s16 %rs807, %rs806, 7; and.b16 %rs808, %rs807, -16; and.b16 %rs809, %rs804, 15; or.b16 %rs810, %rs808, %rs809; cvt.rn.f32.s16 %f1274, %rs810; sub.ftz.f32 %f1275, %f1274, %f10; mul.ftz.f32 %f1276, %f87, %f1275; mov.b32 {%rs581, %rs589}, %r483; // begin inline asm { cvt.f32.f16 %f928, %rs581;} // end inline asm fma.rn.ftz.f32 %f1277, %f1276, %f928, %f1266; mov.b32 {%rs582, %rs590}, %r491; // begin inline asm { cvt.f32.f16 %f929, %rs582;} // end inline asm fma.rn.ftz.f32 %f1278, %f1276, %f929, %f1267; mov.b32 {%rs583, %rs591}, %r499; // begin inline asm { cvt.f32.f16 %f930, %rs583;} // end inline asm fma.rn.ftz.f32 %f1279, %f1276, %f930, %f1268; mov.b32 {%rs584, %rs592}, %r507; // begin inline asm { cvt.f32.f16 %f931, %rs584;} // end inline asm fma.rn.ftz.f32 %f1280, %f1276, %f931, %f1269; mov.b32 {%rs585, %rs593}, %r515; // begin inline asm { cvt.f32.f16 %f932, %rs585;} // end inline asm fma.rn.ftz.f32 %f1281, %f1276, %f932, %f1270; mov.b32 {%rs586, %rs594}, %r523; // begin inline asm { cvt.f32.f16 %f933, %rs586;} // end inline asm fma.rn.ftz.f32 %f1282, %f1276, %f933, %f1271; mov.b32 {%rs587, %rs595}, %r531; // begin inline asm { cvt.f32.f16 %f934, %rs587;} // end inline asm fma.rn.ftz.f32 %f1283, %f1276, %f934, %f1272; mov.b32 {%rs588, %rs596}, %r539; // begin inline asm { cvt.f32.f16 %f935, %rs588;} // end inline asm fma.rn.ftz.f32 %f1284, %f1276, %f935, %f1273; shr.u32 %r550, %r71, 28; cvt.u16.u32 %rs811, %r550; shl.b16 %rs812, %rs811, 4; cvt.s16.s8 %rs813, %rs812; shr.s16 %rs814, %rs813, 7; and.b16 %rs815, %rs814, -16; or.b16 %rs816, %rs815, %rs811; cvt.rn.f32.s16 %f1285, %rs816; sub.ftz.f32 %f1286, %f1285, %f10; mul.ftz.f32 %f1287, %f87, %f1286; // begin inline asm { cvt.f32.f16 %f936, %rs589;} // end inline asm fma.rn.ftz.f32 %f1487, %f1287, %f936, %f1277; // begin inline asm { cvt.f32.f16 %f937, %rs590;} // end inline asm fma.rn.ftz.f32 %f1486, %f1287, %f937, %f1278; // begin inline asm { cvt.f32.f16 %f938, %rs591;} // end inline asm fma.rn.ftz.f32 %f1485, %f1287, %f938, %f1279; // begin inline asm { cvt.f32.f16 %f939, %rs592;} // end inline asm fma.rn.ftz.f32 %f1484, %f1287, %f939, %f1280; // begin inline asm { cvt.f32.f16 %f940, %rs593;} // end inline asm fma.rn.ftz.f32 %f1483, %f1287, %f940, %f1281; // begin inline asm { cvt.f32.f16 %f941, %rs594;} // end inline asm fma.rn.ftz.f32 %f1482, %f1287, %f941, %f1282; // begin inline asm { cvt.f32.f16 %f942, %rs595;} // end inline asm fma.rn.ftz.f32 %f1481, %f1287, %f942, %f1283; // begin inline asm { cvt.f32.f16 %f943, %rs596;} // end inline asm fma.rn.ftz.f32 %f1480, %f1287, %f943, %f1284; $L__BB0_8: add.s32 %r764, %r764, 4; shl.b32 %r551, %r764, 5; add.s32 %r763, %r551, %r64; shl.b32 %r762, %r763, 2; setp.lt.u32 %p7, %r762, %r61; @%p7 bra $L__BB0_2; $L__BB0_9: mov.u32 %r553, %tid.y; shl.b32 %r554, %r553, 5; add.s32 %r52, %r554, %r64; setp.lt.u32 %p8, %r52, 32; shl.b32 %r556, %r52, 2; mov.u32 %r557, _ZZ9gemv_int4ILi4ELi128ELi8EEvP6__halfPKS0_S3_PKjPKhS3_iiiiffbE12temp_storage; add.s32 %r558, %r557, %r556; @%p8 bra $L__BB0_11; add.s32 %r754, %r558, -112; st.shared.f32 [%r754], %f1487; $L__BB0_11: setp.gt.u32 %p9, %r52, 31; bar.sync 0; mad.lo.s32 %r54, %r52, 12, %r557; @%p9 bra $L__BB0_13; mov.u32 %r577, 16; ld.shared.f32 %f1303, [%r54+16]; add.ftz.f32 %f1304, %f1487, %f1303; ld.shared.f32 %f1305, [%r54+20]; add.ftz.f32 %f1306, %f1304, %f1305; ld.shared.f32 %f1307, [%r54+24]; add.ftz.f32 %f1290, %f1306, %f1307; mov.u32 %r565, 1; mov.u32 %r578, 31; mov.u32 %r579, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1290, %r565, %r578, %r579; @p add.f32 r0, r0, %f1290; mov.f32 %f1288, r0;} // end inline asm mov.u32 %r568, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1288, %r568, %r578, %r579; @p add.f32 r0, r0, %f1288; mov.f32 %f1291, r0;} // end inline asm mov.u32 %r571, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1291, %r571, %r578, %r579; @p add.f32 r0, r0, %f1291; mov.f32 %f1294, r0;} // end inline asm mov.u32 %r574, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1294, %r574, %r578, %r579; @p add.f32 r0, r0, %f1294; mov.f32 %f1297, r0;} // end inline asm // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1297, %r577, %r578, %r579; @p add.f32 r0, r0, %f1297; mov.f32 %f1487, r0;} // end inline asm $L__BB0_13: @%p8 bra $L__BB0_15; add.s32 %r755, %r558, -112; st.shared.f32 [%r755+640], %f1486; $L__BB0_15: bar.sync 0; @%p9 bra $L__BB0_17; ld.shared.f32 %f1323, [%r54+656]; add.ftz.f32 %f1324, %f1486, %f1323; ld.shared.f32 %f1325, [%r54+660]; add.ftz.f32 %f1326, %f1324, %f1325; ld.shared.f32 %f1327, [%r54+664]; add.ftz.f32 %f1310, %f1326, %f1327; mov.u32 %r589, 1; mov.u32 %r602, 31; mov.u32 %r603, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1310, %r589, %r602, %r603; @p add.f32 r0, r0, %f1310; mov.f32 %f1308, r0;} // end inline asm mov.u32 %r592, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1308, %r592, %r602, %r603; @p add.f32 r0, r0, %f1308; mov.f32 %f1311, r0;} // end inline asm mov.u32 %r595, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1311, %r595, %r602, %r603; @p add.f32 r0, r0, %f1311; mov.f32 %f1314, r0;} // end inline asm mov.u32 %r598, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1314, %r598, %r602, %r603; @p add.f32 r0, r0, %f1314; mov.f32 %f1317, r0;} // end inline asm mov.u32 %r601, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1317, %r601, %r602, %r603; @p add.f32 r0, r0, %f1317; mov.f32 %f1486, r0;} // end inline asm $L__BB0_17: @%p8 bra $L__BB0_19; add.s32 %r756, %r558, -112; st.shared.f32 [%r756+1280], %f1485; $L__BB0_19: bar.sync 0; @%p9 bra $L__BB0_21; ld.shared.f32 %f1343, [%r54+1296]; add.ftz.f32 %f1344, %f1485, %f1343; ld.shared.f32 %f1345, [%r54+1300]; add.ftz.f32 %f1346, %f1344, %f1345; ld.shared.f32 %f1347, [%r54+1304]; add.ftz.f32 %f1330, %f1346, %f1347; mov.u32 %r613, 1; mov.u32 %r626, 31; mov.u32 %r627, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1330, %r613, %r626, %r627; @p add.f32 r0, r0, %f1330; mov.f32 %f1328, r0;} // end inline asm mov.u32 %r616, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1328, %r616, %r626, %r627; @p add.f32 r0, r0, %f1328; mov.f32 %f1331, r0;} // end inline asm mov.u32 %r619, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1331, %r619, %r626, %r627; @p add.f32 r0, r0, %f1331; mov.f32 %f1334, r0;} // end inline asm mov.u32 %r622, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1334, %r622, %r626, %r627; @p add.f32 r0, r0, %f1334; mov.f32 %f1337, r0;} // end inline asm mov.u32 %r625, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1337, %r625, %r626, %r627; @p add.f32 r0, r0, %f1337; mov.f32 %f1485, r0;} // end inline asm $L__BB0_21: @%p8 bra $L__BB0_23; add.s32 %r757, %r558, -112; st.shared.f32 [%r757+1920], %f1484; $L__BB0_23: bar.sync 0; @%p9 bra $L__BB0_25; ld.shared.f32 %f1363, [%r54+1936]; add.ftz.f32 %f1364, %f1484, %f1363; ld.shared.f32 %f1365, [%r54+1940]; add.ftz.f32 %f1366, %f1364, %f1365; ld.shared.f32 %f1367, [%r54+1944]; add.ftz.f32 %f1350, %f1366, %f1367; mov.u32 %r637, 1; mov.u32 %r650, 31; mov.u32 %r651, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1350, %r637, %r650, %r651; @p add.f32 r0, r0, %f1350; mov.f32 %f1348, r0;} // end inline asm mov.u32 %r640, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1348, %r640, %r650, %r651; @p add.f32 r0, r0, %f1348; mov.f32 %f1351, r0;} // end inline asm mov.u32 %r643, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1351, %r643, %r650, %r651; @p add.f32 r0, r0, %f1351; mov.f32 %f1354, r0;} // end inline asm mov.u32 %r646, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1354, %r646, %r650, %r651; @p add.f32 r0, r0, %f1354; mov.f32 %f1357, r0;} // end inline asm mov.u32 %r649, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1357, %r649, %r650, %r651; @p add.f32 r0, r0, %f1357; mov.f32 %f1484, r0;} // end inline asm $L__BB0_25: @%p8 bra $L__BB0_27; add.s32 %r758, %r558, -112; st.shared.f32 [%r758+2560], %f1483; $L__BB0_27: bar.sync 0; @%p9 bra $L__BB0_29; ld.shared.f32 %f1383, [%r54+2576]; add.ftz.f32 %f1384, %f1483, %f1383; ld.shared.f32 %f1385, [%r54+2580]; add.ftz.f32 %f1386, %f1384, %f1385; ld.shared.f32 %f1387, [%r54+2584]; add.ftz.f32 %f1370, %f1386, %f1387; mov.u32 %r661, 1; mov.u32 %r674, 31; mov.u32 %r675, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1370, %r661, %r674, %r675; @p add.f32 r0, r0, %f1370; mov.f32 %f1368, r0;} // end inline asm mov.u32 %r664, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1368, %r664, %r674, %r675; @p add.f32 r0, r0, %f1368; mov.f32 %f1371, r0;} // end inline asm mov.u32 %r667, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1371, %r667, %r674, %r675; @p add.f32 r0, r0, %f1371; mov.f32 %f1374, r0;} // end inline asm mov.u32 %r670, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1374, %r670, %r674, %r675; @p add.f32 r0, r0, %f1374; mov.f32 %f1377, r0;} // end inline asm mov.u32 %r673, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1377, %r673, %r674, %r675; @p add.f32 r0, r0, %f1377; mov.f32 %f1483, r0;} // end inline asm $L__BB0_29: @%p8 bra $L__BB0_31; add.s32 %r759, %r558, -112; st.shared.f32 [%r759+3200], %f1482; $L__BB0_31: bar.sync 0; @%p9 bra $L__BB0_33; ld.shared.f32 %f1403, [%r54+3216]; add.ftz.f32 %f1404, %f1482, %f1403; ld.shared.f32 %f1405, [%r54+3220]; add.ftz.f32 %f1406, %f1404, %f1405; ld.shared.f32 %f1407, [%r54+3224]; add.ftz.f32 %f1390, %f1406, %f1407; mov.u32 %r685, 1; mov.u32 %r698, 31; mov.u32 %r699, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1390, %r685, %r698, %r699; @p add.f32 r0, r0, %f1390; mov.f32 %f1388, r0;} // end inline asm mov.u32 %r688, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1388, %r688, %r698, %r699; @p add.f32 r0, r0, %f1388; mov.f32 %f1391, r0;} // end inline asm mov.u32 %r691, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1391, %r691, %r698, %r699; @p add.f32 r0, r0, %f1391; mov.f32 %f1394, r0;} // end inline asm mov.u32 %r694, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1394, %r694, %r698, %r699; @p add.f32 r0, r0, %f1394; mov.f32 %f1397, r0;} // end inline asm mov.u32 %r697, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1397, %r697, %r698, %r699; @p add.f32 r0, r0, %f1397; mov.f32 %f1482, r0;} // end inline asm $L__BB0_33: @%p8 bra $L__BB0_35; add.s32 %r760, %r558, -112; st.shared.f32 [%r760+3840], %f1481; $L__BB0_35: bar.sync 0; @%p9 bra $L__BB0_37; ld.shared.f32 %f1423, [%r54+3856]; add.ftz.f32 %f1424, %f1481, %f1423; ld.shared.f32 %f1425, [%r54+3860]; add.ftz.f32 %f1426, %f1424, %f1425; ld.shared.f32 %f1427, [%r54+3864]; add.ftz.f32 %f1410, %f1426, %f1427; mov.u32 %r709, 1; mov.u32 %r722, 31; mov.u32 %r723, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1410, %r709, %r722, %r723; @p add.f32 r0, r0, %f1410; mov.f32 %f1408, r0;} // end inline asm mov.u32 %r712, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1408, %r712, %r722, %r723; @p add.f32 r0, r0, %f1408; mov.f32 %f1411, r0;} // end inline asm mov.u32 %r715, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1411, %r715, %r722, %r723; @p add.f32 r0, r0, %f1411; mov.f32 %f1414, r0;} // end inline asm mov.u32 %r718, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1414, %r718, %r722, %r723; @p add.f32 r0, r0, %f1414; mov.f32 %f1417, r0;} // end inline asm mov.u32 %r721, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1417, %r721, %r722, %r723; @p add.f32 r0, r0, %f1417; mov.f32 %f1481, r0;} // end inline asm $L__BB0_37: @%p8 bra $L__BB0_39; add.s32 %r761, %r558, -112; st.shared.f32 [%r761+4480], %f1480; $L__BB0_39: bar.sync 0; @%p9 bra $L__BB0_41; ld.shared.f32 %f1443, [%r54+4496]; add.ftz.f32 %f1444, %f1480, %f1443; ld.shared.f32 %f1445, [%r54+4500]; add.ftz.f32 %f1446, %f1444, %f1445; ld.shared.f32 %f1447, [%r54+4504]; add.ftz.f32 %f1430, %f1446, %f1447; mov.u32 %r733, 1; mov.u32 %r746, 31; mov.u32 %r747, -1; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1430, %r733, %r746, %r747; @p add.f32 r0, r0, %f1430; mov.f32 %f1428, r0;} // end inline asm mov.u32 %r736, 2; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1428, %r736, %r746, %r747; @p add.f32 r0, r0, %f1428; mov.f32 %f1431, r0;} // end inline asm mov.u32 %r739, 4; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1431, %r739, %r746, %r747; @p add.f32 r0, r0, %f1431; mov.f32 %f1434, r0;} // end inline asm mov.u32 %r742, 8; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1434, %r742, %r746, %r747; @p add.f32 r0, r0, %f1434; mov.f32 %f1437, r0;} // end inline asm mov.u32 %r745, 16; // begin inline asm { .reg .f32 r0; .reg .pred p; shfl.sync.down.b32 r0|p, %f1437, %r745, %r746, %r747; @p add.f32 r0, r0, %f1437; mov.f32 %f1480, r0;} // end inline asm $L__BB0_41: or.b32 %r750, %r64, %r553; setp.ne.s32 %p24, %r750, 0; @%p24 bra $L__BB0_45; ld.param.u64 %rd77, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0+8]; ld.param.u64 %rd76, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0]; cvta.to.global.u64 %rd49, %rd76; setp.eq.s64 %p25, %rd77, 0; mul.ftz.f32 %f59, %f77, %f1487; mov.u32 %r751, %ctaid.x; cvt.s64.s32 %rd14, %r751; mul.wide.s32 %rd50, %r751, 2; add.s64 %rd15, %rd49, %rd50; mul.ftz.f32 %f60, %f77, %f1486; add.s32 %r752, %r60, %r751; cvt.s64.s32 %rd16, %r60; mul.wide.s32 %rd51, %r60, 2; add.s64 %rd17, %rd15, %rd51; mul.ftz.f32 %f61, %f77, %f1485; add.s32 %r753, %r752, %r60; cvt.s64.s32 %rd18, %r753; mul.wide.s32 %rd52, %r753, 2; add.s64 %rd20, %rd49, %rd52; mul.ftz.f32 %f62, %f77, %f1484; mul.ftz.f32 %f63, %f77, %f1483; mul.ftz.f32 %f64, %f77, %f1482; mul.ftz.f32 %f65, %f77, %f1481; mul.ftz.f32 %f66, %f77, %f1480; @%p25 bra $L__BB0_44; ld.param.u64 %rd78, [_Z28dequant_gemv_group128_batch823DequantGemvKernelParams_param_0+8]; cvta.to.global.u64 %rd53, %rd78; shl.b64 %rd54, %rd14, 1; add.s64 %rd55, %rd53, %rd54; ld.global.u16 %rs817, [%rd55]; // begin inline asm { cvt.f32.f16 %f1448, %rs817;} // end inline asm fma.rn.ftz.f32 %f1449, %f78, %f1448, %f59; // begin inline asm { cvt.rn.f16.f32 %rs818, %f1449;} // end inline asm st.global.u16 [%rd15], %rs818; shl.b64 %rd56, %rd16, 1; add.s64 %rd57, %rd55, %rd56; ld.global.u16 %rs819, [%rd57]; // begin inline asm { cvt.f32.f16 %f1450, %rs819;} // end inline asm fma.rn.ftz.f32 %f1451, %f78, %f1450, %f60; // begin inline asm { cvt.rn.f16.f32 %rs820, %f1451;} // end inline asm st.global.u16 [%rd17], %rs820; shl.b64 %rd58, %rd18, 1; add.s64 %rd59, %rd53, %rd58; ld.global.u16 %rs821, [%rd59]; // begin inline asm { cvt.f32.f16 %f1452, %rs821;} // end inline asm fma.rn.ftz.f32 %f1453, %f78, %f1452, %f61; // begin inline asm { cvt.rn.f16.f32 %rs822, %f1453;} // end inline asm st.global.u16 [%rd20], %rs822; add.s64 %rd60, %rd59, %rd56; ld.global.u16 %rs823, [%rd60]; // begin inline asm { cvt.f32.f16 %f1454, %rs823;} // end inline asm fma.rn.ftz.f32 %f1455, %f78, %f1454, %f62; // begin inline asm { cvt.rn.f16.f32 %rs824, %f1455;} // end inline asm add.s64 %rd61, %rd20, %rd56; st.global.u16 [%rd61], %rs824; add.s64 %rd62, %rd60, %rd56; ld.global.u16 %rs825, [%rd62]; // begin inline asm { cvt.f32.f16 %f1456, %rs825;} // end inline asm fma.rn.ftz.f32 %f1457, %f78, %f1456, %f63; // begin inline asm { cvt.rn.f16.f32 %rs826, %f1457;} // end inline asm add.s64 %rd63, %rd61, %rd56; st.global.u16 [%rd63], %rs826; add.s64 %rd64, %rd62, %rd56; ld.global.u16 %rs827, [%rd64]; // begin inline asm { cvt.f32.f16 %f1458, %rs827;} // end inline asm fma.rn.ftz.f32 %f1459, %f78, %f1458, %f64; // begin inline asm { cvt.rn.f16.f32 %rs828, %f1459;} // end inline asm add.s64 %rd65, %rd63, %rd56; st.global.u16 [%rd65], %rs828; add.s64 %rd66, %rd64, %rd56; ld.global.u16 %rs829, [%rd66]; // begin inline asm { cvt.f32.f16 %f1460, %rs829;} // end inline asm fma.rn.ftz.f32 %f1461, %f78, %f1460, %f65; // begin inline asm { cvt.rn.f16.f32 %rs830, %f1461;} // end inline asm add.s64 %rd67, %rd65, %rd56; st.global.u16 [%rd67], %rs830; add.s64 %rd68, %rd66, %rd56; ld.global.u16 %rs831, [%rd68]; // begin inline asm { cvt.f32.f16 %f1462, %rs831;} // end inline asm fma.rn.ftz.f32 %f1463, %f78, %f1462, %f66; // begin inline asm { cvt.rn.f16.f32 %rs832, %f1463;} // end inline asm add.s64 %rd69, %rd67, %rd56; st.global.u16 [%rd69], %rs832; bra.uni $L__BB0_45; $L__BB0_44: // begin inline asm { cvt.rn.f16.f32 %rs833, %f59;} // end inline asm st.global.u16 [%rd15], %rs833; // begin inline asm { cvt.rn.f16.f32 %rs834, %f60;} // end inline asm st.global.u16 [%rd17], %rs834; // begin inline asm { cvt.rn.f16.f32 %rs835, %f61;} // end inline asm st.global.u16 [%rd20], %rs835; // begin inline asm { cvt.rn.f16.f32 %rs836, %f62;} // end inline asm shl.b64 %rd70, %rd16, 1; add.s64 %rd71, %rd20, %rd70; st.global.u16 [%rd71], %rs836; // begin inline asm { cvt.rn.f16.f32 %rs837, %f63;} // end inline asm add.s64 %rd72, %rd71, %rd70; st.global.u16 [%rd72], %rs837; // begin inline asm { cvt.rn.f16.f32 %rs838, %f64;} // end inline asm add.s64 %rd73, %rd72, %rd70; st.global.u16 [%rd73], %rs838; // begin inline asm { cvt.rn.f16.f32 %rs839, %f65;} // end inline asm add.s64 %rd74, %rd73, %rd70; st.global.u16 [%rd74], %rs839; // begin inline asm { cvt.rn.f16.f32 %rs840, %f66;} // end inline asm add.s64 %rd75, %rd74, %rd70; st.global.u16 [%rd75], %rs840; $L__BB0_45: ret; } // .globl _ZN3cub11EmptyKernelIvEEvv .visible .entry _ZN3cub11EmptyKernelIvEEvv() { ret; }