1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291
|
#!/bin/bash
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 22016 --alpha 1.0 --lda 256 --ldb 22016 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 768 -n 215 -k 2048 --alpha 1.0 --lda 768 --ldb 2048 --beta 0.0 --ldc 768 --ldd 768 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 44505 --alpha 1.0 --lda 256 --ldb 44505 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 13568 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 17152 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 17152 --alpha 1.0 --lda 256 --ldb 17152 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 16128 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 33536 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 33536 --alpha 1.0 --lda 256 --ldb 33536 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 20480 --alpha 1.0 --lda 256 --ldb 20480 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 22016 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 7168 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 18944 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 14336 --alpha 1.0 --lda 256 --ldb 14336 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 9728 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 8960 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 9984 --alpha 1.0 --lda 256 --ldb 9984 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 5632 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 28672 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 7424 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 12288 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 10496 --alpha 1.0 --lda 256 --ldb 10496 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 7424 --alpha 1.0 --lda 256 --ldb 7424 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 12288 --alpha 1.0 --lda 256 --ldb 12288 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 19712 --alpha 1.0 --lda 256 --ldb 19712 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 10496 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 23552 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 6400 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 21504 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 20480 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 13312 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 5888 --alpha 1.0 --lda 256 --ldb 5888 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 11520 --alpha 1.0 --lda 256 --ldb 11520 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 8448 --alpha 1.0 --lda 256 --ldb 8448 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 4352 --alpha 1.0 --lda 256 --ldb 4352 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 9984 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 2048 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 4608 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 3328 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 7168 --alpha 1.0 --lda 256 --ldb 7168 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 8192 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 3072 --alpha 1.0 --lda 256 --ldb 3072 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 768 -n 256 -k 2048 --alpha 1.0 --lda 768 --ldb 2048 --beta 0.0 --ldc 768 --ldd 768 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 19712 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 5632 --alpha 1.0 --lda 256 --ldb 5632 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 40448 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 7936 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 1792 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 10240 --alpha 1.0 --lda 256 --ldb 10240 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 20992 --alpha 1.0 --lda 256 --ldb 20992 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 2560 --alpha 1.0 --lda 256 --ldb 2560 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 15104 --alpha 1.0 --lda 256 --ldb 15104 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 2816 --alpha 1.0 --lda 256 --ldb 2816 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 2304 --alpha 1.0 --lda 256 --ldb 2304 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 14848 --alpha 1.0 --lda 256 --ldb 14848 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 11264 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 9472 --alpha 1.0 --lda 256 --ldb 9472 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 15872 --alpha 1.0 --lda 256 --ldb 15872 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 20992 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 8448 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 11008 --alpha 1.0 --lda 256 --ldb 11008 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 4096 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 7680 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 8960 --alpha 1.0 --lda 256 --ldb 8960 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 6656 --alpha 1.0 --lda 256 --ldb 6656 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 5376 --alpha 1.0 --lda 256 --ldb 5376 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 10240 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 2048 --alpha 1.0 --lda 256 --ldb 2048 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 512 -n 215 -k 2048 --alpha 1.0 --lda 512 --ldb 2048 --beta 0.0 --ldc 512 --ldd 512 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 6144 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 1536 --alpha 1.0 --lda 256 --ldb 1536 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 3840 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 512 -n 256 -k 2048 --alpha 1.0 --lda 512 --ldb 2048 --beta 0.0 --ldc 512 --ldd 512 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 15104 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 9728 --alpha 1.0 --lda 256 --ldb 9728 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 14592 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 5120 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 6144 --alpha 1.0 --lda 256 --ldb 6144 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 11520 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 14848 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 8704 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 8192 --alpha 1.0 --lda 256 --ldb 8192 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 3072 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 4864 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 19968 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 2560 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 4864 --alpha 1.0 --lda 256 --ldb 4864 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 19968 --alpha 1.0 --lda 256 --ldb 19968 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 14336 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 11008 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 26112 --alpha 1.0 --lda 256 --ldb 26112 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 22016 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 22016 -k 8976 --alpha 1.0 --lda 256 --ldb 22016 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 15104 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 15104 -k 8976 --alpha 1.0 --lda 256 --ldb 15104 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 19968 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 13568 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 13568 -k 8976 --alpha 1.0 --lda 256 --ldb 13568 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 19712 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 17152 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 17152 -k 8976 --alpha 1.0 --lda 256 --ldb 17152 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 16128 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 16128 -k 8976 --alpha 1.0 --lda 256 --ldb 16128 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 33536 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 33536 -k 8976 --alpha 1.0 --lda 256 --ldb 33536 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 20480 -k 8976 --alpha 1.0 --lda 256 --ldb 20480 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 1280 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 1280 -k 8976 --alpha 1.0 --lda 256 --ldb 1280 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 15872 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 13312 -k 8976 --alpha 1.0 --lda 256 --ldb 13312 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 18944 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 5632 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 6400 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 3584 -k 8976 --alpha 1.0 --lda 256 --ldb 3584 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 6144 -k 8976 --alpha 1.0 --lda 256 --ldb 6144 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 20992 -k 8976 --alpha 1.0 --lda 256 --ldb 20992 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 17408 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 5888 -k 8976 --alpha 1.0 --lda 256 --ldb 5888 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 11008 -k 8976 --alpha 1.0 --lda 256 --ldb 11008 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 12032 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 7168 -k 8976 --alpha 1.0 --lda 256 --ldb 7168 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 2816 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 11520 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 7680 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 2816 -k 8976 --alpha 1.0 --lda 256 --ldb 2816 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 3328 -k 8976 --alpha 1.0 --lda 256 --ldb 3328 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 10496 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 14336 -k 8976 --alpha 1.0 --lda 256 --ldb 14336 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 12544 -k 8976 --alpha 1.0 --lda 256 --ldb 12544 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 14336 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 9728 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 10496 -k 8976 --alpha 1.0 --lda 256 --ldb 10496 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 19968 -k 8976 --alpha 1.0 --lda 256 --ldb 19968 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 21504 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 8192 -k 8976 --alpha 1.0 --lda 256 --ldb 8192 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 2560 -k 8976 --alpha 1.0 --lda 256 --ldb 2560 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 9984 -k 8976 --alpha 1.0 --lda 256 --ldb 9984 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 12800 -k 8976 --alpha 1.0 --lda 256 --ldb 12800 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 3328 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 32512 -k 8976 --alpha 1.0 --lda 256 --ldb 32512 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 3840 -k 8976 --alpha 1.0 --lda 256 --ldb 3840 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 5120 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 44505 -k 8976 --alpha 1.0 --lda 256 --ldb 44505 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 768 -n 2048 -k 256 --alpha 1.0 --lda 768 --ldb 2048 --beta 0.0 --ldc 768 --ldd 768 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 8448 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 14848 -k 8976 --alpha 1.0 --lda 256 --ldb 14848 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 28672 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 5120 -k 8976 --alpha 1.0 --lda 256 --ldb 5120 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 5632 -k 8976 --alpha 1.0 --lda 256 --ldb 5632 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 21248 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 9984 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 21248 -k 8976 --alpha 1.0 --lda 256 --ldb 21248 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 2304 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 11264 -k 8976 --alpha 1.0 --lda 256 --ldb 11264 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 4608 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 4096 -k 8976 --alpha 1.0 --lda 256 --ldb 4096 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 3072 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 8192 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 7936 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 3584 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 10240 -k 8976 --alpha 1.0 --lda 256 --ldb 10240 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 4096 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 14848 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 512 -n 2048 -k 256 --alpha 1.0 --lda 512 --ldb 2048 --beta 0.0 --ldc 512 --ldd 512 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 26112 -k 8976 --alpha 1.0 --lda 256 --ldb 26112 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 17408 -k 8976 --alpha 1.0 --lda 256 --ldb 17408 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 11776 -k 8976 --alpha 1.0 --lda 256 --ldb 11776 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 8960 -k 8976 --alpha 1.0 --lda 256 --ldb 8960 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 5376 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 9728 -k 8976 --alpha 1.0 --lda 256 --ldb 9728 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 1024 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 4352 -k 8976 --alpha 1.0 --lda 256 --ldb 4352 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 11520 -k 8976 --alpha 1.0 --lda 256 --ldb 11520 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 18688 -k 8976 --alpha 1.0 --lda 256 --ldb 18688 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 4352 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 6144 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 4864 -k 8976 --alpha 1.0 --lda 256 --ldb 4864 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 15872 -k 8976 --alpha 1.0 --lda 256 --ldb 15872 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 684 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 684 --ldd 684 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 684 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 1536 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 1536 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 22344 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 114 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 18176 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 18176 --ldd 18176 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 18176 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 15104 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 15104 --ldd 15104 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 15104 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 44505 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 44505 --ldd 44505 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 114 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 44505 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 215 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 215 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 19968 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 19968 --ldd 19968 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 16128 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 16128 --ldd 16128 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 33536 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 33536 --ldd 33536 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 33536 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 20992 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 20992 --ldd 20992 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 20992 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 20480 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 20480 --ldd 20480 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 19712 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 19712 --ldd 19712 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1280 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 1280 --ldd 1280 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 1280 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 7168 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 22016 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 13568 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 13568 --ldd 13568 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 18944 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 31488 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 3072 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 3072 --ldd 3072 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 9984 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 9984 --ldd 9984 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 9984 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 256 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 5888 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 5888 --ldd 5888 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 5888 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 13312 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 13312 --ldd 13312 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 11776 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 9728 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 9728 --ldd 9728 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 15360 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 15360 --ldd 15360 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 7424 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2816 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 2816 --ldd 2816 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 10496 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 10496 --ldd 10496 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 21248 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 21248 --ldd 21248 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 14336 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 6400 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 18688 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 18688 --ldd 18688 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 23296 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 9472 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 9472 --ldd 9472 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 18944 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 18944 --ldd 18944 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 3584 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 3328 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 3328 --ldd 3328 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 13312 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 3328 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 6400 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 6400 --ldd 6400 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 7936 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 15872 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 15872 --ldd 15872 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 5376 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 2560 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 13824 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 13824 --ldd 13824 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 4352 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 4352 --ldd 4352 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 11776 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 11776 --ldd 11776 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 2304 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 2816 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 684 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 7936 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 7936 --ldd 7936 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 11264 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 11264 --ldd 11264 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 6656 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 21504 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 4096 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 4096 --ldd 4096 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1792 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 1792 --ldd 1792 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 28672 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 28672 --ldd 28672 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 31488 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 31488 --ldd 31488 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 11520 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 1536 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 5376 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 5376 --ldd 5376 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 6144 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 8448 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 5632 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 5632 --ldd 5632 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 256 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 19200 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 4864 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 4864 --ldd 4864 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 16128 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 12544 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 6144 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 6144 --ldd 6144 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 8448 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 8448 --ldd 8448 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2304 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 2304 --ldd 2304 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 4608 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 12544 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 12544 --ldd 12544 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 8960 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 8960 --ldd 8960 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 20480 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 5120 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 5120 --ldd 5120 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 8192 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 8192 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 8192 --ldd 8192 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 14848 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 23552 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 10496 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 14592 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2560 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 2560 --ldd 2560 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 11264 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 4608 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 4608 --ldd 4608 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 8960 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 10240 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 10240 --ldd 10240 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 21248 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 3840 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 3840 --ldd 3840 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 23552 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 23552 --ldd 23552 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 684 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 7168 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 7168 --ldd 7168 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 4864 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s
./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 17152 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 17152 --ldd 17152 --compute_type s
|