1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
|
#!/bin/bash
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 5329 -n 80 -k 64 --alpha 1.0 --lda 5329 --stride_a 341056 --ldb 64 --stride_b 5120 --beta 0.0 --ldc 5329 --stride_c 426320 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 64 -k 192 --alpha 1.0 --lda 1225 --stride_a 235200 --ldb 192 --stride_b 12288 --beta 0.0 --ldc 1225 --stride_c 78400 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 48 -k 192 --alpha 1.0 --lda 1225 --stride_a 235200 --ldb 192 --stride_b 9216 --beta 0.0 --ldc 1225 --stride_c 58800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 32 -k 192 --alpha 1.0 --lda 1225 --stride_a 235200 --ldb 192 --stride_b 6144 --beta 0.0 --ldc 1225 --stride_c 39200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 64 -k 256 --alpha 1.0 --lda 1225 --stride_a 313600 --ldb 256 --stride_b 16384 --beta 0.0 --ldc 1225 --stride_c 78400 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 48 -k 256 --alpha 1.0 --lda 1225 --stride_a 313600 --ldb 256 --stride_b 12288 --beta 0.0 --ldc 1225 --stride_c 58800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 64 -k 288 --alpha 1.0 --lda 1225 --stride_a 352800 --ldb 288 --stride_b 18432 --beta 0.0 --ldc 1225 --stride_c 78400 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 48 -k 288 --alpha 1.0 --lda 1225 --stride_a 352800 --ldb 288 --stride_b 13824 --beta 0.0 --ldc 1225 --stride_c 58800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 289 -n 192 -k 768 --alpha 1.0 --lda 289 --stride_a 221952 --ldb 768 --stride_b 147456 --beta 0.0 --ldc 289 --stride_c 55488 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 289 -n 128 -k 768 --alpha 1.0 --lda 289 --stride_a 221952 --ldb 768 --stride_b 98304 --beta 0.0 --ldc 289 --stride_c 36992 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 289 -n 160 -k 768 --alpha 1.0 --lda 289 --stride_a 221952 --ldb 768 --stride_b 122880 --beta 0.0 --ldc 289 --stride_c 46240 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 320 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 409600 --beta 0.0 --ldc 64 --stride_c 20480 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 384 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 491520 --beta 0.0 --ldc 64 --stride_c 24576 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 448 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 573440 --beta 0.0 --ldc 64 --stride_c 28672 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 192 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 245760 --beta 0.0 --ldc 64 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 320 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 655360 --beta 0.0 --ldc 64 --stride_c 20480 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 384 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 786432 --beta 0.0 --ldc 64 --stride_c 24576 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 448 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 917504 --beta 0.0 --ldc 64 --stride_c 28672 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 192 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 393216 --beta 0.0 --ldc 64 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 3136 -n 256 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 16384 --beta 0.0 --ldc 3136 --stride_c 802816 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 3136 -n 64 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 4096 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 3136 -n 64 -k 256 --alpha 1.0 --lda 3136 --stride_a 802816 --ldb 256 --stride_b 16384 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 784 -n 512 -k 128 --alpha 1.0 --lda 784 --stride_a 100352 --ldb 128 --stride_b 65536 --beta 0.0 --ldc 784 --stride_c 401408 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 784 -n 128 -k 512 --alpha 1.0 --lda 784 --stride_a 401408 --ldb 512 --stride_b 65536 --beta 0.0 --ldc 784 --stride_c 100352 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 196 -n 1024 -k 256 --alpha 1.0 --lda 196 --stride_a 50176 --ldb 256 --stride_b 262144 --beta 0.0 --ldc 196 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 196 -n 256 -k 1024 --alpha 1.0 --lda 196 --stride_a 200704 --ldb 1024 --stride_b 262144 --beta 0.0 --ldc 196 --stride_c 50176 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 49 -n 2048 -k 512 --alpha 1.0 --lda 49 --stride_a 25088 --ldb 512 --stride_b 1048576 --beta 0.0 --ldc 49 --stride_c 100352 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 49 -n 512 -k 2048 --alpha 1.0 --lda 49 --stride_a 100352 --ldb 2048 --stride_b 1048576 --beta 0.0 --ldc 49 --stride_c 25088 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 5329 -n 64 -k 80 --alpha 1.0 --lda 5329 --stride_a 426320 --ldb 80 --stride_b 320 --beta 0.0 --ldc 5329 --stride_c 341056 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 192 -k 64 --alpha 1.0 --lda 1225 --stride_a 78400 --ldb 64 --stride_b 256 --beta 0.0 --ldc 1225 --stride_c 235200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 192 -k 48 --alpha 1.0 --lda 1225 --stride_a 58800 --ldb 48 --stride_b 192 --beta 0.0 --ldc 1225 --stride_c 235200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 192 -k 32 --alpha 1.0 --lda 1225 --stride_a 39200 --ldb 32 --stride_b 128 --beta 0.0 --ldc 1225 --stride_c 235200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 256 -k 64 --alpha 1.0 --lda 1225 --stride_a 78400 --ldb 64 --stride_b 256 --beta 0.0 --ldc 1225 --stride_c 313600 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 256 -k 48 --alpha 1.0 --lda 1225 --stride_a 58800 --ldb 48 --stride_b 192 --beta 0.0 --ldc 1225 --stride_c 313600 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 288 -k 64 --alpha 1.0 --lda 1225 --stride_a 78400 --ldb 64 --stride_b 256 --beta 0.0 --ldc 1225 --stride_c 352800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 288 -k 48 --alpha 1.0 --lda 1225 --stride_a 58800 --ldb 48 --stride_b 192 --beta 0.0 --ldc 1225 --stride_c 352800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 289 -n 768 -k 192 --alpha 1.0 --lda 289 --stride_a 55488 --ldb 192 --stride_b 768 --beta 0.0 --ldc 289 --stride_c 221952 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 289 -n 768 -k 128 --alpha 1.0 --lda 289 --stride_a 36992 --ldb 128 --stride_b 512 --beta 0.0 --ldc 289 --stride_c 221952 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 289 -n 768 -k 160 --alpha 1.0 --lda 289 --stride_a 46240 --ldb 160 --stride_b 640 --beta 0.0 --ldc 289 --stride_c 221952 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 320 --alpha 1.0 --lda 64 --stride_a 20480 --ldb 320 --stride_b 1280 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 384 --alpha 1.0 --lda 64 --stride_a 24576 --ldb 384 --stride_b 1536 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 448 --alpha 1.0 --lda 64 --stride_a 28672 --ldb 448 --stride_b 1792 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 192 --alpha 1.0 --lda 64 --stride_a 12288 --ldb 192 --stride_b 768 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 320 --alpha 1.0 --lda 64 --stride_a 20480 --ldb 320 --stride_b 1280 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 384 --alpha 1.0 --lda 64 --stride_a 24576 --ldb 384 --stride_b 1536 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 448 --alpha 1.0 --lda 64 --stride_a 28672 --ldb 448 --stride_b 1792 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 192 --alpha 1.0 --lda 64 --stride_a 12288 --ldb 192 --stride_b 768 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3136 -n 64 -k 256 --alpha 1.0 --lda 3136 --stride_a 802816 --ldb 256 --stride_b 1024 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3136 -n 64 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 256 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3136 -n 256 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 256 --beta 0.0 --ldc 3136 --stride_c 802816 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 784 -n 128 -k 512 --alpha 1.0 --lda 784 --stride_a 401408 --ldb 512 --stride_b 2048 --beta 0.0 --ldc 784 --stride_c 100352 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 784 -n 512 -k 128 --alpha 1.0 --lda 784 --stride_a 100352 --ldb 128 --stride_b 512 --beta 0.0 --ldc 784 --stride_c 401408 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 196 -n 256 -k 1024 --alpha 1.0 --lda 196 --stride_a 200704 --ldb 1024 --stride_b 4096 --beta 0.0 --ldc 196 --stride_c 50176 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 196 -n 1024 -k 256 --alpha 1.0 --lda 196 --stride_a 50176 --ldb 256 --stride_b 1024 --beta 0.0 --ldc 196 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 49 -n 512 -k 2048 --alpha 1.0 --lda 49 --stride_a 100352 --ldb 2048 --stride_b 8192 --beta 0.0 --ldc 49 --stride_c 25088 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 49 -n 2048 -k 512 --alpha 1.0 --lda 49 --stride_a 25088 --ldb 512 --stride_b 2048 --beta 0.0 --ldc 49 --stride_c 100352 --batch 64
|