File: sgemm_flexbatch_strided.sh

package info (click to toggle)
rocblas 6.4.4-3
  • links: PTS, VCS
  • area: main
  • in suites: sid
  • size: 1,082,776 kB
  • sloc: cpp: 244,923; f90: 50,012; python: 50,003; sh: 24,630; asm: 8,917; makefile: 151; ansic: 107; xml: 36; awk: 14
file content (58 lines) | stat: -rwxr-xr-x 12,084 bytes parent folder | download | duplicates (2)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
#!/bin/bash

./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 5329 -n 80 -k 64 --alpha 1.0 --lda 5329 --stride_a 341056 --ldb 64 --stride_b 5120 --beta 0.0 --ldc 5329 --stride_c 426320 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 64 -k 192 --alpha 1.0 --lda 1225 --stride_a 235200 --ldb 192 --stride_b 12288 --beta 0.0 --ldc 1225 --stride_c 78400 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 48 -k 192 --alpha 1.0 --lda 1225 --stride_a 235200 --ldb 192 --stride_b 9216 --beta 0.0 --ldc 1225 --stride_c 58800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 32 -k 192 --alpha 1.0 --lda 1225 --stride_a 235200 --ldb 192 --stride_b 6144 --beta 0.0 --ldc 1225 --stride_c 39200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 64 -k 256 --alpha 1.0 --lda 1225 --stride_a 313600 --ldb 256 --stride_b 16384 --beta 0.0 --ldc 1225 --stride_c 78400 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 48 -k 256 --alpha 1.0 --lda 1225 --stride_a 313600 --ldb 256 --stride_b 12288 --beta 0.0 --ldc 1225 --stride_c 58800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 64 -k 288 --alpha 1.0 --lda 1225 --stride_a 352800 --ldb 288 --stride_b 18432 --beta 0.0 --ldc 1225 --stride_c 78400 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 48 -k 288 --alpha 1.0 --lda 1225 --stride_a 352800 --ldb 288 --stride_b 13824 --beta 0.0 --ldc 1225 --stride_c 58800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 289 -n 192 -k 768 --alpha 1.0 --lda 289 --stride_a 221952 --ldb 768 --stride_b 147456 --beta 0.0 --ldc 289 --stride_c 55488 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 289 -n 128 -k 768 --alpha 1.0 --lda 289 --stride_a 221952 --ldb 768 --stride_b 98304 --beta 0.0 --ldc 289 --stride_c 36992 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 289 -n 160 -k 768 --alpha 1.0 --lda 289 --stride_a 221952 --ldb 768 --stride_b 122880 --beta 0.0 --ldc 289 --stride_c 46240 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 320 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 409600 --beta 0.0 --ldc 64 --stride_c 20480 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 384 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 491520 --beta 0.0 --ldc 64 --stride_c 24576 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 448 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 573440 --beta 0.0 --ldc 64 --stride_c 28672 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 192 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 245760 --beta 0.0 --ldc 64 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 320 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 655360 --beta 0.0 --ldc 64 --stride_c 20480 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 384 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 786432 --beta 0.0 --ldc 64 --stride_c 24576 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 448 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 917504 --beta 0.0 --ldc 64 --stride_c 28672 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 192 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 393216 --beta 0.0 --ldc 64 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 3136 -n 256 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 16384 --beta 0.0 --ldc 3136 --stride_c 802816 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 3136 -n 64 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 4096 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 3136 -n 64 -k 256 --alpha 1.0 --lda 3136 --stride_a 802816 --ldb 256 --stride_b 16384 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 784 -n 512 -k 128 --alpha 1.0 --lda 784 --stride_a 100352 --ldb 128 --stride_b 65536 --beta 0.0 --ldc 784 --stride_c 401408 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 784 -n 128 -k 512 --alpha 1.0 --lda 784 --stride_a 401408 --ldb 512 --stride_b 65536 --beta 0.0 --ldc 784 --stride_c 100352 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 196 -n 1024 -k 256 --alpha 1.0 --lda 196 --stride_a 50176 --ldb 256 --stride_b 262144 --beta 0.0 --ldc 196 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 196 -n 256 -k 1024 --alpha 1.0 --lda 196 --stride_a 200704 --ldb 1024 --stride_b 262144 --beta 0.0 --ldc 196 --stride_c 50176 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 49 -n 2048 -k 512 --alpha 1.0 --lda 49 --stride_a 25088 --ldb 512 --stride_b 1048576 --beta 0.0 --ldc 49 --stride_c 100352 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 49 -n 512 -k 2048 --alpha 1.0 --lda 49 --stride_a 100352 --ldb 2048 --stride_b 1048576 --beta 0.0 --ldc 49 --stride_c 25088 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 5329 -n 64 -k 80 --alpha 1.0 --lda 5329 --stride_a 426320 --ldb 80 --stride_b 320 --beta 0.0 --ldc 5329 --stride_c 341056 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 192 -k 64 --alpha 1.0 --lda 1225 --stride_a 78400 --ldb 64 --stride_b 256 --beta 0.0 --ldc 1225 --stride_c 235200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 192 -k 48 --alpha 1.0 --lda 1225 --stride_a 58800 --ldb 48 --stride_b 192 --beta 0.0 --ldc 1225 --stride_c 235200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 192 -k 32 --alpha 1.0 --lda 1225 --stride_a 39200 --ldb 32 --stride_b 128 --beta 0.0 --ldc 1225 --stride_c 235200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 256 -k 64 --alpha 1.0 --lda 1225 --stride_a 78400 --ldb 64 --stride_b 256 --beta 0.0 --ldc 1225 --stride_c 313600 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 256 -k 48 --alpha 1.0 --lda 1225 --stride_a 58800 --ldb 48 --stride_b 192 --beta 0.0 --ldc 1225 --stride_c 313600 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 288 -k 64 --alpha 1.0 --lda 1225 --stride_a 78400 --ldb 64 --stride_b 256 --beta 0.0 --ldc 1225 --stride_c 352800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 288 -k 48 --alpha 1.0 --lda 1225 --stride_a 58800 --ldb 48 --stride_b 192 --beta 0.0 --ldc 1225 --stride_c 352800 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 289 -n 768 -k 192 --alpha 1.0 --lda 289 --stride_a 55488 --ldb 192 --stride_b 768 --beta 0.0 --ldc 289 --stride_c 221952 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 289 -n 768 -k 128 --alpha 1.0 --lda 289 --stride_a 36992 --ldb 128 --stride_b 512 --beta 0.0 --ldc 289 --stride_c 221952 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 289 -n 768 -k 160 --alpha 1.0 --lda 289 --stride_a 46240 --ldb 160 --stride_b 640 --beta 0.0 --ldc 289 --stride_c 221952 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 320 --alpha 1.0 --lda 64 --stride_a 20480 --ldb 320 --stride_b 1280 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 384 --alpha 1.0 --lda 64 --stride_a 24576 --ldb 384 --stride_b 1536 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 448 --alpha 1.0 --lda 64 --stride_a 28672 --ldb 448 --stride_b 1792 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 192 --alpha 1.0 --lda 64 --stride_a 12288 --ldb 192 --stride_b 768 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 320 --alpha 1.0 --lda 64 --stride_a 20480 --ldb 320 --stride_b 1280 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 384 --alpha 1.0 --lda 64 --stride_a 24576 --ldb 384 --stride_b 1536 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 448 --alpha 1.0 --lda 64 --stride_a 28672 --ldb 448 --stride_b 1792 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 192 --alpha 1.0 --lda 64 --stride_a 12288 --ldb 192 --stride_b 768 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3136 -n 64 -k 256 --alpha 1.0 --lda 3136 --stride_a 802816 --ldb 256 --stride_b 1024 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3136 -n 64 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 256 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3136 -n 256 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 256 --beta 0.0 --ldc 3136 --stride_c 802816 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 784 -n 128 -k 512 --alpha 1.0 --lda 784 --stride_a 401408 --ldb 512 --stride_b 2048 --beta 0.0 --ldc 784 --stride_c 100352 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 784 -n 512 -k 128 --alpha 1.0 --lda 784 --stride_a 100352 --ldb 128 --stride_b 512 --beta 0.0 --ldc 784 --stride_c 401408 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 196 -n 256 -k 1024 --alpha 1.0 --lda 196 --stride_a 200704 --ldb 1024 --stride_b 4096 --beta 0.0 --ldc 196 --stride_c 50176 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 196 -n 1024 -k 256 --alpha 1.0 --lda 196 --stride_a 50176 --ldb 256 --stride_b 1024 --beta 0.0 --ldc 196 --stride_c 200704 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 49 -n 512 -k 2048 --alpha 1.0 --lda 49 --stride_a 100352 --ldb 2048 --stride_b 8192 --beta 0.0 --ldc 49 --stride_c 25088 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 49 -n 2048 -k 512 --alpha 1.0 --lda 49 --stride_a 25088 --ldb 512 --stride_b 2048 --beta 0.0 --ldc 49 --stride_c 100352 --batch 64