Изменения

Многопоточность в машинном обучении

2106 байт добавлено, 04:38, 9 января 2021

Подсветка кода

Пример перемножения матриц на cuBLAS

void gpu_blas_mmul(cublasHandle_t &handle, '''const ''' float *A, '''const ''' float *B, float *C, '''const ''' int m, '''const ''' int k, '''const ''' int n) { int lda = m, ldb = k, ldc = m; '''const ''' float alf = 1; '''const ''' float bet = 0; '''const ''' float *alpha = &alf; '''const ''' float *beta = &bet; ''// Do the actual multiplication''

cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);

}

Пример перемножения матриц на PyCUDA

'''import ''' '''pycuda.gpuarray ''' '''as ''' '''gpuarray''' '''import ''' '''numpy ''' '''as ''' '''np''' '''import ''' '''skcuda.linalg ''' '''as ''' '''linalg''' ''# --- Initializations'' '''import ''' '''pycuda.autoinit'''

linalg.init()

C_gpu = linalg.dot(A_gpu, B_gpu)

print(np.dot(A, B)) print(C_gpu)

Наивная реализация перемножения матриц на OpenCL

''// First naive implementation'' __kernel void myGEMM1('''const ''' int M, '''const ''' int N, '''const ''' int K, '''const ''' __global float *A, '''const ''' __global float *B, __global float *C) {

''// Thread identifiers'' '''const ''' int globalRow = get_global_id(0); ''// Row ID of C (0..M)'' '''const ''' int globalCol = get_global_id(1); ''// Col ID of C (0..N)''

''// Compute a single element (loop over K)'' float acc = 0.0f; '''for ''' (int k = 0; k < K; k++) {

acc += A[k * M + globalRow] * B[globalCol * K + k];

}

''// Store the result''

C[globalCol * M + globalRow] = acc;

}

Skozelko

10

правок

Изменения

Многопоточность в машинном обучении

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты