Example 05: BLAS Operations

This example demonstrates how to perform Basic Linear Algebra Subprograms (BLAS) operations in SLATE.

Key Concepts

Matrix Multiplication: Using slate::multiply (gemm, hemm, symm) for matrix products.
Rank Updates: Performing rank-k (herk, syrk) and rank-2k (her2k, syr2k) updates.
Triangular Operations: Triangular matrix multiplication (trmm) and solving triangular systems (trsm).
Simplified vs Traditional API: Comparing the descriptive multiply API with the traditional BLAS-named API.

C++ Example

General Matrix Multiplication (GEMM) (Lines 36-40)

// C = alpha A B + beta C
slate::multiply( alpha, A, B, beta, C );  // simplified API
slate::gemm( alpha, A, B, beta, C );      // traditional API

Here we perform the standard operation \(C = \alpha AB + \beta C\).

A is an m by k matrix.
B is a k by n matrix.
C is an m by n matrix.

SLATE provides both a descriptive multiply routine and the traditional BLAS-named gemm. They are equivalent.

GPU Execution with Options (Lines 43-52)

if (blas::get_device_count() > 0) {
    slate::Options opts = {
        { slate::Option::Lookahead, 2 },
        { slate::Option::Target, slate::Target::Devices },
    };
    slate::multiply( alpha, A, B, beta, C, opts );
}

Most SLATE routines accept an Options map as the final argument. Here we:

Set Target::Devices to offload computation to GPUs.
Set Lookahead to 2 to overlap communication and computation.

Transposed Multiplication (Lines 77-83)

auto AT = transpose( A );
auto BH = conj_transpose( B );
slate::multiply( alpha, AT, BH, beta, C );

To compute \(C = \alpha A^T B^H + \beta C\), we simply create transposed views AT and BH and pass them to the multiply function. SLATE detects the transposition flags on the views and handles the logic internally.

Symmetric/Hermitian Multiplication (SYMM/HEMM) (Lines 97-118)

slate::multiply( alpha, A, B, beta, C );                  // simplified
slate::symm( slate::Side::Left, alpha, A, B, beta, C );   // traditional

When A is a SymmetricMatrix (or HermitianMatrix), multiply automatically dispatches to the efficient symmetric/Hermitian algorithm (symm/hemm).

Side::Left means \(C = \alpha A B + \beta C\).
Side::Right means \(C = \alpha B A + \beta C\) (demonstrated in lines 141-147).

Rank-K Updates (SYRK/HERK) (Lines 230-241)

slate::rank_k_update( alpha, A, beta, C );
slate::syrk( alpha, A, beta, C );

Computes \(C = \alpha A A^T + \beta C\) where C is symmetric. Only the designated triangle of C (Lower or Upper) is updated.

Triangular Operations (TRMM/TRSM) (Lines 299-310)

// B = alpha A B
slate::triangular_multiply( alpha, A, B );       // trmm

// B = alpha A^{-1} B (Solve AX = B)
slate::triangular_solve( alpha, A, B );          // trsm

For triangular matrices, we can multiply (trmm) or solve (trsm). The simplified API names make the intent clear (“multiply” vs “solve”).

// ex05_blas.cc
// BLAS routines

/// !!!   Lines between `//---------- begin label`          !!!
/// !!!             and `//---------- end label`            !!!
/// !!!   are included in the SLATE Users' Guide.           !!!

#include <slate/slate.hh>

#include "util.hh"

int mpi_size = 0;
int mpi_rank = 0;
int grid_p = 0;
int grid_q = 0;

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_gemm()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    slate::Matrix<scalar_type> A( m, k, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( k, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> C( m, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    C.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );
    random_matrix( C );

    //---------- begin gemm
    // C = alpha A B + beta C, where A, B, C are all general matrices.
    slate::multiply( alpha, A, B, beta, C );  // simplified API
    slate::gemm( alpha, A, B, beta, C );      // traditional API
    //---------- end gemm

    //--------------------
    if (blas::get_device_count() > 0) {
        //---------- begin gemm_opts
        // Execute on GPU devices with lookahead of 2.
        slate::Options opts = {
            { slate::Option::Lookahead, 2 },
            { slate::Option::Target, slate::Target::Devices },
        };
        slate::multiply( alpha, A, B, beta, C, opts );
        //---------- end gemm_opts
    }
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_gemm_trans()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    // Dimensions of A, B are backwards from A, B in test_gemm().
    slate::Matrix<scalar_type> A( k, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( n, k, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> C( m, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    C.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );
    random_matrix( C );

    //---------- begin gemm_trans

    // Matrices can be transposed or conjugate-transposed beforehand.
    // C = alpha A^T B^H + beta C
    auto AT = transpose( A );
    auto BH = conj_transpose( B );
    slate::multiply( alpha, AT, BH, beta, C );  // simplified API
    slate::gemm( alpha, AT, BH, beta, C );      // traditional API
    //---------- end gemm_trans

    // todo: support rvalues:
    // slate::gemm( alpha, transpose( A ), conj_transpose( B ), beta, C );
    // or
    // slate::gemm( alpha, transpose( A ), conj_transpose( B ), beta, std::move( C ) );
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_symm_left()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, nb=256;

    // A is m-by-m, B and C are m-by-n.
    slate::SymmetricMatrix<scalar_type>
        A( slate::Uplo::Lower, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( m, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> C( m, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    C.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );
    random_matrix( C );

    //---------- begin symm_left

    // C = alpha A B + beta C, where A is symmetric, on left side
    slate::multiply( alpha, A, B, beta, C );                  // simplified API
    slate::symm( slate::Side::Left, alpha, A, B, beta, C );   // traditional API
    //---------- end symm_left
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_symm_right()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, nb=256;

    // A is m-by-m, B and C are n-by-m (reverse of left case above).
    slate::SymmetricMatrix<scalar_type>
        A( slate::Uplo::Lower, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( n, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> C( n, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    C.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );
    random_matrix( C );

    //---------- begin symm_right

    // C = alpha B A + beta C, where A is symmetric, on right side
    // Note B, A order reversed in multiply compared to symm.
    slate::multiply( alpha, B, A, beta, C );                  // simplified API
    slate::symm( slate::Side::Right, alpha, A, B, beta, C );  // traditional API
    //---------- end symm_right
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_hemm_left()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, nb=256;

    // A is m-by-m, B and C are m-by-n.
    slate::HermitianMatrix<scalar_type>
        A( slate::Uplo::Lower, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( m, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> C( m, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    C.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );
    random_matrix( C );

    //---------- begin hemm_left

    // C = alpha A B + beta C, where A is Hermitian, on left side
    slate::multiply( alpha, A, B, beta, C );                  // simplified API
    slate::hemm( slate::Side::Left, alpha, A, B, beta, C );   // traditional API
    //---------- end hemm_left
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_hemm_right()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, nb=256;

    // A is m-by-m, B and C are n-by-m (reverse of left case above).
    slate::HermitianMatrix<scalar_type>
        A( slate::Uplo::Lower, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( n, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> C( n, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    C.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );
    random_matrix( C );

    //---------- begin hemm_right

    // C = alpha B A + beta C, where A is Hermitian, on right side
    // Note B, A order reversed in multiply compared to hemm.
    slate::multiply( alpha, B, A, beta, C );                  // simplified API
    slate::hemm( slate::Side::Right, alpha, A, B, beta, C );  // traditional API
    //---------- end hemm_right
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_syrk_syr2k()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0, beta = 1.0;
    int64_t n=1000, k=500, nb=256;

    slate::Matrix<scalar_type> A( n, k, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( n, k, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::SymmetricMatrix<scalar_type>
        C( slate::Uplo::Lower, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    C.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );
    random_matrix( C );

    //---------- begin syrk

    // C = alpha A A^T + beta C, where C is symmetric
    slate::rank_k_update( alpha, A, beta, C );      // simplified API
    slate::syrk( alpha, A, beta, C );               // traditional API
    //---------- end syrk

    //---------- begin syr2k

    // C = alpha A B^T + alpha B A^T + beta C, where C is symmetric
    slate::rank_2k_update( alpha, A, B, beta, C );  // simplified API
    slate::syr2k( alpha, A, B, beta, C );           // traditional API
    //---------- end syr2k
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_herk_her2k()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0;
    blas::real_type<scalar_type> alpha_real = 2.0, beta = 1.0;
    int64_t n=1000, k=500, nb=256;

    slate::Matrix<scalar_type> A( n, k, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( n, k, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::HermitianMatrix<scalar_type>
        C( slate::Uplo::Lower, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    C.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );
    random_matrix( C );

    //---------- begin herk

    // C = alpha A A^H + beta C, where C is Hermitian
    slate::rank_k_update( alpha_real, A, beta, C );      // simplified API
    slate::herk( alpha_real, A, beta, C );               // traditional API
    //---------- end herk

    //---------- begin her2k

    // C = alpha A B^H + conj(alpha) B A^H + beta C, where C is Hermitian
    slate::rank_2k_update( alpha, A, B, beta, C );  // simplified API
    slate::her2k( alpha, A, B, beta, C );           // traditional API
    //---------- end her2k
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_trmm_trsm_left()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0;
    int64_t m=2000, n=1000, nb=256;

    // A is m-by-m, B is m-by-n
    slate::TriangularMatrix<scalar_type>
        A( slate::Uplo::Lower, slate::Diag::NonUnit, m, nb,
           grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( m, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );

    //---------- begin trmm_left

    //----- left
    // B = alpha A B, where A is triangular, on left side
    slate::triangular_multiply( alpha, A, B );       // simplified API
    slate::trmm( slate::Side::Left, alpha, A, B );   // traditional API

    // Solve AX = B, where A is triangular, on left side; X overwrites B.
    // That is, B = alpha A^{-1} B.
    slate::triangular_solve( alpha, A, B );          // simplified API
    slate::trsm( slate::Side::Left, alpha, A, B );   // traditional API
    //---------- end trmm_left
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_trmm_trsm_right()
{
    print_func( mpi_rank );

    scalar_type alpha = 2.0;
    int64_t m=2000, n=1000, nb=256;

    // A is m-by-m, B is n-by-m (reverse of left case above).
    slate::TriangularMatrix<scalar_type>
        A( slate::Uplo::Lower, slate::Diag::NonUnit, m, nb,
           grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( n, m, nb, grid_p, grid_q, MPI_COMM_WORLD );
    A.insertLocalTiles();
    B.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );

    //---------- begin trmm_right

    //----- right
    // B = alpha B A, where A is triangular, on right side
    // Note B, A order reversed in multiply compared to trmm.
    slate::triangular_multiply( alpha, B, A );       // simplified API
    slate::trmm( slate::Side::Right, alpha, A, B );  // traditional API

    // Solve XA = B, where A is triangular, on right side; X overwrites B.
    // That is, B = alpha B A^{-1}.
    // Note B, A order reversed in solve compared to trsm.
    slate::triangular_solve( alpha, B, A );          // simplified API
    slate::trsm( slate::Side::Right, alpha, A, B );  // traditional API
    //---------- end trmm_right
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_all()
{
    test_gemm      < scalar_type >();
    test_gemm_trans< scalar_type >();
    test_symm_left < scalar_type >();
    test_symm_right< scalar_type >();
    test_hemm_left < scalar_type >();
    test_hemm_right< scalar_type >();
    test_syrk_syr2k< scalar_type >();
    test_herk_her2k< scalar_type >();
    test_trmm_trsm_left < scalar_type >();
    test_trmm_trsm_right< scalar_type >();
}

//------------------------------------------------------------------------------
int main( int argc, char** argv )
{
    try {
        // Parse command line to set types for s, d, c, z precisions.
        bool types[ 4 ];
        parse_args( argc, argv, types );

        int provided = 0;
        slate_mpi_call(
            MPI_Init_thread( &argc, &argv, MPI_THREAD_MULTIPLE, &provided ) );
        assert( provided == MPI_THREAD_MULTIPLE );

        slate_mpi_call(
            MPI_Comm_size( MPI_COMM_WORLD, &mpi_size ) );

        slate_mpi_call(
            MPI_Comm_rank( MPI_COMM_WORLD, &mpi_rank ) );

        // Determine p-by-q grid for this MPI size.
        grid_size( mpi_size, &grid_p, &grid_q );
        if (mpi_rank == 0) {
            printf( "mpi_size %d, grid_p %d, grid_q %d\n",
                    mpi_size, grid_p, grid_q );
        }

        // so random_matrix is different on different ranks.
        srand( 100 * mpi_rank );

        if (types[ 0 ]) {
            test_all< float >();
        }
        if (mpi_rank == 0)
            printf( "\n" );

        if (types[ 1 ]) {
            test_all< double >();
        }
        if (mpi_rank == 0)
            printf( "\n" );

        if (types[ 2 ]) {
            test_all< std::complex<float> >();
        }
        if (mpi_rank == 0)
            printf( "\n" );

        if (types[ 3 ]) {
            test_all< std::complex<double> >();
        }

        slate_mpi_call(
            MPI_Finalize() );
    }
    catch (std::exception const& ex) {
        fprintf( stderr, "%s", ex.what() );
        return 1;
    }
    return 0;
}

C API Example

// ex05_blas.c
// BLAS routines

#include <slate/c_api/slate.h>
#include <mpi.h>

#include "util.h"

int mpi_size = 0;
int mpi_rank = 0;
int grid_p = 0;
int grid_q = 0;

//------------------------------------------------------------------------------
void test_gemm_r32()
{
    print_func( mpi_rank );

    double alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    slate_Matrix_r32 A = slate_Matrix_create_r32(
        m, k,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r32 B = slate_Matrix_create_r32(
        k, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r32 C = slate_Matrix_create_r32(
        m, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_r32( A );
    slate_Matrix_insertLocalTiles_r32( B );
    slate_Matrix_insertLocalTiles_r32( C );
    random_Matrix_r32( A );
    random_Matrix_r32( B );
    random_Matrix_r32( C );

    // C = alpha A B + beta C, where A, B, C are all general matrices.
    slate_multiply_r32( alpha, A, B, beta, C, NULL );

    if (slate_Matrix_num_devices_r32( C ) > 0) {
        // Execute on GPU devices with lookahead of 2.
        slate_Options opts = slate_Options_create();
        slate_Options_set_Target( opts, slate_Target_Devices );
        slate_Options_set_Lookahead( opts, 2 );

        slate_multiply_r32( alpha, A, B, beta, C, opts );

        slate_Options_destroy( opts );
    }

    slate_Matrix_destroy_r32( A );
    slate_Matrix_destroy_r32( B );
    slate_Matrix_destroy_r32( C );
}

//------------------------------------------------------------------------------
void test_gemm_r64()
{
    print_func( mpi_rank );

    double alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    slate_Matrix_r64 A = slate_Matrix_create_r64(
        m, k,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r64 B = slate_Matrix_create_r64(
        k, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r64 C = slate_Matrix_create_r64(
        m, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_r64( A );
    slate_Matrix_insertLocalTiles_r64( B );
    slate_Matrix_insertLocalTiles_r64( C );
    random_Matrix_r64( A );
    random_Matrix_r64( B );
    random_Matrix_r64( C );

    // C = alpha A B + beta C, where A, B, C are all general matrices.
    slate_multiply_r64( alpha, A, B, beta, C, NULL );

    if (slate_Matrix_num_devices_r64( C ) > 0) {
        // Execute on GPU devices with lookahead of 2.
        slate_Options opts = slate_Options_create();
        slate_Options_set_Target( opts, slate_Target_Devices );
        slate_Options_set_Lookahead( opts, 2 );

        slate_multiply_r64( alpha, A, B, beta, C, opts );

        slate_Options_destroy( opts );
    }

    slate_Matrix_destroy_r64( A );
    slate_Matrix_destroy_r64( B );
    slate_Matrix_destroy_r64( C );
}

//------------------------------------------------------------------------------
void test_gemm_c32()
{
    print_func( mpi_rank );

    double alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    slate_Matrix_c32 A = slate_Matrix_create_c32(
        m, k,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c32 B = slate_Matrix_create_c32(
        k, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c32 C = slate_Matrix_create_c32(
        m, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_c32( A );
    slate_Matrix_insertLocalTiles_c32( B );
    slate_Matrix_insertLocalTiles_c32( C );
    random_Matrix_c32( A );
    random_Matrix_c32( B );
    random_Matrix_c32( C );

    // C = alpha A B + beta C, where A, B, C are all general matrices.
    slate_multiply_c32( alpha, A, B, beta, C, NULL );

    if (slate_Matrix_num_devices_c32( C ) > 0) {
        // Execute on GPU devices with lookahead of 2.
        slate_Options opts = slate_Options_create();
        slate_Options_set_Target( opts, slate_Target_Devices );
        slate_Options_set_Lookahead( opts, 2 );

        slate_multiply_c32( alpha, A, B, beta, C, opts );

        slate_Options_destroy( opts );
    }

    slate_Matrix_destroy_c32( A );
    slate_Matrix_destroy_c32( B );
    slate_Matrix_destroy_c32( C );
}

//------------------------------------------------------------------------------
void test_gemm_c64()
{
    print_func( mpi_rank );

    double alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    slate_Matrix_c64 A = slate_Matrix_create_c64(
        m, k,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c64 B = slate_Matrix_create_c64(
        k, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c64 C = slate_Matrix_create_c64(
        m, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_c64( A );
    slate_Matrix_insertLocalTiles_c64( B );
    slate_Matrix_insertLocalTiles_c64( C );
    random_Matrix_c64( A );
    random_Matrix_c64( B );
    random_Matrix_c64( C );

    // C = alpha A B + beta C, where A, B, C are all general matrices.
    slate_multiply_c64( alpha, A, B, beta, C, NULL );

    if (slate_Matrix_num_devices_c64( C ) > 0) {
        // Execute on GPU devices with lookahead of 2.
        slate_Options opts = slate_Options_create();
        slate_Options_set_Target( opts, slate_Target_Devices );
        slate_Options_set_Lookahead( opts, 2 );

        slate_multiply_c64( alpha, A, B, beta, C, opts );

        slate_Options_destroy( opts );
    }

    slate_Matrix_destroy_c64( A );
    slate_Matrix_destroy_c64( B );
    slate_Matrix_destroy_c64( C );
}

//------------------------------------------------------------------------------
void test_gemm_trans_r32()
{
    print_func( mpi_rank );

    double alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    slate_Matrix_r32 A = slate_Matrix_create_r32(
        k, m,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r32 B = slate_Matrix_create_r32(
        n, k,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r32 C = slate_Matrix_create_r32(
        m, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_r32( A );
    slate_Matrix_insertLocalTiles_r32( B );
    slate_Matrix_insertLocalTiles_r32( C );
    random_Matrix_r32( A );
    random_Matrix_r32( B );
    random_Matrix_r32( C );

    // Matrices can be transposed or conjugate-transposed beforehand.
    // C = alpha A^T B^H + beta C
    slate_Matrix_transpose_in_place_r32( A );
    slate_Matrix_conj_transpose_in_place_r32( B );
    slate_multiply_r32( alpha, A, B, beta, C, NULL );  // simplified API

    slate_Matrix_destroy_r32( A );
    slate_Matrix_destroy_r32( B );
    slate_Matrix_destroy_r32( C );
}

//------------------------------------------------------------------------------
void test_gemm_trans_r64()
{
    print_func( mpi_rank );

    double alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    slate_Matrix_r64 A = slate_Matrix_create_r64(
        k, m,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r64 B = slate_Matrix_create_r64(
        n, k,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r64 C = slate_Matrix_create_r64(
        m, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_r64( A );
    slate_Matrix_insertLocalTiles_r64( B );
    slate_Matrix_insertLocalTiles_r64( C );
    random_Matrix_r64( A );
    random_Matrix_r64( B );
    random_Matrix_r64( C );

    // Matrices can be transposed or conjugate-transposed beforehand.
    // C = alpha A^T B^H + beta C
    slate_Matrix_transpose_in_place_r64( A );
    slate_Matrix_conj_transpose_in_place_r64( B );
    slate_multiply_r64( alpha, A, B, beta, C, NULL );  // simplified API

    slate_Matrix_destroy_r64( A );
    slate_Matrix_destroy_r64( B );
    slate_Matrix_destroy_r64( C );
}

//------------------------------------------------------------------------------
void test_gemm_trans_c32()
{
    print_func( mpi_rank );

    double alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    slate_Matrix_c32 A = slate_Matrix_create_c32(
        k, m,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c32 B = slate_Matrix_create_c32(
        n, k,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c32 C = slate_Matrix_create_c32(
        m, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_c32( A );
    slate_Matrix_insertLocalTiles_c32( B );
    slate_Matrix_insertLocalTiles_c32( C );
    random_Matrix_c32( A );
    random_Matrix_c32( B );
    random_Matrix_c32( C );

    // Matrices can be transposed or conjugate-transposed beforehand.
    // C = alpha A^T B^H + beta C
    slate_Matrix_transpose_in_place_c32( A );
    slate_Matrix_conj_transpose_in_place_c32( B );
    slate_multiply_c32( alpha, A, B, beta, C, NULL );  // simplified API

    slate_Matrix_destroy_c32( A );
    slate_Matrix_destroy_c32( B );
    slate_Matrix_destroy_c32( C );
}

//------------------------------------------------------------------------------
void test_gemm_trans_c64()
{
    print_func( mpi_rank );

    double alpha = 2.0, beta = 1.0;
    int64_t m=2000, n=1000, k=500, nb=256;

    slate_Matrix_c64 A = slate_Matrix_create_c64(
        k, m,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c64 B = slate_Matrix_create_c64(
        n, k,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c64 C = slate_Matrix_create_c64(
        m, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_c64( A );
    slate_Matrix_insertLocalTiles_c64( B );
    slate_Matrix_insertLocalTiles_c64( C );
    random_Matrix_c64( A );
    random_Matrix_c64( B );
    random_Matrix_c64( C );

    // Matrices can be transposed or conjugate-transposed beforehand.
    // C = alpha A^T B^H + beta C
    slate_Matrix_transpose_in_place_c64( A );
    slate_Matrix_conj_transpose_in_place_c64( B );
    slate_multiply_c64( alpha, A, B, beta, C, NULL );  // simplified API

    slate_Matrix_destroy_c64( A );
    slate_Matrix_destroy_c64( B );
    slate_Matrix_destroy_c64( C );
}

//------------------------------------------------------------------------------
int main( int argc, char** argv )
{
    // Parse command line to set types for s, d, c, z precisions.
    bool types[ 4 ];
    parse_args( argc, argv, types );

    int provided = 0;
    MPI_Init_thread( &argc, &argv, MPI_THREAD_MULTIPLE, &provided );
    assert( provided == MPI_THREAD_MULTIPLE );

    MPI_Comm_size( MPI_COMM_WORLD, &mpi_size );
    MPI_Comm_rank( MPI_COMM_WORLD, &mpi_rank );

    // Determine p-by-q grid for this MPI size.
    grid_size( mpi_size, &grid_p, &grid_q );
    if (mpi_rank == 0) {
        printf( "mpi_size %d, grid_p %d, grid_q %d\n",
                mpi_size, grid_p, grid_q );
    }

    // so random_matrix is different on different ranks.
    srand( 100 * mpi_rank );

    if (types[ 0 ]) {
        test_gemm_r32();
        test_gemm_trans_r32();
        if (mpi_rank == 0)
            printf( "\n" );
    }

    if (types[ 1 ]) {
        test_gemm_r64();
        test_gemm_trans_r64();
        if (mpi_rank == 0)
            printf( "\n" );
    }

    if (types[ 2 ]) {
        test_gemm_c32();
        test_gemm_trans_c32();
        if (mpi_rank == 0)
            printf( "\n" );
    }

    if (types[ 3 ]) {
        test_gemm_c64();
        test_gemm_trans_c64();
    }

    MPI_Finalize();

    return 0;
}

Fortran API Example

! ex05_blas.f90
! BLAS routines
program ex05_blas
    use, intrinsic :: iso_fortran_env
    use slate
    use mpi
    use util
    implicit none

    !! Variables
    logical                            :: types(4)
    integer(kind=c_int)                :: p_grid, q_grid

    integer(kind=c_int)                :: provided, ierr
    integer(kind=c_int)                :: mpi_rank, mpi_size

    !! Get requested types
    call parse_args( types );

    !! MPI
    call MPI_Init_thread( MPI_THREAD_MULTIPLE, provided, ierr )
    if ((ierr .ne. 0) .or. (provided .ne. MPI_THREAD_MULTIPLE)) then
        print *, "Error: MPI_Init_thread"
        return
    end if
    call MPI_Comm_size( MPI_COMM_WORLD, mpi_size, ierr )
    if (ierr .ne. 0) then
        print *, "Error: MPI_Comm_size"
        return
    end if
    call MPI_Comm_rank( MPI_COMM_WORLD, mpi_rank, ierr )
    if (ierr .ne. 0) then
        print *, "Error: MPI_Comm_rank"
        return
    end if

    call grid_size( mpi_size, p_grid, q_grid )

    call srand( 100 * mpi_rank )

    if (types(1)) then
        call test_gemm_r32()
        call test_gemm_trans_r32()

        if (mpi_rank == 0) then
          print *
         end if
    end if
    if (types(2)) then
        call test_gemm_r64()
        call test_gemm_trans_r64()

        if (mpi_rank == 0) then
          print *
         end if
    end if
    if (types(3)) then
        call test_gemm_c32()
        call test_gemm_trans_c32()

        if (mpi_rank == 0) then
          print *
         end if
    end if
    if (types(4)) then
        call test_gemm_c64()
        call test_gemm_trans_c64()

        if (mpi_rank == 0) then
          print *
         end if
    end if

    call MPI_Finalize( ierr )
    if (ierr .ne. 0) then
        print *, "Error: MPI_Finalize"
        return
    end if

contains

    subroutine test_gemm_r32()
        !! Constants
        integer(kind=c_int64_t), parameter :: m  = 2000
        integer(kind=c_int64_t), parameter :: n  = 1000
        integer(kind=c_int64_t), parameter :: k  = 500
        integer(kind=c_int64_t), parameter :: nb = 256

        real(kind=c_float),      parameter :: alpha = 2.0
        real(kind=c_float),      parameter :: beta  = 1.0

        !! Variables
        integer(kind=c_int64_t)            :: i
        type(c_ptr)                        :: A, B, C, opts

        !! Example
        call print_func( mpi_rank, 'test_gemm_r32' )

        A = slate_Matrix_create_r32( m, k, nb, p_grid, q_grid, MPI_COMM_WORLD )
        B = slate_Matrix_create_r32( k, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        C = slate_Matrix_create_r32( m, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        call slate_Matrix_insertLocalTiles_r32( A )
        call slate_Matrix_insertLocalTiles_r32( B )
        call slate_Matrix_insertLocalTiles_r32( C )
        call random_Matrix_r32( A )
        call random_Matrix_r32( B )
        call random_Matrix_r32( C )

        ! C = alpha A B + beta C
        call slate_multiply_r32( alpha, A, B, beta, C, c_null_ptr )

        if (slate_Matrix_num_devices_r32( C ) > 0) then
            opts = slate_Options_create()
            call slate_Options_set_Target( opts, slate_Target_Devices );
            call slate_Options_set_Lookahead( opts, 2_int64 )

            call slate_multiply_r32( alpha, A, B, beta, C, opts )

            call slate_Options_destroy( opts )
        endif


        call slate_Matrix_destroy_r32( A )
        call slate_Matrix_destroy_r32( B )
        call slate_Matrix_destroy_r32( C )

    end subroutine test_gemm_r32

    subroutine test_gemm_r64()
        !! Constants
        integer(kind=c_int64_t), parameter :: m  = 2000
        integer(kind=c_int64_t), parameter :: n  = 1000
        integer(kind=c_int64_t), parameter :: k  = 500
        integer(kind=c_int64_t), parameter :: nb = 256

        real(kind=c_double),     parameter :: alpha = 2.0
        real(kind=c_double),     parameter :: beta  = 1.0

        !! Variables
        integer(kind=c_int64_t)            :: i
        type(c_ptr)                        :: A, B, C, opts

        !! Example
        call print_func( mpi_rank, 'test_gemm_r64' )

        A = slate_Matrix_create_r64( m, k, nb, p_grid, q_grid, MPI_COMM_WORLD )
        B = slate_Matrix_create_r64( k, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        C = slate_Matrix_create_r64( m, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        call slate_Matrix_insertLocalTiles_r64( A )
        call slate_Matrix_insertLocalTiles_r64( B )
        call slate_Matrix_insertLocalTiles_r64( C )
        call random_Matrix_r64( A )
        call random_Matrix_r64( B )
        call random_Matrix_r64( C )

        ! C = alpha A B + beta C
        call slate_multiply_r64( alpha, A, B, beta, C, c_null_ptr )

        if (slate_Matrix_num_devices_r64( C ) > 0) then
            opts = slate_Options_create()
            call slate_Options_set_Target( opts, slate_Target_Devices );
            call slate_Options_set_Lookahead( opts, 2_int64 )

            call slate_multiply_r64( alpha, A, B, beta, C, opts )

            call slate_Options_destroy( opts )
        endif


        call slate_Matrix_destroy_r64( A )
        call slate_Matrix_destroy_r64( B )
        call slate_Matrix_destroy_r64( C )

    end subroutine test_gemm_r64

    subroutine test_gemm_c32()
        !! Constants
        integer(kind=c_int64_t), parameter :: m  = 2000
        integer(kind=c_int64_t), parameter :: n  = 1000
        integer(kind=c_int64_t), parameter :: k  = 500
        integer(kind=c_int64_t), parameter :: nb = 256

        complex(kind=c_float),   parameter :: alpha = 2.0
        complex(kind=c_float),   parameter :: beta  = 1.0

        !! Variables
        integer(kind=c_int64_t)            :: i
        type(c_ptr)                        :: A, B, C, opts

        !! Example
        call print_func( mpi_rank, 'test_gemm_c32' )

        A = slate_Matrix_create_c32( m, k, nb, p_grid, q_grid, MPI_COMM_WORLD )
        B = slate_Matrix_create_c32( k, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        C = slate_Matrix_create_c32( m, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        call slate_Matrix_insertLocalTiles_c32( A )
        call slate_Matrix_insertLocalTiles_c32( B )
        call slate_Matrix_insertLocalTiles_c32( C )
        call random_Matrix_c32( A )
        call random_Matrix_c32( B )
        call random_Matrix_c32( C )

        ! C = alpha A B + beta C
        call slate_multiply_c32( alpha, A, B, beta, C, c_null_ptr )

        if (slate_Matrix_num_devices_c32( C ) > 0) then
            opts = slate_Options_create()
            call slate_Options_set_Target( opts, slate_Target_Devices );
            call slate_Options_set_Lookahead( opts, 2_int64 )

            call slate_multiply_c32( alpha, A, B, beta, C, opts )

            call slate_Options_destroy( opts )
        endif


        call slate_Matrix_destroy_c32( A )
        call slate_Matrix_destroy_c32( B )
        call slate_Matrix_destroy_c32( C )

    end subroutine test_gemm_c32

    subroutine test_gemm_c64()
        !! Constants
        integer(kind=c_int64_t), parameter :: m  = 2000
        integer(kind=c_int64_t), parameter :: n  = 1000
        integer(kind=c_int64_t), parameter :: k  = 500
        integer(kind=c_int64_t), parameter :: nb = 256

        complex(kind=c_double),  parameter :: alpha = 2.0
        complex(kind=c_double),  parameter :: beta  = 1.0

        !! Variables
        integer(kind=c_int64_t)            :: i
        type(c_ptr)                        :: A, B, C, opts

        !! Example
        call print_func( mpi_rank, 'test_gemm_c64' )

        A = slate_Matrix_create_c64( m, k, nb, p_grid, q_grid, MPI_COMM_WORLD )
        B = slate_Matrix_create_c64( k, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        C = slate_Matrix_create_c64( m, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        call slate_Matrix_insertLocalTiles_c64( A )
        call slate_Matrix_insertLocalTiles_c64( B )
        call slate_Matrix_insertLocalTiles_c64( C )
        call random_Matrix_c64( A )
        call random_Matrix_c64( B )
        call random_Matrix_c64( C )

        ! C = alpha A B + beta C
        call slate_multiply_c64( alpha, A, B, beta, C, c_null_ptr )

        if (slate_Matrix_num_devices_c64( C ) > 0) then
            opts = slate_Options_create()
            call slate_Options_set_Target( opts, slate_Target_Devices );
            call slate_Options_set_Lookahead( opts, 2_int64 )

            call slate_multiply_c64( alpha, A, B, beta, C, opts )

            call slate_Options_destroy( opts )
        endif


        call slate_Matrix_destroy_c64( A )
        call slate_Matrix_destroy_c64( B )
        call slate_Matrix_destroy_c64( C )

    end subroutine test_gemm_c64

    subroutine test_gemm_trans_r32()
        !! Constants
        integer(kind=c_int64_t), parameter :: m  = 2000
        integer(kind=c_int64_t), parameter :: n  = 1000
        integer(kind=c_int64_t), parameter :: k  = 500
        integer(kind=c_int64_t), parameter :: nb = 256

        real(kind=c_float),      parameter :: alpha = 2.0
        real(kind=c_float),      parameter :: beta  = 1.0

        !! Variables
        integer(kind=c_int64_t)            :: i
        type(c_ptr)                        :: A, B, C, opts

        !! Example
        call print_func( mpi_rank, 'test_gemm_trans_r32' )

        A = slate_Matrix_create_r32( k, m, nb, p_grid, q_grid, MPI_COMM_WORLD )
        B = slate_Matrix_create_r32( n, k, nb, p_grid, q_grid, MPI_COMM_WORLD )
        C = slate_Matrix_create_r32( m, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        call slate_Matrix_insertLocalTiles_r32( A )
        call slate_Matrix_insertLocalTiles_r32( B )
        call slate_Matrix_insertLocalTiles_r32( C )
        call random_Matrix_r32( A )
        call random_Matrix_r32( B )
        call random_Matrix_r32( C )

        ! Matrices can be transposed or conjugate-transposed beforehand
        ! C = alpha AT BH + beta C
        call slate_Matrix_transpose_in_place_r32( A );
        call slate_Matrix_conj_transpose_in_place_r32( B );
        call slate_multiply_r32( alpha, A, B, beta, C, c_null_ptr )

        call slate_Matrix_destroy_r32( A )
        call slate_Matrix_destroy_r32( B )
        call slate_Matrix_destroy_r32( C )

    end subroutine test_gemm_trans_r32

    subroutine test_gemm_trans_r64()
        !! Constants
        integer(kind=c_int64_t), parameter :: m  = 2000
        integer(kind=c_int64_t), parameter :: n  = 1000
        integer(kind=c_int64_t), parameter :: k  = 500
        integer(kind=c_int64_t), parameter :: nb = 256

        real(kind=c_double),     parameter :: alpha = 2.0
        real(kind=c_double),     parameter :: beta  = 1.0

        !! Variables
        integer(kind=c_int64_t)            :: i
        type(c_ptr)                        :: A, B, C, opts

        !! Example
        call print_func( mpi_rank, 'test_gemm_trans_r64' )

        A = slate_Matrix_create_r64( k, m, nb, p_grid, q_grid, MPI_COMM_WORLD )
        B = slate_Matrix_create_r64( n, k, nb, p_grid, q_grid, MPI_COMM_WORLD )
        C = slate_Matrix_create_r64( m, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        call slate_Matrix_insertLocalTiles_r64( A )
        call slate_Matrix_insertLocalTiles_r64( B )
        call slate_Matrix_insertLocalTiles_r64( C )
        call random_Matrix_r64( A )
        call random_Matrix_r64( B )
        call random_Matrix_r64( C )

        ! Matrices can be transposed or conjugate-transposed beforehand
        ! C = alpha AT BH + beta C
        call slate_Matrix_transpose_in_place_r64( A );
        call slate_Matrix_conj_transpose_in_place_r64( B );
        call slate_multiply_r64( alpha, A, B, beta, C, c_null_ptr )

        call slate_Matrix_destroy_r64( A )
        call slate_Matrix_destroy_r64( B )
        call slate_Matrix_destroy_r64( C )

    end subroutine test_gemm_trans_r64

    subroutine test_gemm_trans_c32()
        !! Constants
        integer(kind=c_int64_t), parameter :: m  = 2000
        integer(kind=c_int64_t), parameter :: n  = 1000
        integer(kind=c_int64_t), parameter :: k  = 500
        integer(kind=c_int64_t), parameter :: nb = 256

        complex(kind=c_float),   parameter :: alpha = 2.0
        complex(kind=c_float),   parameter :: beta  = 1.0

        !! Variables
        integer(kind=c_int64_t)            :: i
        type(c_ptr)                        :: A, B, C, opts

        !! Example
        call print_func( mpi_rank, 'test_gemm_trans_c32' )

        A = slate_Matrix_create_c32( k, m, nb, p_grid, q_grid, MPI_COMM_WORLD )
        B = slate_Matrix_create_c32( n, k, nb, p_grid, q_grid, MPI_COMM_WORLD )
        C = slate_Matrix_create_c32( m, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        call slate_Matrix_insertLocalTiles_c32( A )
        call slate_Matrix_insertLocalTiles_c32( B )
        call slate_Matrix_insertLocalTiles_c32( C )
        call random_Matrix_c32( A )
        call random_Matrix_c32( B )
        call random_Matrix_c32( C )

        ! Matrices can be transposed or conjugate-transposed beforehand
        ! C = alpha AT BH + beta C
        call slate_Matrix_transpose_in_place_c32( A );
        call slate_Matrix_conj_transpose_in_place_c32( B );
        call slate_multiply_c32( alpha, A, B, beta, C, c_null_ptr )

        call slate_Matrix_destroy_c32( A )
        call slate_Matrix_destroy_c32( B )
        call slate_Matrix_destroy_c32( C )

    end subroutine test_gemm_trans_c32

    subroutine test_gemm_trans_c64()
        !! Constants
        integer(kind=c_int64_t), parameter :: m  = 2000
        integer(kind=c_int64_t), parameter :: n  = 1000
        integer(kind=c_int64_t), parameter :: k  = 500
        integer(kind=c_int64_t), parameter :: nb = 256

        complex(kind=c_double),  parameter :: alpha = 2.0
        complex(kind=c_double),  parameter :: beta  = 1.0

        !! Variables
        integer(kind=c_int64_t)            :: i
        type(c_ptr)                        :: A, B, C, opts

        !! Example
        call print_func( mpi_rank, 'test_gemm_trans_c64' )

        A = slate_Matrix_create_c64( k, m, nb, p_grid, q_grid, MPI_COMM_WORLD )
        B = slate_Matrix_create_c64( n, k, nb, p_grid, q_grid, MPI_COMM_WORLD )
        C = slate_Matrix_create_c64( m, n, nb, p_grid, q_grid, MPI_COMM_WORLD )
        call slate_Matrix_insertLocalTiles_c64( A )
        call slate_Matrix_insertLocalTiles_c64( B )
        call slate_Matrix_insertLocalTiles_c64( C )
        call random_Matrix_c64( A )
        call random_Matrix_c64( B )
        call random_Matrix_c64( C )

        ! Matrices can be transposed or conjugate-transposed beforehand
        ! C = alpha AT BH + beta C
        call slate_Matrix_transpose_in_place_c64( A );
        call slate_Matrix_conj_transpose_in_place_c64( B );
        call slate_multiply_c64( alpha, A, B, beta, C, c_null_ptr )

        call slate_Matrix_destroy_c64( A )
        call slate_Matrix_destroy_c64( B )
        call slate_Matrix_destroy_c64( C )

    end subroutine test_gemm_trans_c64

end program ex05_blas