Example 06: Linear Systems (LU)

This example demonstrates solving linear systems \(Ax=B\) using LU factorization.

Key Concepts

Simple Solve: Using slate::lu_solve (gesv) for a one-step solution.
Explicit Factorization: Separating factorization (lu_factor/getrf) and solve (lu_solve_using_factor/getrs).
Matrix Inversion: Computing \(A^{-1}\) using lu_inverse_using_factor (getri).
Mixed Precision: Using iterative refinement to solve systems with lower-precision factorization.
Condition Number: Estimating the condition number of the matrix.

C++ Example

Standard LU Solve (Lines 38-41)

slate::lu_solve( A, B );        // simplified API
slate::gesv( A, pivots, B );    // traditional API

The simplest way to solve \(Ax=B\).

A is overwritten by its LU factors.
B is overwritten by the solution \(X\).
pivots (in the traditional API) stores the pivot indices found during factorization. lu_solve manages this internally if you don’t need the pivots later.

Mixed Precision Iterative Refinement (Lines 82-83)

slate::gesv_mixed( A, pivots, B, X, iters );

Mixed precision solvers can provide a significant speedup by doing the expensive factorization in lower precision (e.g., float) and then refining the solution to high precision (e.g., double) using the original matrix.

A, B, X are high precision (e.g., double).
The internal factorization happens in low precision (e.g., float).
iters returns the number of refinement iterations performed.

Explicit Factorization and Solve (Lines 113-118)

slate::lu_factor( A, pivots );
slate::lu_solve_using_factor( A, pivots, B );

Sometimes you need to solve for multiple right-hand sides that arrive at different times, or you want to reuse the factors.

lu_factor (getrf): Computes \(PA = LU\).
lu_solve_using_factor (getrs): Solves \(Ax=B\) using the pre-computed factors and pivots.

Matrix Inversion (Lines 142-147)

slate::lu_factor( A, pivots );
slate::lu_inverse_using_factor( A, pivots );

Computes the inverse of a matrix in-place.

Factorize the matrix.
Call lu_inverse_using_factor (getri). A is overwritten by \(A^{-1}\).

Condition Number Estimation (Lines 173-179)

real_t A_norm = slate::norm( slate::Norm::One, A );
slate::lu_factor( A, pivots );
real_t rcond = slate::lu_rcondest_using_factor( slate::Norm::One, A, A_norm );

Estimates the reciprocal condition number \(1/\kappa(A)\).

Compute the norm of the original matrix before factorization.
Factorize the matrix.
Call lu_rcondest_using_factor. This estimates \(\|A^{-1}\|\) cheaply using the factors and combines it with the provided \(\|A\|\).

// ex06_linear_system_lu.cc
// Solve AX = B using LU factorization

/// !!!   Lines between `//---------- begin label`          !!!
/// !!!             and `//---------- end label`            !!!
/// !!!   are included in the SLATE Users' Guide.           !!!

#include <slate/slate.hh>

#include "util.hh"

int mpi_size = 0;
int mpi_rank = 0;
int grid_p = 0;
int grid_q = 0;

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_lu()
{
    print_func( mpi_rank );

    int64_t n=1000, nrhs=100, nb=256;

    //---------- begin solve1
    slate::Matrix<scalar_type> A( n, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( n, nrhs, nb, grid_p, grid_q, MPI_COMM_WORLD );
    // ...
    //---------- end solve1

    A.insertLocalTiles();
    B.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );

    //---------- begin solve2

    slate::lu_solve( A, B );        // simplified API

    slate::Pivots pivots;
    slate::gesv( A, pivots, B );    // traditional API
    //---------- end solve2
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_lu_mixed()
{
    print_func( mpi_rank );

    int64_t n=1000, nrhs=100, nb=256;
    scalar_type zero = 0;

    //---------- begin mixed1
    // mixed precision: factor in single, iterative refinement to double
    slate::Matrix<scalar_type> A( n, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( n, nrhs, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> X( n, nrhs, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B1( n, 1,   nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> X1( n, 1,   nb, grid_p, grid_q, MPI_COMM_WORLD );
    int iters = 0;
    // ...
    //---------- end mixed1

    A.insertLocalTiles();
    B.insertLocalTiles();
    X.insertLocalTiles();
    B1.insertLocalTiles();
    X1.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );
    random_matrix( B1 );
    set( zero, X );
    set( zero, X1 );
    slate::Pivots pivots;

    //---------- begin mixed2

    // todo: simplified API

    // traditional API
    slate::gesv_mixed( A, pivots, B, X, iters );
    slate::gesv_mixed_gmres( A, pivots, B1, X1, iters );  // only one RHS
    //---------- end mixed2

    if (mpi_rank == 0) {
        printf( "rank %d: iters %d\n", mpi_rank, iters );
    }
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_lu_factor()
{
    print_func( mpi_rank );

    int64_t n=1000, nrhs=100, nb=256;

    //---------- begin factor1
    slate::Matrix<scalar_type> A( n, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Matrix<scalar_type> B( n, nrhs, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Pivots pivots;
    // ...
    //---------- end factor1

    A.insertLocalTiles();
    B.insertLocalTiles();
    random_matrix( A );
    random_matrix( B );

    //---------- begin factor2
    // simplified API
    slate::lu_factor( A, pivots );
    slate::lu_solve_using_factor( A, pivots, B );

    // traditional API
    slate::getrf( A, pivots );     // factor
    slate::getrs( A, pivots, B );  // solve
    //---------- end factor2
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_lu_inverse()
{
    print_func( mpi_rank );

    int64_t n=1000, nb=256;

    //---------- begin inverse1
    slate::Matrix<scalar_type> A( n, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Pivots pivots;
    // ...
    //---------- end inverse1

    A.insertLocalTiles();
    random_matrix( A );

    //---------- begin inverse2

    // simplified API
    slate::lu_factor( A, pivots );
    slate::lu_inverse_using_factor( A, pivots );

    // traditional API
    slate::getrf( A, pivots );  // factor
    slate::getri( A, pivots );  // inverse
    //---------- end inverse2
}

//------------------------------------------------------------------------------
template <typename scalar_type>
void test_lu_cond()
{
    using real_t = blas::real_type<scalar_type>;

    print_func( mpi_rank );

    int64_t n=1000, nrhs=100, nb=256;

    //---------- begin cond1
    slate::Matrix<scalar_type> A( n, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate::Pivots pivots;
    // ...
    //---------- end cond1

    A.insertLocalTiles();
    random_matrix( A );

    //---------- begin cond2

    // Compute A_norm before factoring.
    real_t A_norm = slate::norm( slate::Norm::One, A );

    // Factor using lu_factor or lu_solve.
    slate::lu_factor( A, pivots );

    // reciprocal condition number, 1 / (||A|| * ||A^{-1}||)
    real_t A_rcond = slate::lu_rcondest_using_factor( slate::Norm::One, A, A_norm );
    real_t A_cond = 1. / A_rcond;
    //---------- end cond2

    if (mpi_rank == 0) {
        printf( "rank %d: norm %.2e, rcond %.2e, cond %.2e\n",
                mpi_rank, A_norm, A_rcond, 1 / A_rcond );
    }
}

//------------------------------------------------------------------------------
int main( int argc, char** argv )
{
    try {
        // Parse command line to set types for s, d, c, z precisions.
        bool types[ 4 ];
        parse_args( argc, argv, types );

        int provided = 0;
        slate_mpi_call(
            MPI_Init_thread( &argc, &argv, MPI_THREAD_MULTIPLE, &provided ) );
        assert( provided == MPI_THREAD_MULTIPLE );

        slate_mpi_call(
            MPI_Comm_size( MPI_COMM_WORLD, &mpi_size ) );

        slate_mpi_call(
            MPI_Comm_rank( MPI_COMM_WORLD, &mpi_rank ) );

        // Determine p-by-q grid for this MPI size.
        grid_size( mpi_size, &grid_p, &grid_q );
        if (mpi_rank == 0) {
            printf( "mpi_size %d, grid_p %d, grid_q %d\n",
                    mpi_size, grid_p, grid_q );
        }

        // so random_matrix is different on different ranks.
        srand( 100 * mpi_rank );

        if (types[ 0 ]) {
            test_lu< float >();
            test_lu_factor< float >();
            test_lu_inverse< float >();
            test_lu_cond< float >();
        }
        if (mpi_rank == 0)
            printf( "\n" );

        if (types[ 1 ]) {
            test_lu< double >();
            test_lu_factor< double >();
            test_lu_inverse< double >();
            test_lu_mixed< double >();
            test_lu_cond< double >();
        }
        if (mpi_rank == 0)
            printf( "\n" );

        if (types[ 2 ]) {
            test_lu< std::complex<float> >();
            test_lu_factor< std::complex<float> >();
            test_lu_inverse< std::complex<float> >();
            test_lu_cond< std::complex<float> >();
        }
        if (mpi_rank == 0)
            printf( "\n" );

        if (types[ 3 ]) {
            test_lu< std::complex<double> >();
            test_lu_factor< std::complex<double> >();
            test_lu_inverse< std::complex<double> >();
            test_lu_mixed< std::complex<double> >();
            test_lu_cond< std::complex<double> >();
        }

        slate_mpi_call(
            MPI_Finalize() );
    }
    catch (std::exception const& ex) {
        fprintf( stderr, "%s", ex.what() );
        return 1;
    }
    return 0;
}

C API Example

// slate06_linear_system_lu.c
// Solve AX = B using LU factorization

#include <slate/c_api/slate.h>
#include <mpi.h>

#include "util.h"

int mpi_size = 0;
int mpi_rank = 0;
int grid_p = 0;
int grid_q = 0;

//------------------------------------------------------------------------------
void test_lu_r32()
{
    print_func( mpi_rank );

    int64_t n=1000, nrhs=100, nb=256;
    assert( mpi_size == grid_p*grid_q );
    slate_Matrix_r32 A = slate_Matrix_create_r32(
        n, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r32 B = slate_Matrix_create_r32(
        n, nrhs, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_r32( A );
    slate_Matrix_insertLocalTiles_r32( B );
    random_Matrix_r32( A );
    random_Matrix_r32( B );

    slate_lu_solve_r32( A, B, NULL );

    slate_Matrix_destroy_r32( A );
    slate_Matrix_destroy_r32( B );
}

//------------------------------------------------------------------------------
void test_lu_r64()
{
    print_func( mpi_rank );

    int64_t n=1000, nrhs=100, nb=256;
    assert( mpi_size == grid_p*grid_q );
    slate_Matrix_r64 A = slate_Matrix_create_r64(
        n, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_r64 B = slate_Matrix_create_r64(
        n, nrhs, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_r64( A );
    slate_Matrix_insertLocalTiles_r64( B );
    random_Matrix_r64( A );
    random_Matrix_r64( B );

    slate_lu_solve_r64( A, B, NULL );

    slate_Matrix_destroy_r64( A );
    slate_Matrix_destroy_r64( B );
}

//------------------------------------------------------------------------------
void test_lu_c32()
{
    print_func( mpi_rank );

    int64_t n=1000, nrhs=100, nb=256;
    assert( mpi_size == grid_p*grid_q );
    slate_Matrix_c32 A = slate_Matrix_create_c32(
        n, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c32 B = slate_Matrix_create_c32(
        n, nrhs, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_c32( A );
    slate_Matrix_insertLocalTiles_c32( B );
    random_Matrix_c32( A );
    random_Matrix_c32( B );

    slate_lu_solve_c32( A, B, NULL );

    slate_Matrix_destroy_c32( A );
    slate_Matrix_destroy_c32( B );
}

//------------------------------------------------------------------------------
void test_lu_c64()
{
    print_func( mpi_rank );

    int64_t n=1000, nrhs=100, nb=256;
    assert( mpi_size == grid_p*grid_q );
    slate_Matrix_c64 A = slate_Matrix_create_c64(
        n, n,    nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_c64 B = slate_Matrix_create_c64(
        n, nrhs, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_c64( A );
    slate_Matrix_insertLocalTiles_c64( B );
    random_Matrix_c64( A );
    random_Matrix_c64( B );

    slate_lu_solve_c64( A, B, NULL );

    slate_Matrix_destroy_c64( A );
    slate_Matrix_destroy_c64( B );
}

//------------------------------------------------------------------------------
void test_lu_inverse_r32()
{
    print_func( mpi_rank );

    int64_t n=1000, nb=256;
    assert( mpi_size == grid_p*grid_q );
    slate_Matrix_r32 A = slate_Matrix_create_r32(
        n, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_r32( A );
    random_Matrix_r32( A );
    slate_Pivots pivots = slate_Pivots_create();

    slate_lu_factor_r32( A, pivots, NULL );
    slate_lu_inverse_using_factor_r32( A, pivots, NULL );

    slate_Matrix_destroy_r32( A );
    slate_Pivots_destroy( pivots );
}

//------------------------------------------------------------------------------
void test_lu_inverse_r64()
{
    print_func( mpi_rank );

    int64_t n=1000, nb=256;
    assert( mpi_size == grid_p*grid_q );
    slate_Matrix_r64 A = slate_Matrix_create_r64(
        n, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_r64( A );
    random_Matrix_r64( A );
    slate_Pivots pivots = slate_Pivots_create();

    slate_lu_factor_r64( A, pivots, NULL );
    slate_lu_inverse_using_factor_r64( A, pivots, NULL );

    slate_Matrix_destroy_r64( A );
    slate_Pivots_destroy( pivots );
}

//------------------------------------------------------------------------------
void test_lu_inverse_c32()
{
    print_func( mpi_rank );

    int64_t n=1000, nb=256;
    assert( mpi_size == grid_p*grid_q );
    slate_Matrix_c32 A = slate_Matrix_create_c32(
        n, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_c32( A );
    random_Matrix_c32( A );
    slate_Pivots pivots = slate_Pivots_create();

    slate_lu_factor_c32( A, pivots, NULL );
    slate_lu_inverse_using_factor_c32( A, pivots, NULL );

    slate_Matrix_destroy_c32( A );
    slate_Pivots_destroy( pivots );
}

//------------------------------------------------------------------------------
void test_lu_inverse_c64()
{
    print_func( mpi_rank );

    int64_t n=1000, nb=256;
    assert( mpi_size == grid_p*grid_q );
    slate_Matrix_c64 A = slate_Matrix_create_c64(
        n, n, nb, grid_p, grid_q, MPI_COMM_WORLD );
    slate_Matrix_insertLocalTiles_c64( A );
    random_Matrix_c64( A );
    slate_Pivots pivots = slate_Pivots_create();

    slate_lu_factor_c64( A, pivots, NULL );
    slate_lu_inverse_using_factor_c64( A, pivots, NULL );

    slate_Matrix_destroy_c64( A );
    slate_Pivots_destroy( pivots );
}

//------------------------------------------------------------------------------
int main( int argc, char** argv )
{
    // Parse command line to set types for s, d, c, z precisions.
    bool types[ 4 ];
    parse_args( argc, argv, types );

    int provided = 0;
    MPI_Init_thread( &argc, &argv, MPI_THREAD_MULTIPLE, &provided );
    assert( provided == MPI_THREAD_MULTIPLE );

    MPI_Comm_size( MPI_COMM_WORLD, &mpi_size );
    MPI_Comm_rank( MPI_COMM_WORLD, &mpi_rank );

    // Determine p-by-q grid for this MPI size.
    grid_size( mpi_size, &grid_p, &grid_q );
    if (mpi_rank == 0) {
        printf( "mpi_size %d, grid_p %d, grid_q %d\n",
                mpi_size, grid_p, grid_q );
    }

    // so random_matrix is different on different ranks.
    srand( 100 * mpi_rank );

    if (types[ 0 ]) {
        test_lu_r32();
        test_lu_inverse_r32();
    }
    if (mpi_rank == 0)
        printf( "\n" );

    if (types[ 1 ]) {
        test_lu_r64();
        test_lu_inverse_r64();
    }
    if (mpi_rank == 0)
        printf( "\n" );

    if (types[ 2 ]) {
        test_lu_c32();
        test_lu_inverse_c32();
    }
    if (mpi_rank == 0)
        printf( "\n" );

    if (types[ 3 ]) {
        test_lu_c64();
        test_lu_inverse_c64();
    }

    MPI_Finalize();

    return 0;
}