doc/master/RBatchGenerator_8hxx_source.html

// Author: Dante Niewenhuis, VU Amsterdam 07/2023

// Author: Kristupas Pranckietis, Vilnius University 05/2024

// Author: Nopphakorn Subsa-Ard, King Mongkut's University of Technology Thonburi (KMUTT) (TH) 08/2024

// Author: Vincenzo Eduardo Padulano, CERN 10/2024

// Author: Martin Føll, University of Oslo (UiO) & CERN 05/2025


/*************************************************************************

 * Copyright (C) 1995-2025, Rene Brun and Fons Rademakers.               *

 * All rights reserved.                                                  *

 *                                                                       *

 * For the licensing terms see $ROOTSYS/LICENSE.                         *

 * For the list of contributors see $ROOTSYS/README/CREDITS.             *

 *************************************************************************/


#ifndef TMVA_RBATCHGENERATOR

#define TMVA_RBATCHGENERATOR


#include "TMVA/BatchGenerator/RFlat2DMatrix.hxx"

#include "ROOT/RDF/RDatasetSpec.hxx"

#include "TMVA/BatchGenerator/RChunkLoader.hxx"

#include "TMVA/BatchGenerator/RBatchLoader.hxx"

#include "TROOT.h"


#include <cmath>

#include <memory>

#include <mutex>

#include <random>

#include <thread>

#include <variant>

#include <vector>


namespace TMVA {

namespace Experimental {


namespace Internal {


// clang-format off

/**

\class ROOT::TMVA::Experimental::Internal::RBatchGenerator

\ingroup tmva

\brief


In this class, the processes of loading chunks (see RChunkLoader) and creating batches from those chunks (see RBatchLoader) are combined, allowing batches from the training and validation sets to be loaded directly from a dataset in an RDataFrame.

*/


template <typename... Args>


class RBatchGenerator {

private:

   std::vector<std::string> fCols;

   // clang-format on

   std::size_t fChunkSize;

   std::size_t fMaxChunks;

   std::size_t fBatchSize;

   std::size_t fBlockSize;

   std::size_t fNumColumns;

   std::size_t fNumChunkCols;

   std::size_t fNumEntries;

   std::size_t fSetSeed;

   std::size_t fSumVecSizes;


   ROOT::RDF::RResultPtr<std::vector<ULong64_t>> fEntries;

   float fValidationSplit;


   std::unique_ptr<RChunkLoader<Args...>> fChunkLoader;

   std::unique_ptr<RBatchLoader> fBatchLoader;


   std::unique_ptr<std::thread> fLoadingThread;


   std::size_t fTrainingChunkNum;

   std::size_t fValidationChunkNum;


   ROOT::RDF::RNode &f_rdf;


   std::mutex fIsActiveMutex;


   bool fDropRemainder;

   bool fShuffle;

   bool fIsActive{false}; // Whether the loading thread is active

   bool fNotFiltered;

   bool fUseWholeFile;


   bool fEpochActive{false};

   bool fTrainingEpochActive{false};

   bool fValidationEpochActive{false};


   std::size_t fNumTrainingEntries;

   std::size_t fNumValidationEntries;


   std::size_t fNumTrainingChunks;

   std::size_t fNumValidationChunks;


   std::size_t fLeftoverTrainingBatchSize;

   std::size_t fLeftoverValidationBatchSize;


   std::size_t fNumFullTrainingBatches;

   std::size_t fNumFullValidationBatches;


   std::size_t fNumLeftoverTrainingBatches;

   std::size_t fNumLeftoverValidationBatches;


   std::size_t fNumTrainingBatches;

   std::size_t fNumValidationBatches;


   // flattened buffers for chunks and temporary tensors (rows * cols)

   RFlat2DMatrix fTrainTensor;

   RFlat2DMatrix fTrainChunkTensor;


   RFlat2DMatrix fValidationTensor;

   RFlat2DMatrix fValidationChunkTensor;


public:


   RBatchGenerator(ROOT::RDF::RNode &rdf, const std::size_t chunkSize, const std::size_t blockSize,

                   const std::size_t batchSize, const std::vector<std::string> &cols,

                   const std::vector<std::size_t> &vecSizes = {}, const float vecPadding = 0.0,

                   const float validationSplit = 0.0, const std::size_t maxChunks = 0, bool shuffle = true,

                   bool dropRemainder = true, const std::size_t setSeed = 0)


      : f_rdf(rdf),

        fCols(cols),

        fChunkSize(chunkSize),

        fBlockSize(blockSize),

        fBatchSize(batchSize),

        fValidationSplit(validationSplit),

        fMaxChunks(maxChunks),

        fDropRemainder(dropRemainder),

        fSetSeed(setSeed),

        fShuffle(shuffle),

        fNotFiltered(f_rdf.GetFilterNames().empty()),

        fUseWholeFile(maxChunks == 0),

        fNumColumns(cols.size())

   {


      fNumEntries = f_rdf.Count().GetValue();

      fEntries = f_rdf.Take<ULong64_t>("rdfentry_");


      fSumVecSizes = std::accumulate(vecSizes.begin(), vecSizes.end(), 0);

      fNumChunkCols = fNumColumns + fSumVecSizes - vecSizes.size();


      // add the last element in entries to not go out of range when filling chunks

      fEntries->push_back((*fEntries)[fNumEntries - 1] + 1);


      fChunkLoader =

         std::make_unique<RChunkLoader<Args...>>(f_rdf, fNumEntries, fEntries, fChunkSize, fBlockSize, fValidationSplit,

                                                 fCols, vecSizes, vecPadding, fShuffle, fSetSeed);

      fBatchLoader = std::make_unique<RBatchLoader>(fBatchSize, fNumChunkCols);


      // split the dataset into training and validation sets

      fChunkLoader->SplitDataset();


      // number of training and validation entries after the split

      fNumValidationEntries = static_cast<std::size_t>(fValidationSplit * fNumEntries);

      fNumTrainingEntries = fNumEntries - fNumValidationEntries;


      fLeftoverTrainingBatchSize = fNumTrainingEntries % fBatchSize;

      fLeftoverValidationBatchSize = fNumValidationEntries % fBatchSize;


      fNumFullTrainingBatches = fNumTrainingEntries / fBatchSize;

      fNumFullValidationBatches = fNumValidationEntries / fBatchSize;


      fNumLeftoverTrainingBatches = fLeftoverTrainingBatchSize == 0 ? 0 : 1;

      fNumLeftoverValidationBatches = fLeftoverValidationBatchSize == 0 ? 0 : 1;


      if (dropRemainder) {

         fNumTrainingBatches = fNumFullTrainingBatches;

         fNumValidationBatches = fNumFullValidationBatches;

      }


      else {

         fNumTrainingBatches = fNumFullTrainingBatches + fNumLeftoverTrainingBatches;

         fNumValidationBatches = fNumFullValidationBatches + fNumLeftoverValidationBatches;

      }


      // number of training and validation chunks, calculated in RChunkConstructor

      fNumTrainingChunks = fChunkLoader->GetNumTrainingChunks();

      fNumValidationChunks = fChunkLoader->GetNumValidationChunks();


      fTrainingChunkNum = 0;

      fValidationChunkNum = 0;

   }


   ~RBatchGenerator() { DeActivate(); }


   void DeActivate()

   {

      {

         std::lock_guard<std::mutex> lock(fIsActiveMutex);

         fIsActive = false;

      }


      fBatchLoader->DeActivate();


      if (fLoadingThread) {

         if (fLoadingThread->joinable()) {

            fLoadingThread->join();

         }

      }

   }


   /// \brief Activate the loading process by starting the batchloader, and

   /// spawning the loading thread.


   void Activate()

   {

      if (fIsActive)

         return;


      {

         std::lock_guard<std::mutex> lock(fIsActiveMutex);

         fIsActive = true;

      }


      fBatchLoader->Activate();

      // fLoadingThread = std::make_unique<std::thread>(&RBatchGenerator::LoadChunks, this);

   }


   void ActivateEpoch() { fEpochActive = true; }


   void DeActivateEpoch() { fEpochActive = false; }


   void ActivateTrainingEpoch() { fTrainingEpochActive = true; }


   void DeActivateTrainingEpoch() { fTrainingEpochActive = false; }


   void ActivateValidationEpoch() { fValidationEpochActive = true; }


   void DeActivateValidationEpoch() { fValidationEpochActive = false; }


   /// \brief Create training batches by first loading a chunk (see RChunkLoader) and split it into batches (see RBatchLoader)


   void CreateTrainBatches()

   {


      fChunkLoader->CreateTrainingChunksIntervals();

      fTrainingEpochActive = true;

      fTrainingChunkNum = 0;

      fChunkLoader->LoadTrainingChunk(fTrainChunkTensor, fTrainingChunkNum);

      std::size_t lastTrainingBatch = fNumTrainingChunks - fTrainingChunkNum;

      fBatchLoader->CreateTrainingBatches(fTrainChunkTensor, lastTrainingBatch, fLeftoverTrainingBatchSize,

                                          fDropRemainder);

      fTrainingChunkNum++;

   }


   /// \brief Creates validation batches by first loading a chunk (see RChunkLoader), and then split it into batches (see RBatchLoader)


   void CreateValidationBatches()

   {


      fChunkLoader->CreateValidationChunksIntervals();

      fValidationEpochActive = true;

      fValidationChunkNum = 0;

      fChunkLoader->LoadValidationChunk(fValidationChunkTensor, fValidationChunkNum);

      std::size_t lastValidationBatch = fNumValidationChunks - fValidationChunkNum;

      fBatchLoader->CreateValidationBatches(fValidationChunkTensor, lastValidationBatch, fLeftoverValidationBatchSize,

                                            fDropRemainder);

      fValidationChunkNum++;

   }


   /// \brief Loads a training batch from the queue


   RFlat2DMatrix GetTrainBatch()

   {

      auto batchQueue = fBatchLoader->GetNumTrainingBatchQueue();


      // load the next chunk if the queue is empty

      if (batchQueue < 1 && fTrainingChunkNum < fNumTrainingChunks) {

         fChunkLoader->LoadTrainingChunk(fTrainChunkTensor, fTrainingChunkNum);

         std::size_t lastTrainingBatch = fNumTrainingChunks - fTrainingChunkNum;

         fBatchLoader->CreateTrainingBatches(fTrainChunkTensor, lastTrainingBatch, fLeftoverTrainingBatchSize,

                                             fDropRemainder);

         fTrainingChunkNum++;

      }


      else {

         ROOT::Internal::RDF::ChangeBeginAndEndEntries(f_rdf, 0, fNumEntries);

      }


      // Get next batch if available

      return fBatchLoader->GetTrainBatch();

   }


   /// \brief Loads a validation batch from the queue


   RFlat2DMatrix GetValidationBatch()

   {

      auto batchQueue = fBatchLoader->GetNumValidationBatchQueue();


      // load the next chunk if the queue is empty

      if (batchQueue < 1 && fValidationChunkNum < fNumValidationChunks) {

         fChunkLoader->LoadValidationChunk(fValidationChunkTensor, fValidationChunkNum);

         std::size_t lastValidationBatch = fNumValidationChunks - fValidationChunkNum;

         fBatchLoader->CreateValidationBatches(fValidationChunkTensor, lastValidationBatch,

                                               fLeftoverValidationBatchSize, fDropRemainder);

         fValidationChunkNum++;

      }


      else {

         ROOT::Internal::RDF::ChangeBeginAndEndEntries(f_rdf, 0, fNumEntries);

      }


      // Get next batch if available

      return fBatchLoader->GetValidationBatch();

   }


   std::size_t NumberOfTrainingBatches() { return fNumTrainingBatches; }

   std::size_t NumberOfValidationBatches() { return fNumValidationBatches; }


   std::size_t TrainRemainderRows() { return fLeftoverTrainingBatchSize; }

   std::size_t ValidationRemainderRows() { return fLeftoverValidationBatchSize; }


   bool IsActive() { return fIsActive; }

   bool TrainingIsActive() { return fTrainingEpochActive; }

   /// \brief Returns the next batch of validation data if available.

   /// Returns empty RTensor otherwise.

};


} // namespace Internal


} // namespace Experimental

} // namespace TMVA


#endif // TMVA_RBATCHGENERATOR

RBatchLoader.hxx

RChunkLoader.hxx

RDatasetSpec.hxx

RFlat2DMatrix.hxx

size
size_t size(const MatrixT &matrix)
retrieve the size of a square matrix

TRangeDynCast
ROOT::Detail::TRangeCast< T, true > TRangeDynCast
TRangeDynCast is an adapter class that allows the typed iteration through a TCollection.
Definition TCollection.h:360

TROOT.h

ROOT::Detail::TRangeCast
Definition TCollection.h:313

ROOT::RDF::RInterface
The public interface to the RDataFrame federation of classes.
Definition RInterface.hxx:116

ROOT::RDF::RInterface::Take
RResultPtr< COLL > Take(std::string_view column="")
Return a collection of values of a column (lazy action, returns a std::vector by default).
Definition RInterface.hxx:1847

ROOT::RDF::RInterface::Count
RResultPtr< ULong64_t > Count()
Return the number of entries processed (lazy action).
Definition RInterface.hxx:1815

ROOT::RDF::RResultPtr
Smart pointer for the return type of actions.
Definition RResultPtr.hxx:131

ROOT::RRangeCast::begin
const_iterator begin() const
Definition RRangeCast.hxx:104

ROOT::RRangeCast::end
const_iterator end() const
Definition RRangeCast.hxx:105

TMVA::Experimental::Internal::RBatchGenerator
Definition RBatchGenerator.hxx:46

TMVA::Experimental::Internal::RBatchGenerator::fValidationEpochActive
bool fValidationEpochActive
Definition RBatchGenerator.hxx:83

TMVA::Experimental::Internal::RBatchGenerator::fNumLeftoverTrainingBatches
std::size_t fNumLeftoverTrainingBatches
Definition RBatchGenerator.hxx:97

TMVA::Experimental::Internal::RBatchGenerator::ActivateTrainingEpoch
void ActivateTrainingEpoch()
Definition RBatchGenerator.hxx:218

TMVA::Experimental::Internal::RBatchGenerator::ValidationRemainderRows
std::size_t ValidationRemainderRows()
Definition RBatchGenerator.hxx:302

TMVA::Experimental::Internal::RBatchGenerator::fBlockSize
std::size_t fBlockSize
Definition RBatchGenerator.hxx:53

TMVA::Experimental::Internal::RBatchGenerator::f_rdf
ROOT::RDF::RNode & f_rdf
Definition RBatchGenerator.hxx:71

TMVA::Experimental::Internal::RBatchGenerator::TrainRemainderRows
std::size_t TrainRemainderRows()
Definition RBatchGenerator.hxx:301

TMVA::Experimental::Internal::RBatchGenerator::~RBatchGenerator
~RBatchGenerator()
Definition RBatchGenerator.hxx:180

TMVA::Experimental::Internal::RBatchGenerator::RBatchGenerator
RBatchGenerator(ROOT::RDF::RNode &rdf, const std::size_t chunkSize, const std::size_t blockSize, const std::size_t batchSize, const std::vector< std::string > &cols, const std::vector< std::size_t > &vecSizes={}, const float vecPadding=0.0, const float validationSplit=0.0, const std::size_t maxChunks=0, bool shuffle=true, bool dropRemainder=true, const std::size_t setSeed=0)
Definition RBatchGenerator.hxx:111

TMVA::Experimental::Internal::RBatchGenerator::fValidationChunkNum
std::size_t fValidationChunkNum
Definition RBatchGenerator.hxx:69

TMVA::Experimental::Internal::RBatchGenerator::fTrainTensor
RFlat2DMatrix fTrainTensor
Definition RBatchGenerator.hxx:104

TMVA::Experimental::Internal::RBatchGenerator::fNumValidationChunks
std::size_t fNumValidationChunks
Definition RBatchGenerator.hxx:89

TMVA::Experimental::Internal::RBatchGenerator::fDropRemainder
bool fDropRemainder
Definition RBatchGenerator.hxx:75

TMVA::Experimental::Internal::RBatchGenerator::fNumTrainingEntries
std::size_t fNumTrainingEntries
Definition RBatchGenerator.hxx:85

TMVA::Experimental::Internal::RBatchGenerator::fLoadingThread
std::unique_ptr< std::thread > fLoadingThread
Definition RBatchGenerator.hxx:66

TMVA::Experimental::Internal::RBatchGenerator::NumberOfTrainingBatches
std::size_t NumberOfTrainingBatches()
Definition RBatchGenerator.hxx:298

TMVA::Experimental::Internal::RBatchGenerator::fNumLeftoverValidationBatches
std::size_t fNumLeftoverValidationBatches
Definition RBatchGenerator.hxx:98

TMVA::Experimental::Internal::RBatchGenerator::fNumValidationEntries
std::size_t fNumValidationEntries
Definition RBatchGenerator.hxx:86

TMVA::Experimental::Internal::RBatchGenerator::fValidationSplit
float fValidationSplit
Definition RBatchGenerator.hxx:61

TMVA::Experimental::Internal::RBatchGenerator::fTrainingChunkNum
std::size_t fTrainingChunkNum
Definition RBatchGenerator.hxx:68

TMVA::Experimental::Internal::RBatchGenerator::Activate
void Activate()
Activate the loading process by starting the batchloader, and spawning the loading thread.
Definition RBatchGenerator.hxx:200

TMVA::Experimental::Internal::RBatchGenerator::NumberOfValidationBatches
std::size_t NumberOfValidationBatches()
Definition RBatchGenerator.hxx:299

TMVA::Experimental::Internal::RBatchGenerator::IsActive
bool IsActive()
Definition RBatchGenerator.hxx:304

TMVA::Experimental::Internal::RBatchGenerator::CreateValidationBatches
void CreateValidationBatches()
Creates validation batches by first loading a chunk (see RChunkLoader), and then split it into batche...
Definition RBatchGenerator.hxx:241

TMVA::Experimental::Internal::RBatchGenerator::fEpochActive
bool fEpochActive
Definition RBatchGenerator.hxx:81

TMVA::Experimental::Internal::RBatchGenerator::fNumTrainingBatches
std::size_t fNumTrainingBatches
Definition RBatchGenerator.hxx:100

TMVA::Experimental::Internal::RBatchGenerator::fNumChunkCols
std::size_t fNumChunkCols
Definition RBatchGenerator.hxx:55

TMVA::Experimental::Internal::RBatchGenerator::TrainingIsActive
bool TrainingIsActive()
Definition RBatchGenerator.hxx:305

TMVA::Experimental::Internal::RBatchGenerator::fValidationTensor
RFlat2DMatrix fValidationTensor
Definition RBatchGenerator.hxx:107

TMVA::Experimental::Internal::RBatchGenerator::fNumFullValidationBatches
std::size_t fNumFullValidationBatches
Definition RBatchGenerator.hxx:95

TMVA::Experimental::Internal::RBatchGenerator::fChunkSize
std::size_t fChunkSize
Definition RBatchGenerator.hxx:50

TMVA::Experimental::Internal::RBatchGenerator::fCols
std::vector< std::string > fCols
Definition RBatchGenerator.hxx:48

TMVA::Experimental::Internal::RBatchGenerator::CreateTrainBatches
void CreateTrainBatches()
Create training batches by first loading a chunk (see RChunkLoader) and split it into batches (see RB...
Definition RBatchGenerator.hxx:227

TMVA::Experimental::Internal::RBatchGenerator::DeActivateValidationEpoch
void DeActivateValidationEpoch()
Definition RBatchGenerator.hxx:224

TMVA::Experimental::Internal::RBatchGenerator::ActivateEpoch
void ActivateEpoch()
Definition RBatchGenerator.hxx:214

TMVA::Experimental::Internal::RBatchGenerator::fBatchSize
std::size_t fBatchSize
Definition RBatchGenerator.hxx:52

TMVA::Experimental::Internal::RBatchGenerator::fNumFullTrainingBatches
std::size_t fNumFullTrainingBatches
Definition RBatchGenerator.hxx:94

TMVA::Experimental::Internal::RBatchGenerator::fIsActive
bool fIsActive
Definition RBatchGenerator.hxx:77

TMVA::Experimental::Internal::RBatchGenerator::fMaxChunks
std::size_t fMaxChunks
Definition RBatchGenerator.hxx:51

TMVA::Experimental::Internal::RBatchGenerator::DeActivateEpoch
void DeActivateEpoch()
Definition RBatchGenerator.hxx:216

TMVA::Experimental::Internal::RBatchGenerator::fUseWholeFile
bool fUseWholeFile
Definition RBatchGenerator.hxx:79

TMVA::Experimental::Internal::RBatchGenerator::GetValidationBatch
RFlat2DMatrix GetValidationBatch()
Loads a validation batch from the queue.
Definition RBatchGenerator.hxx:277

TMVA::Experimental::Internal::RBatchGenerator::DeActivate
void DeActivate()
Definition RBatchGenerator.hxx:182

TMVA::Experimental::Internal::RBatchGenerator::fSetSeed
std::size_t fSetSeed
Definition RBatchGenerator.hxx:57

TMVA::Experimental::Internal::RBatchGenerator::fNotFiltered
bool fNotFiltered
Definition RBatchGenerator.hxx:78

TMVA::Experimental::Internal::RBatchGenerator::DeActivateTrainingEpoch
void DeActivateTrainingEpoch()
Definition RBatchGenerator.hxx:220

TMVA::Experimental::Internal::RBatchGenerator::fChunkLoader
std::unique_ptr< RChunkLoader< Args... > > fChunkLoader
Definition RBatchGenerator.hxx:63

TMVA::Experimental::Internal::RBatchGenerator::fNumTrainingChunks
std::size_t fNumTrainingChunks
Definition RBatchGenerator.hxx:88

TMVA::Experimental::Internal::RBatchGenerator::fNumValidationBatches
std::size_t fNumValidationBatches
Definition RBatchGenerator.hxx:101

TMVA::Experimental::Internal::RBatchGenerator::fValidationChunkTensor
RFlat2DMatrix fValidationChunkTensor
Definition RBatchGenerator.hxx:108

TMVA::Experimental::Internal::RBatchGenerator::fShuffle
bool fShuffle
Definition RBatchGenerator.hxx:76

TMVA::Experimental::Internal::RBatchGenerator::fNumColumns
std::size_t fNumColumns
Definition RBatchGenerator.hxx:54

TMVA::Experimental::Internal::RBatchGenerator::fBatchLoader
std::unique_ptr< RBatchLoader > fBatchLoader
Definition RBatchGenerator.hxx:64

TMVA::Experimental::Internal::RBatchGenerator::fIsActiveMutex
std::mutex fIsActiveMutex
Definition RBatchGenerator.hxx:73

TMVA::Experimental::Internal::RBatchGenerator::fEntries
ROOT::RDF::RResultPtr< std::vector< ULong64_t > > fEntries
Definition RBatchGenerator.hxx:60

TMVA::Experimental::Internal::RBatchGenerator::GetTrainBatch
RFlat2DMatrix GetTrainBatch()
Loads a training batch from the queue.
Definition RBatchGenerator.hxx:255

TMVA::Experimental::Internal::RBatchGenerator::fTrainingEpochActive
bool fTrainingEpochActive
Definition RBatchGenerator.hxx:82

TMVA::Experimental::Internal::RBatchGenerator::fLeftoverTrainingBatchSize
std::size_t fLeftoverTrainingBatchSize
Definition RBatchGenerator.hxx:91

TMVA::Experimental::Internal::RBatchGenerator::fSumVecSizes
std::size_t fSumVecSizes
Definition RBatchGenerator.hxx:58

TMVA::Experimental::Internal::RBatchGenerator::fNumEntries
std::size_t fNumEntries
Definition RBatchGenerator.hxx:56

TMVA::Experimental::Internal::RBatchGenerator::fTrainChunkTensor
RFlat2DMatrix fTrainChunkTensor
Definition RBatchGenerator.hxx:105

TMVA::Experimental::Internal::RBatchGenerator::fLeftoverValidationBatchSize
std::size_t fLeftoverValidationBatchSize
Definition RBatchGenerator.hxx:92

TMVA::Experimental::Internal::RBatchGenerator::ActivateValidationEpoch
void ActivateValidationEpoch()
Definition RBatchGenerator.hxx:222

TMVA::Experimental::Internal::RChunkLoader
Definition RChunkLoader.hxx:107

ROOT::Internal::RDF::ChangeBeginAndEndEntries
void ChangeBeginAndEndEntries(const RNode &node, Long64_t begin, Long64_t end)
Definition RInterface.cxx:20

TMVA
create variable transformations
Definition GeneticMinimizer.h:22

TMVA::Experimental::Internal::RFlat2DMatrix
Wrapper around ROOT::RVec<float> representing a 2D matrix.
Definition RFlat2DMatrix.hxx:13