
        

GPT2
        length of dataset in tokens: 1,126,788
        #########################################
        
        

BERT
        length of dataset in tokens: 1,127,344
        #########################################
        
        

LLAMA2
        length of dataset in tokens: 1,275,933
        #########################################
        
        

BLOOM
        length of dataset in tokens: 1,081,227
        #########################################
        
        

CHAR
        length of dataset in tokens: 4,956,119
        #########################################
        