
        

GPT2
        length of dataset in tokens: 338,025
        #########################################
        
        

BERT
        length of dataset in tokens: 316,541
        #########################################
        
        

LLAMA2
        length of dataset in tokens: 368,634
        #########################################
        
        

BLOOM
        length of dataset in tokens: 315,430
        #########################################
        
        

CHAR
        length of dataset in tokens: 1,115,394
        #########################################
        