
        

GPT2
        length of dataset in tokens: 8,060
        #########################################
        
        

BERT
        length of dataset in tokens: 8,248
        #########################################
        
        

LLAMA2
        length of dataset in tokens: 9,516
        #########################################
        
        

BLOOM
        length of dataset in tokens: 7,761
        #########################################
        
        

CHAR
        length of dataset in tokens: 40,056
        #########################################
        