
        

GPT2
        length of dataset in tokens: 17,126
        #########################################
        
        

BERT
        length of dataset in tokens: 18,199
        #########################################
        
        

LLAMA2
        length of dataset in tokens: 19,961
        #########################################
        
        

BLOOM
        length of dataset in tokens: 17,303
        #########################################
        
        

CHAR
        length of dataset in tokens: 85,040
        #########################################
        