Running FFN
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13122/13122 [04:43<00:00, 46.36it/s]
Error x mean:  [0. , 0.4, 1.3]
Error x var:  [0.4, 1.4, 2.8]
Error g var:  [0.2, 1. , 2.2]
Error x cov:  [0.4, 1.4, 2.8]
Error g cov:  [0.2, 1. , 2.2]
Running ReLU
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 450/450 [00:04<00:00, 96.54it/s]
Error x mean:  [0.3, 1.3, 2.3]
Error x var:  [0.5, 1.9, 3.4]
Error g var:  [0.6, 1.5, 2.6]
Error x cov:  [0.3, 1.6, 3.1]
Error g cov:  [0.2, 1.1, 2.3]
Running GeLU
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 450/450 [00:18<00:00, 24.47it/s]
Error x mean:  [0.1, 1. , 2.4]
Error x var:  [0.2, 0.6, 1.3]
Error g var:  [0.2, 0.6, 1.1]
Error x cov:  [0.1, 0.5, 1.2]
Error g cov:  [0.1, 0.4, 0.9]
Running LayerNorm
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4050/4050 [01:36<00:00, 41.84it/s]
Error x mean:  [1.4e-05, 9.3e-05, 1.4e-04]
Error x var:  [0., 0., 0.]
Error g var:  [0.4, 1.5, 3.2]
Error x covl:  [0.1, 0.5, 1. ]
Error x covd:  [0., 0., 0.]
Error g cov:  [0.2, 0.9, 2.2]
Running Dropout
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4374/4374 [01:21<00:00, 53.71it/s]
Error x mean:  [0. , 0.1, 0.5]
Error x var:  [0.1, 0.5, 1.5]
Error g var:  [0.1, 0.7, 1.5]
Error x cov:  [0. , 0.4, 1.3]
Error g cov:  [0.1, 0.5, 1.2]
Running Softmax
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 625/625 [00:35<00:00, 17.67it/s]
Error x mean:  [0., 0., 0.]
Error x var full:  [0.2, 0.9, 4. ]
Error x var approx:  [0.1, 0.5, 2.6]
Error g var full:  [0.1, 0.6, 4.5]
Error g var approx:  [0.1, 0.6, 3.7]
Running SHA
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 26244/26244 [08:10<00:00, 53.49it/s]
Error x mean:  [0.2, 1. , 2.5]
Error x var:  [1.4, 4.1, 7.9]
Error g var:  [ 2.2, 13.3, 44.5]
Error x cov:  [1.3, 3.9, 7.5]
Error g cov:  [1.6, 4.5, 8.2]