# The wikipedia en dataset, drawn from it huggingface mirror
wikipedia:
  provider: huggingface
  split: train
  language: aa
  date: 20230501
  beam_runner: DirectRunner

  streaming: False
  # source-specific cleaning rules?
  remove_columns:
    - title
    - id
    - url
  concatenate_successive_entries: 0
# Largest wikipedias by number of edits:
# 1	English	English	en	6,659,483	58,215,121	1,151,579,477	906	45,584,087	123,321	903,564	1,185
# 3	German	Deutsch	de	2,802,686	7,734,475	232,394,635	181	4,151,845	17,653	127,616	93
# 5	French	français	fr	2,523,668	12,575,427	204,020,377	151	4,663,100	18,526	70,914	257
# 8	Spanish	español	es	1,863,652	7,910,108	150,859,896	58	6,852,150	15,351	0	200
# 9	Italian	italiano	it	1,811,415	7,722,223	133,317,307	121	2,385,030	8,243	132,090	183
# 7	Russian	русский	ru	1,916,982	7,692,915	130,286,104	73	3,390,672	10,767	243,486	153
# 12	Japanese	日本語	ja	1,374,506	4,046,260	95,100,767	42	2,073,351	14,276	5,224	88
# 13	Chinese	中文	zh	1,355,459	7,391,302	77,057,834	66	3,349,518	8,130	63,606	206
# 11	Polish	polski	pl	1,568,659	3,615,234	70,221,460	99	1,238,507	4,160	260	33
# 14	Vietnamese	Tiếng Việt	vi	1,283,465	19,420,950	69,962,878	18	910,878	1,967	25,678	719
# 18	Portuguese	português	pt	1,104,003	5,518,004	65,729,139	52	2,919,614	8,795	59,616	190
# 6	Dutch	Nederlands	nl	2,122,986	4,535,116	64,182,014	35	1,277,350	3,879	20	18
# 17	Arabic	العربية	ar	1,206,423	8,102,881	62,432,973	21	2,424,027	4,936	51,768	251
# 4	Swedish	svenska	sv	2,563,664	6,171,478	52,792,057	67	866,731	2,110	0	16
# 31	Serbo-Croatian	srpskohrvatski / српскохрватски	sh	458,175	4,647,980	41,411,215	8	185,507	177	10,191	745
# 16	Ukrainian	українська	uk	1,264,672	4,387,345	39,454,555	48	690,061	3,776	112,068	54
# 19	Persian	فارسی	fa	963,389	5,507,726	37,104,400	36	1,220,157	5,721	85,480	149
# 37	Hebrew	עברית	he	334,903	1,416,566	36,280,296	31	1,078,699	3,371	76,299	267
# 2	Cebuano	Cebuano	ceb	6,123,356	11,226,374	34,960,749	5	103,079	174	0	2
# 23	Korean	한국어	ko

# Language must be any of
# WIKIPEDIA_LANGUAGES = [
#     "aa",
#     "ab",
#     "ace",
#     "ady",
#     "af",
#     "ak",
#     "als",
#     "am",
#     "an",
#     "ang",
#     "ar",
#     "arc",
#     "arz",
#     "as",
#     "ast",
#     "atj",
#     "av",
#     "ay",
#     "az",
#     "azb",
#     "ba",
#     "bar",
#     "bat-smg",
#     "bcl",
#     "be",
#     "be-x-old",
#     "bg",
#     "bh",
#     "bi",
#     "bjn",
#     "bm",
#     "bn",
#     "bo",
#     "bpy",
#     "br",
#     "bs",
#     "bug",
#     "bxr",
#     "ca",
#     "cbk-zam",
#     "cdo",
#     "ce",
#     "ceb",
#     "ch",
#     "cho",
#     "chr",
#     "chy",
#     "ckb",
#     "co",
#     "cr",
#     "crh",
#     "cs",
#     "csb",
#     "cu",
#     "cv",
#     "cy",
#     "da",
#     "de",
#     "din",
#     "diq",
#     "dsb",
#     "dty",
#     "dv",
#     "dz",
#     "ee",
#     "el",
#     "eml",
#     "en",
#     "eo",
#     "es",
#     "et",
#     "eu",
#     "ext",
#     "fa",
#     "ff",
#     "fi",
#     "fiu-vro",
#     "fj",
#     "fo",
#     "fr",
#     "frp",
#     "frr",
#     "fur",
#     "fy",
#     "ga",
#     "gag",
#     "gan",
#     "gd",
#     "gl",
#     "glk",
#     "gn",
#     "gom",
#     "gor",
#     "got",
#     "gu",
#     "gv",
#     "ha",
#     "hak",
#     "haw",
#     "he",
#     "hi",
#     "hif",
#     "ho",
#     "hr",
#     "hsb",
#     "ht",
#     "hu",
#     "hy",
#     "ia",
#     "id",
#     "ie",
#     "ig",
#     "ii",
#     "ik",
#     "ilo",
#     "inh",
#     "io",
#     "is",
#     "it",
#     "iu",
#     "ja",
#     "jam",
#     "jbo",
#     "jv",
#     "ka",
#     "kaa",
#     "kab",
#     "kbd",
#     "kbp",
#     "kg",
#     "ki",
#     "kj",
#     "kk",
#     "kl",
#     "km",
#     "kn",
#     "ko",
#     "koi",
#     "krc",
#     "ks",
#     "ksh",
#     "ku",
#     "kv",
#     "kw",
#     "ky",
#     "la",
#     "lad",
#     "lb",
#     "lbe",
#     "lez",
#     "lfn",
#     "lg",
#     "li",
#     "lij",
#     "lmo",
#     "ln",
#     "lo",
#     "lrc",
#     "lt",
#     "ltg",
#     "lv",
#     "mai",
#     "map-bms",
#     "mdf",
#     "mg",
#     "mh",
#     "mhr",
#     "mi",
#     "min",
#     "mk",
#     "ml",
#     "mn",
#     "mr",
#     "mrj",
#     "ms",
#     "mt",
#     "mus",
#     "mwl",
#     "my",
#     "myv",
#     "mzn",
#     "na",
#     "nah",
#     "nap",
#     "nds",
#     "nds-nl",
#     "ne",
#     "new",
#     "ng",
#     "nl",
#     "nn",
#     "no",
#     "nov",
#     "nrm",
#     "nso",
#     "nv",
#     "ny",
#     "oc",
#     "olo",
#     "om",
#     "or",
#     "os",
#     "pa",
#     "pag",
#     "pam",
#     "pap",
#     "pcd",
#     "pdc",
#     "pfl",
#     "pi",
#     "pih",
#     "pl",
#     "pms",
#     "pnb",
#     "pnt",
#     "ps",
#     "pt",
#     "qu",
#     "rm",
#     "rmy",
#     "rn",
#     "ro",
#     "roa-rup",
#     "roa-tara",
#     "ru",
#     "rue",
#     "rw",
#     "sa",
#     "sah",
#     "sat",
#     "sc",
#     "scn",
#     "sco",
#     "sd",
#     "se",
#     "sg",
#     "sh",
#     "si",
#     "simple",
#     "sk",
#     "sl",
#     "sm",
#     "sn",
#     "so",
#     "sq",
#     "sr",
#     "srn",
#     "ss",
#     "st",
#     "stq",
#     "su",
#     "sv",
#     "sw",
#     "szl",
#     "ta",
#     "tcy",
#     "te",
#     "tet",
#     "tg",
#     "th",
#     "ti",
#     "tk",
#     "tl",
#     "tn",
#     "to",
#     "tpi",
#     "tr",
#     "ts",
#     "tt",
#     "tum",
#     "tw",
#     "ty",
#     "tyv",
#     "udm",
#     "ug",
#     "uk",
#     "ur",
#     "uz",
#     "ve",
#     "vec",
#     "vep",
#     "vi",
#     "vls",
#     "vo",
#     "wa",
#     "war",
#     "wo",
#     "wuu",
#     "xal",
#     "xh",
#     "xmf",
#     "yi",
#     "yo",
#     "za",
#     "zea",
#     "zh",
#     "zh-classical",
#     "zh-min-nan",
#     "zh-yue",
#     "zu",
# ]
