{"@context":{"@language":"en","@vocab":"https://schema.org/","arrayShape":"cr:arrayShape","citeAs":"cr:citeAs","column":"cr:column","conformsTo":"dct:conformsTo","cr":"http://mlcommons.org/croissant/","data":{"@id":"cr:data","@type":"@json"},"dataBiases":"cr:dataBiases","dataCollection":"cr:dataCollection","dataType":{"@id":"cr:dataType","@type":"@vocab"},"dct":"http://purl.org/dc/terms/","extract":"cr:extract","field":"cr:field","fileProperty":"cr:fileProperty","fileObject":"cr:fileObject","fileSet":"cr:fileSet","format":"cr:format","includes":"cr:includes","isArray":"cr:isArray","isLiveDataset":"cr:isLiveDataset","jsonPath":"cr:jsonPath","key":"cr:key","md5":"cr:md5","parentField":"cr:parentField","path":"cr:path","personalSensitiveInformation":"cr:personalSensitiveInformation","recordSet":"cr:recordSet","references":"cr:references","regex":"cr:regex","repeated":"cr:repeated","replace":"cr:replace","sc":"https://schema.org/","separator":"cr:separator","source":"cr:source","subField":"cr:subField","transform":"cr:transform"},"@type":"sc:Dataset","distribution":[{"@type":"cr:FileObject","@id":"repo","name":"repo","description":"The Hugging Face git repository.","contentUrl":"https://huggingface.co/datasets/SWE-bench/SWE-smith/tree/refs%2Fconvert%2Fparquet","encodingFormat":"git+https","sha256":"https://github.com/mlcommons/croissant/issues/80"},{"@type":"cr:FileSet","@id":"parquet-files-for-config-default","containedIn":{"@id":"repo"},"encodingFormat":"application/x-parquet","includes":"default/*/*.parquet"}],"recordSet":[{"@type":"cr:RecordSet","dataType":"cr:Split","key":{"@id":"default_splits/split_name"},"@id":"default_splits","name":"default_splits","description":"Splits for the default config.","field":[{"@type":"cr:Field","@id":"default_splits/split_name","dataType":"sc:Text"}],"data":[{"default_splits/split_name":"train"}]},{"@type":"cr:RecordSet","@id":"default","description":"SWE-bench/SWE-smith - 'default' subset","field":[{"@type":"cr:Field","@id":"default/split","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"fileProperty":"fullpath"},"transform":{"regex":"default/(?:partial-)?(train)/.+parquet$"}},"references":{"field":{"@id":"default_splits/split_name"}}},{"@type":"cr:Field","@id":"default/instance_id","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"column":"instance_id"}}},{"@type":"cr:Field","@id":"default/repo","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"column":"repo"}}},{"@type":"cr:Field","@id":"default/patch","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"column":"patch"}}},{"@type":"cr:Field","@id":"default/FAIL_TO_PASS","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"column":"FAIL_TO_PASS"}},"isArray":true,"arrayShape":"-1"},{"@type":"cr:Field","@id":"default/PASS_TO_PASS","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"column":"PASS_TO_PASS"}},"isArray":true,"arrayShape":"-1"},{"@type":"cr:Field","@id":"default/created_at","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"column":"created_at"}}},{"@type":"cr:Field","@id":"default/image_name","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"column":"image_name"}}},{"@type":"cr:Field","@id":"default/base_commit","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"column":"base_commit"}}},{"@type":"cr:Field","@id":"default/problem_statement","dataType":"sc:Text","source":{"fileSet":{"@id":"parquet-files-for-config-default"},"extract":{"column":"problem_statement"}}}]}],"conformsTo":"http://mlcommons.org/croissant/1.1","name":"SWE-smith","description":"\n  \n    \n    SWE-smith Dataset\n  \n\n\nCode\n•\nPaper\n•\nSite\n\n\nThe SWE-smith Dataset is a training dataset of 50137 task instances from 128 GitHub repositories, collected using the SWE-smith toolkit.\nIt is the largest dataset to date for training software engineering agents.\nAll SWE-smith task instances come with an executable environment.\nTo learn more about how to use this dataset to train Language Models for Software Engineering, please refer to the documentation.\n","alternateName":["SWE-bench/SWE-smith"],"creator":{"@type":"Organization","name":"SWE-bench","url":"https://huggingface.co/SWE-bench"},"keywords":["text-generation","English","mit","10K - 100K","parquet","Text","Datasets","Dask","Croissant","Polars","arxiv:2504.21798","🇺🇸 Region: US","code","agents","software-engineering"],"license":"https://choosealicense.com/licenses/mit/","url":"https://huggingface.co/datasets/SWE-bench/SWE-smith"}