From 1fa866e31fc5b207d7e186cfaab1999dd1adc68e Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Fri, 10 May 2024 02:38:16 +0000 Subject: [PATCH 01/18] check in config --- data.txt | 2419 +++++++++++++++++++++++++++++++++++++++++++++++ dolma_1b.yaml | 2523 +++++++++++++++++++++++++++++++++++++++++++++++++ owt_1b.yaml | 106 +++ owt_7b.yaml | 100 ++ 4 files changed, 5148 insertions(+) create mode 100644 data.txt create mode 100644 dolma_1b.yaml create mode 100644 owt_1b.yaml create mode 100644 owt_7b.yaml diff --git a/data.txt b/data.txt new file mode 100644 index 000000000..57cfe84a7 --- /dev/null +++ b/data.txt @@ -0,0 +1,2419 @@ +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0049.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0050.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0051.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0052.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0053.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0054.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0055.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0056.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0057.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0058.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0059.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0060.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0061.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0062.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0063.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0064.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0065.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0066.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0067.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0068.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0069.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0070.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0071.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0072.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0073.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0074.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0075.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0076.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0077.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0078.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0079.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0080.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0081.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0082.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0083.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0084.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0085.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0086.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0087.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0088.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0089.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0090.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0091.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0092.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0093.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0094.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0095.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0096.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0097.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0098.json.gz +- gs://levanter-data/markweb/dolma-v1.7/arxiv-0099.json.gz +- gs://levanter-data/markweb/dolma-v1.7/books-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/books-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/books-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0049.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0050.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0051.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0052.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0053.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0054.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0055.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0056.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0057.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0058.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0059.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0060.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0061.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0062.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0063.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0064.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0065.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0066.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0067.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0068.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0069.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0070.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0071.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0072.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0073.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0074.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0075.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0076.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0077.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0078.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0079.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0080.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0081.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0082.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0083.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0084.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0085.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0086.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0087.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0088.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0089.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0090.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0091.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0092.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0093.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0094.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0095.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0096.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0097.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0098.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0099.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0100.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0101.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0102.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0103.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0104.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0105.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0106.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0107.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0108.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0109.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0110.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0111.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0112.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0113.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0114.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0115.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0116.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0117.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0118.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0119.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0120.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0121.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0122.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0123.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0124.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0125.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0126.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0127.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0128.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0129.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0130.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0131.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0132.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0133.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0134.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0135.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0136.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0137.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0138.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0139.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0140.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0141.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0142.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0143.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0144.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0145.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0146.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0147.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0148.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0149.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0150.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0151.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0152.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0153.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0154.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0155.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0156.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0157.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0158.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0159.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0160.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0161.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0162.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0163.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0164.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0165.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0166.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0167.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0168.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0169.json.gz +- gs://levanter-data/markweb/dolma-v1.7/c4-0170.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0049.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0050.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0051.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0052.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0053.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0054.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0055.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0056.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0057.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0058.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0059.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0060.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0061.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0062.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0063.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0064.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0065.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0066.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0067.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0068.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0069.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0070.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0071.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0072.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0073.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0074.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0075.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0076.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0077.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0078.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0079.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0080.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0081.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0082.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0083.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0084.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0085.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0086.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0087.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0088.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0089.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0090.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0091.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0092.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0093.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0094.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0095.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0096.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0097.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0098.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0099.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0100.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0101.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0102.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0103.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0104.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0105.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0106.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0107.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0108.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0109.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0110.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0111.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0112.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0113.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0114.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0115.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0116.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0117.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0118.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0119.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0120.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0121.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0122.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0123.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0124.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0125.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0126.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0127.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0128.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0129.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0130.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0131.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0132.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0133.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0134.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0135.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0136.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0137.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0138.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0139.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0140.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0141.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0142.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0143.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0144.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0145.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0146.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0147.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0148.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0149.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0150.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0151.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0152.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0153.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0154.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0155.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0156.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0157.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0158.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0159.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0160.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0161.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0162.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0163.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0164.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0165.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0166.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0167.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0168.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0169.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0170.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0171.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0172.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0173.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0174.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0175.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0176.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0177.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0178.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0179.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0180.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0181.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0182.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0183.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0184.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0185.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0186.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0187.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0188.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0189.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0190.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0191.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0192.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0193.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0194.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0195.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0196.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0197.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0198.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0199.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0200.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0201.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0202.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0203.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0204.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0205.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0206.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0207.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0208.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0209.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0210.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0211.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0212.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0213.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0214.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0215.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0216.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0217.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0218.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0219.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0220.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0221.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0222.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0223.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0224.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0225.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0226.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0227.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0228.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0229.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0230.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0231.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0232.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0233.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0234.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0235.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0236.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0237.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0238.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0239.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0240.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0241.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0242.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0243.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0244.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0245.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0246.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0247.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0248.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0249.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0250.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0251.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0252.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0253.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0254.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0255.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0256.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0257.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0258.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0259.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0260.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0261.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0262.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0263.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0264.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0265.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0266.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0267.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0268.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0269.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0270.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0271.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0272.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0273.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0274.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0049.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0050.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0051.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0052.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0053.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0054.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0055.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0056.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0057.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0058.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0059.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0060.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0061.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0062.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0063.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0064.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0065.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0066.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0067.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0068.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0069.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0070.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0071.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0072.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0073.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0074.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0075.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0076.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0077.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0078.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0079.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0080.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0081.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0082.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0083.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0084.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0085.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0086.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0087.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0088.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0089.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0090.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0091.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0092.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0093.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0094.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0095.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0096.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0097.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0098.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0099.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0100.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0101.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0102.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0103.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0104.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0105.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0106.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0107.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0108.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0109.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0110.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0111.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0112.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0113.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0114.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0115.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0116.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0117.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0118.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0119.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0120.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0121.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0122.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0123.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0124.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0125.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0126.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0127.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0128.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0129.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0130.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0131.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0132.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0133.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0134.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0135.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0136.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0137.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0138.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0139.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0140.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0141.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0142.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0143.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0144.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0145.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0146.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0147.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0148.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0149.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0150.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0151.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0152.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0153.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0154.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0155.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0156.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0157.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0158.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0159.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0160.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0161.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0162.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0163.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0164.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0165.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0166.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0167.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0168.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0169.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0170.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0171.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0172.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0173.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0174.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0175.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0176.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0177.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0178.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0179.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0180.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0181.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0182.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0183.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0184.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0185.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0186.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0187.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0188.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0189.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0190.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0191.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0192.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0193.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0194.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0195.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0196.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0197.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0198.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0199.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0200.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0201.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0202.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0203.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0204.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0205.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0206.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0207.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0208.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0209.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0210.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0211.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0212.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0213.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0214.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0215.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0216.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0217.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0218.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0219.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0220.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0221.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0222.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0223.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0224.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0225.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0226.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0227.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0228.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0229.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0230.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0231.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0232.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0233.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0234.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0235.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0236.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0237.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0238.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0240.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0241.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0242.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0243.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0244.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0245.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0246.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0247.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0248.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0249.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0250.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0251.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0252.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0253.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0254.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0255.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0256.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0257.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0258.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0259.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0260.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0261.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0262.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0263.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0264.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0265.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0266.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0267.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0268.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0269.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0270.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0271.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0272.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0273.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0274.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0275.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0276.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0277.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0278.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0279.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0280.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0281.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0282.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0283.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0284.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0285.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0286.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0287.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0288.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0289.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0290.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0291.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0292.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0293.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0294.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0295.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0296.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0297.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0298.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0299.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0300.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0301.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0302.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0303.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0304.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0305.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0306.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0307.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0308.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0309.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0310.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0311.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0312.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0313.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0314.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0315.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0316.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0317.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0318.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0319.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0320.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0321.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0322.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0323.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0324.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0325.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0326.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0327.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0328.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0329.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0330.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0331.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0332.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0333.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0334.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0335.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0336.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0337.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0338.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0339.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0340.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0341.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0342.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0343.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0344.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0345.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0346.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0347.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0348.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0349.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0350.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0351.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0352.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0353.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0354.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0355.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0356.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0357.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0358.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0359.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0360.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0361.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0362.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0363.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0364.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0365.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0366.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0367.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0368.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0369.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0370.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0371.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0372.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0373.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0374.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0375.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0376.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0377.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0378.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0379.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0049.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0050.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0051.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0052.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0053.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0054.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0055.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0056.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0057.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0058.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0059.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0060.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0061.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0062.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0063.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0064.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0065.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0066.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0067.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0068.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0069.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0070.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0071.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0072.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0073.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0074.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0075.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0076.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0077.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0078.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0079.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0080.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0081.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0082.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0083.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0084.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0085.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0086.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0087.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0088.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0089.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0090.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0091.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0092.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0093.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0094.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0095.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0096.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0097.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0098.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0099.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0100.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0101.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0102.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0103.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0104.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0105.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0106.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0107.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0108.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0109.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0110.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0111.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0112.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0113.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0114.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0115.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0116.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0117.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0118.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0119.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0120.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0121.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0122.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0123.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0124.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0125.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0126.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0127.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0128.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0129.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0130.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0131.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0132.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0133.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0134.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0135.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0136.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0137.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0138.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0139.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0140.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0141.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0142.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0143.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0144.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0145.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0146.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0147.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0148.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0149.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0150.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0151.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0152.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0154.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0155.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0156.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0157.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0158.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0159.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0160.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0161.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0162.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0163.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0164.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0165.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0166.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0167.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0168.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0169.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0170.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0171.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0172.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0173.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0174.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0175.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0176.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0177.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0178.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0179.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0180.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0181.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0182.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0183.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0184.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0185.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0186.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0187.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0188.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0189.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0190.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0191.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0192.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0193.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0194.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0195.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0196.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0197.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0198.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0199.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0200.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0201.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0202.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0203.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0204.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0205.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0206.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0207.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0208.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0209.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0210.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0211.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0212.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0213.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0214.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0215.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0216.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0217.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0218.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0219.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0220.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0221.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0222.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0223.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0224.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0225.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0226.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0227.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0228.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0229.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0230.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0231.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0232.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0233.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0234.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0235.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0236.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0237.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0238.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0239.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0240.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0241.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0242.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0243.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0244.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0245.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0246.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0247.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0248.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0249.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0250.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0251.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0252.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0253.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0254.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0255.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0256.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0257.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0258.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0259.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0260.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0261.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0262.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0263.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0264.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0265.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0266.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0267.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0268.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0269.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0270.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0271.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0272.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0273.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0274.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0275.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0276.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0277.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0278.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0279.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0280.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0281.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0282.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0283.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0284.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0285.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0286.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0287.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0288.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0289.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0290.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0291.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0292.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0293.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0294.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0295.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0296.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0297.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0298.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0299.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0300.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0301.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0302.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0303.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0304.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0305.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0306.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0307.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0308.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0309.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0310.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0311.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0312.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0313.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0314.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0315.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0316.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0317.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0318.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0319.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0320.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0321.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0322.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0323.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0324.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0325.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0326.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0327.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0328.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0329.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0330.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0331.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0332.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0333.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0334.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0335.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0336.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0337.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0338.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0339.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0340.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0341.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0342.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0343.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0344.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0345.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0346.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0347.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0348.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0349.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0350.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0351.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0352.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0353.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0354.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0355.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0356.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0357.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0358.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0359.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0360.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0361.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0362.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0363.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0364.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0365.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0366.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0367.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0368.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0369.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0370.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0371.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0372.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0373.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0374.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0375.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0376.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0377.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0378.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0379.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0380.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0381.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0382.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0383.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0384.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0385.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0386.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0387.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0388.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0389.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0390.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0391.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0392.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0393.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0394.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0395.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0396.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0397.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0398.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0399.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0400.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0401.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0402.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0403.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0404.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0405.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0406.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0407.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0408.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0409.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0410.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0411.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0412.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0413.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0414.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0415.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0416.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0417.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0418.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0419.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0420.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0421.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0422.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0423.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0424.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0425.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0426.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0427.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0428.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0429.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0430.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0431.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0432.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0433.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0434.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0435.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0436.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0437.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0438.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0439.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0440.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0441.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0442.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0443.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0444.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz.1 +- gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz.2 +- gs://levanter-data/markweb/dolma-v1.7/cc_news-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_news-0001.json.gz.1 +- gs://levanter-data/markweb/dolma-v1.7/cc_news-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_news-0002.json.gz.1 +- gs://levanter-data/markweb/dolma-v1.7/cc_news-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/cc_news-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0049.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0050.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0051.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0052.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0053.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0054.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0055.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0056.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0057.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0058.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0059.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0060.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0061.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0062.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0063.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0064.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0065.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0066.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0067.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0068.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0069.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0070.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0071.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0072.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0073.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0074.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0075.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0076.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0077.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0078.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0079.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0080.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0081.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0082.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0083.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0084.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0085.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0086.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0087.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0088.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0089.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0090.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0091.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0092.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0093.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0094.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0095.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0096.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0097.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0098.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0099.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0100.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0101.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0102.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0103.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0104.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0105.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0106.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0107.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0108.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0109.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0110.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0111.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0112.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0113.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0114.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0115.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0116.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0117.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0118.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0119.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0120.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0121.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0122.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0123.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0124.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0125.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0126.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0127.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0128.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0129.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0130.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0131.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0132.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0133.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0134.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0135.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0136.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0137.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0138.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0139.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0140.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0141.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0142.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0143.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0144.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0145.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0146.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0147.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0148.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0149.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0150.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0151.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0152.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0153.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0154.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0155.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0156.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0157.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0158.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0159.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0160.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0161.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0162.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0163.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0164.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0165.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0166.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0167.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0168.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0169.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0170.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0171.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0172.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0173.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0174.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0175.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0176.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0177.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0178.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0179.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0180.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0181.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0182.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0183.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0184.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0185.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0186.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0187.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0188.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0189.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0190.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0191.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0192.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0193.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0194.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0195.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0196.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0197.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0198.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0199.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0200.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0201.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0202.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0203.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0204.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0205.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0206.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0207.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0208.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0209.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0210.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0211.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0212.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0213.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0214.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0215.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0216.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0217.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0218.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0219.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0220.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0221.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0222.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0223.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0224.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0225.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0226.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0227.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0228.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0229.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0230.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0231.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0232.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0233.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0234.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0235.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0236.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0237.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0238.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0239.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0240.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0241.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0242.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0243.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0244.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0245.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0246.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0247.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0248.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0249.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0250.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0251.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0252.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0253.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0254.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0255.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0256.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0257.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0258.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0259.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0260.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0261.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0262.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0263.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0264.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0265.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0266.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0267.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0268.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0269.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0270.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0271.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0272.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0273.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0274.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0275.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0276.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0277.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0278.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0279.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0280.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0281.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0282.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0283.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0284.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0285.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0286.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0287.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0288.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0289.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0290.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0291.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0292.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0293.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0294.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0295.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0296.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0297.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0298.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0299.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0300.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0301.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0302.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0303.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0304.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0305.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0306.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0307.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0308.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0309.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0310.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0311.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0312.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0313.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0314.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0315.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0316.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0317.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0318.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0319.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0320.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0321.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0322.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0323.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0324.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0325.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0326.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0327.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0328.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0329.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0330.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0331.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0332.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0333.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0334.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0335.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0336.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0337.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0338.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0339.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0340.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0341.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0342.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0343.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0344.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0345.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0346.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0347.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0348.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0349.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0350.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0351.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0352.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0353.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0354.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0355.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0356.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0357.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0358.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0359.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0360.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0361.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0362.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0363.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0364.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0365.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0366.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0367.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0368.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0369.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0370.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0371.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0372.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0373.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0374.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0375.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0376.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0377.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0378.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0379.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0380.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0381.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0382.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0383.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0384.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0385.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0386.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0387.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0388.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0389.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0390.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0391.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0392.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0393.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0394.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0395.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0396.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0397.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0398.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0399.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0400.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0401.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0402.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0403.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0404.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0405.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0406.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0407.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0408.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0409.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0410.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0411.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0412.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0413.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0414.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0415.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0416.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0417.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0418.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0419.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0420.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0421.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0422.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0423.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0424.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0425.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0426.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0427.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0428.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0429.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0430.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0431.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0432.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0433.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0434.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0435.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0436.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0437.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0438.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0439.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0440.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0441.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0442.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0443.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0444.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0445.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0446.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0447.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0448.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0449.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0450.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0451.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0452.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0453.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0454.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0455.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0456.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0457.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0458.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0459.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0460.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0461.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0462.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0463.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0464.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0465.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0466.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0467.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0468.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0469.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0470.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0471.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0472.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0473.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0474.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0475.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0476.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0477.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0478.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0479.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0480.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0481.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0482.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0483.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0484.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0485.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0486.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0487.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0488.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0489.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0490.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0491.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0492.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0493.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0494.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0495.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0496.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0497.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0498.json.gz +- gs://levanter-data/markweb/dolma-v1.7/falcon-0499.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0049.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0050.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0051.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0052.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0053.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0054.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0055.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0056.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0057.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0058.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0059.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0060.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0061.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0062.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0063.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0064.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0065.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0066.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0067.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0068.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0069.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0070.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0071.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0072.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0073.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0074.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0075.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0076.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0077.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0078.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0079.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0080.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0081.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0082.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0083.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0084.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0085.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0086.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0087.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0088.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0089.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0090.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0091.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0092.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0093.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0094.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0095.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0096.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0097.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0098.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0099.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0100.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0101.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0102.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0103.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0104.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0105.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0106.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0107.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0108.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0109.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0110.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0111.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0112.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0113.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0114.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0115.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0116.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0117.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0118.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0119.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0120.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0121.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0122.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0123.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0124.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0125.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0126.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0127.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0128.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0129.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0130.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0131.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0132.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0133.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0134.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0135.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0136.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0137.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0138.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0139.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0140.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0141.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0142.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0143.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0144.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0145.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0146.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0147.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0148.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0149.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0150.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0151.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0152.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0153.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0154.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0155.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0156.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0157.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0158.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0159.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0160.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0161.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0162.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0163.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0164.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0165.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0166.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0167.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0168.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0169.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0170.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0171.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0172.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0173.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0174.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0175.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0176.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0177.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0178.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0179.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0180.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0181.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0182.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0183.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0184.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0185.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0186.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0187.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0188.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0189.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0190.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0191.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0192.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0193.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0194.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0195.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0196.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0197.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0198.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0199.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0200.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0201.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0202.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0203.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0204.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0205.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0206.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0207.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0208.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0209.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0210.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0211.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0212.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0213.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0214.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0215.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0216.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0217.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0218.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0219.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0220.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0221.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0222.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0223.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0224.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0225.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0226.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0227.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0228.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0229.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0230.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0231.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0232.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0233.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0234.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0235.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0236.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0237.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0238.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0239.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0240.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0241.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0242.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0243.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0244.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0245.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0246.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0247.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0248.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0249.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0250.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0251.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0252.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0253.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0254.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0255.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0256.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0257.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0258.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0259.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0260.json.gz +- gs://levanter-data/markweb/dolma-v1.7/megawika-0261.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/pes2o-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0049.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0050.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0051.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0052.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0053.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0054.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0055.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0056.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0057.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0058.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0059.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0060.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0061.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0062.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0063.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0064.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0065.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0066.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0067.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0068.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0069.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0070.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0071.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0072.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0073.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0074.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0075.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0076.json.gz +- gs://levanter-data/markweb/dolma-v1.7/reddit-0077.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/starcoder-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0001.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0002.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0003.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0004.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0005.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0006.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0007.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0008.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0009.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0010.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0011.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0012.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0013.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0014.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0015.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0016.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0017.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0018.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0019.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0020.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0021.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0022.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0023.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0024.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0025.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0026.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0027.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0028.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0029.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0030.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0031.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0032.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0033.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0034.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0035.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0036.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0037.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0038.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0039.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0040.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0041.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0042.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0043.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0044.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0045.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0046.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0047.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0048.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0049.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0050.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0051.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0052.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0053.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0054.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0055.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0056.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0057.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0058.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0059.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0060.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0061.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0062.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0063.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0064.json.gz +- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0065.json.gz +- gs://levanter-data/markweb/dolma-v1.7/wiki-0000.json.gz +- gs://levanter-data/markweb/dolma-v1.7/wiki-0001.json.gz diff --git a/dolma_1b.yaml b/dolma_1b.yaml new file mode 100644 index 000000000..3068d4a4f --- /dev/null +++ b/dolma_1b.yaml @@ -0,0 +1,2523 @@ +data: + cache_dir: "gs://levanter-data/tokenized/dolma/" + tokenizer: "meta-llama/Llama-2-7b-hf" + configs: + "dolma": + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0049.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0050.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0051.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0052.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0053.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0054.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0055.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0056.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0057.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0058.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0059.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0060.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0061.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0062.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0063.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0064.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0065.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0066.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0067.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0068.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0069.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0070.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0071.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0072.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0073.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0074.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0075.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0076.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0077.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0078.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0079.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0080.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0081.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0082.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0083.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0084.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0085.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0086.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0087.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0088.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0089.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0090.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0091.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0092.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0093.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0094.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0095.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0096.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0097.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0098.json.gz + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0099.json.gz + - gs://levanter-data/markweb/dolma-v1.7/books-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/books-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/books-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0049.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0050.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0051.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0052.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0053.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0054.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0055.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0056.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0057.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0058.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0059.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0060.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0061.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0062.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0063.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0064.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0065.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0066.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0067.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0068.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0069.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0070.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0071.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0072.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0073.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0074.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0075.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0076.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0077.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0078.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0079.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0080.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0081.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0082.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0083.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0084.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0085.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0086.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0087.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0088.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0089.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0090.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0091.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0092.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0093.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0094.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0095.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0096.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0097.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0098.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0099.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0100.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0101.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0102.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0103.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0104.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0105.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0106.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0107.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0108.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0109.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0110.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0111.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0112.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0113.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0114.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0115.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0116.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0117.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0118.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0119.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0120.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0121.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0122.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0123.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0124.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0125.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0126.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0127.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0128.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0129.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0130.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0131.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0132.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0133.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0134.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0135.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0136.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0137.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0138.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0139.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0140.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0141.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0142.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0143.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0144.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0145.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0146.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0147.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0148.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0149.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0150.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0151.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0152.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0153.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0154.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0155.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0156.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0157.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0158.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0159.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0160.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0161.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0162.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0163.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0164.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0165.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0166.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0167.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0168.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0169.json.gz + - gs://levanter-data/markweb/dolma-v1.7/c4-0170.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0049.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0050.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0051.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0052.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0053.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0054.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0055.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0056.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0057.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0058.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0059.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0060.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0061.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0062.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0063.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0064.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0065.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0066.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0067.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0068.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0069.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0070.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0071.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0072.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0073.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0074.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0075.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0076.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0077.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0078.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0079.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0080.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0081.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0082.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0083.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0084.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0085.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0086.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0087.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0088.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0089.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0090.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0091.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0092.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0093.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0094.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0095.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0096.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0097.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0098.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0099.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0100.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0101.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0102.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0103.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0104.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0105.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0106.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0107.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0108.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0109.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0110.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0111.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0112.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0113.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0114.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0115.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0116.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0117.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0118.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0119.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0120.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0121.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0122.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0123.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0124.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0125.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0126.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0127.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0128.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0129.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0130.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0131.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0132.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0133.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0134.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0135.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0136.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0137.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0138.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0139.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0140.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0141.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0142.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0143.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0144.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0145.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0146.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0147.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0148.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0149.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0150.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0151.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0152.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0153.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0154.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0155.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0156.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0157.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0158.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0159.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0160.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0161.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0162.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0163.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0164.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0165.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0166.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0167.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0168.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0169.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0170.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0171.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0172.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0173.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0174.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0175.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0176.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0177.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0178.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0179.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0180.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0181.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0182.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0183.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0184.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0185.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0186.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0187.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0188.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0189.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0190.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0191.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0192.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0193.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0194.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0195.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0196.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0197.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0198.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0199.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0200.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0201.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0202.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0203.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0204.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0205.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0206.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0207.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0208.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0209.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0210.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0211.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0212.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0213.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0214.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0215.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0216.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0217.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0218.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0219.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0220.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0221.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0222.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0223.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0224.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0225.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0226.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0227.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0228.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0229.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0230.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0231.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0232.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0233.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0234.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0235.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0236.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0237.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0238.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0239.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0240.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0241.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0242.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0243.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0244.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0245.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0246.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0247.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0248.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0249.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0250.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0251.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0252.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0253.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0254.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0255.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0256.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0257.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0258.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0259.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0260.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0261.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0262.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0263.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0264.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0265.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0266.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0267.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0268.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0269.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0270.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0271.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0272.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0273.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0274.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0049.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0050.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0051.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0052.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0053.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0054.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0055.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0056.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0057.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0058.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0059.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0060.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0061.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0062.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0063.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0064.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0065.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0066.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0067.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0068.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0069.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0070.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0071.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0072.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0073.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0074.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0075.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0076.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0077.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0078.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0079.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0080.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0081.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0082.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0083.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0084.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0085.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0086.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0087.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0088.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0089.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0090.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0091.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0092.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0093.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0094.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0095.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0096.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0097.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0098.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0099.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0100.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0101.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0102.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0103.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0104.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0105.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0106.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0107.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0108.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0109.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0110.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0111.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0112.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0113.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0114.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0115.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0116.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0117.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0118.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0119.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0120.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0121.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0122.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0123.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0124.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0125.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0126.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0127.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0128.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0129.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0130.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0131.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0132.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0133.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0134.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0135.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0136.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0137.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0138.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0139.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0140.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0141.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0142.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0143.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0144.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0145.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0146.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0147.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0148.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0149.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0150.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0151.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0152.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0153.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0154.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0155.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0156.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0157.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0158.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0159.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0160.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0161.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0162.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0163.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0164.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0165.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0166.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0167.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0168.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0169.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0170.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0171.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0172.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0173.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0174.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0175.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0176.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0177.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0178.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0179.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0180.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0181.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0182.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0183.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0184.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0185.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0186.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0187.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0188.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0189.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0190.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0191.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0192.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0193.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0194.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0195.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0196.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0197.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0198.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0199.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0200.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0201.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0202.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0203.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0204.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0205.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0206.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0207.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0208.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0209.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0210.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0211.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0212.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0213.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0214.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0215.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0216.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0217.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0218.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0219.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0220.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0221.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0222.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0223.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0224.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0225.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0226.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0227.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0228.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0229.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0230.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0231.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0232.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0233.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0234.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0235.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0236.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0237.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0238.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0240.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0241.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0242.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0243.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0244.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0245.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0246.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0247.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0248.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0249.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0250.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0251.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0252.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0253.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0254.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0255.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0256.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0257.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0258.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0259.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0260.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0261.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0262.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0263.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0264.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0265.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0266.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0267.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0268.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0269.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0270.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0271.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0272.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0273.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0274.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0275.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0276.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0277.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0278.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0279.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0280.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0281.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0282.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0283.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0284.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0285.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0286.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0287.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0288.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0289.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0290.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0291.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0292.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0293.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0294.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0295.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0296.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0297.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0298.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0299.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0300.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0301.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0302.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0303.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0304.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0305.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0306.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0307.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0308.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0309.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0310.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0311.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0312.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0313.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0314.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0315.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0316.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0317.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0318.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0319.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0320.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0321.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0322.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0323.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0324.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0325.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0326.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0327.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0328.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0329.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0330.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0331.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0332.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0333.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0334.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0335.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0336.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0337.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0338.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0339.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0340.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0341.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0342.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0343.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0344.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0345.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0346.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0347.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0348.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0349.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0350.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0351.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0352.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0353.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0354.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0355.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0356.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0357.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0358.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0359.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0360.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0361.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0362.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0363.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0364.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0365.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0366.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0367.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0368.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0369.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0370.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0371.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0372.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0373.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0374.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0375.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0376.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0377.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0378.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0379.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0049.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0050.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0051.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0052.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0053.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0054.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0055.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0056.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0057.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0058.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0059.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0060.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0061.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0062.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0063.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0064.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0065.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0066.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0067.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0068.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0069.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0070.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0071.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0072.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0073.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0074.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0075.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0076.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0077.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0078.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0079.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0080.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0081.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0082.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0083.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0084.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0085.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0086.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0087.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0088.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0089.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0090.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0091.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0092.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0093.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0094.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0095.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0096.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0097.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0098.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0099.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0100.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0101.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0102.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0103.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0104.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0105.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0106.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0107.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0108.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0109.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0110.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0111.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0112.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0113.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0114.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0115.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0116.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0117.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0118.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0119.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0120.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0121.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0122.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0123.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0124.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0125.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0126.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0127.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0128.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0129.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0130.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0131.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0132.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0133.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0134.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0135.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0136.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0137.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0138.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0139.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0140.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0141.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0142.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0143.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0144.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0145.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0146.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0147.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0148.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0149.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0150.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0151.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0152.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0154.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0155.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0156.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0157.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0158.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0159.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0160.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0161.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0162.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0163.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0164.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0165.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0166.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0167.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0168.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0169.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0170.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0171.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0172.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0173.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0174.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0175.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0176.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0177.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0178.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0179.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0180.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0181.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0182.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0183.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0184.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0185.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0186.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0187.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0188.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0189.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0190.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0191.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0192.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0193.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0194.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0195.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0196.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0197.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0198.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0199.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0200.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0201.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0202.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0203.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0204.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0205.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0206.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0207.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0208.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0209.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0210.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0211.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0212.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0213.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0214.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0215.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0216.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0217.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0218.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0219.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0220.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0221.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0222.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0223.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0224.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0225.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0226.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0227.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0228.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0229.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0230.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0231.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0232.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0233.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0234.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0235.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0236.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0237.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0238.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0239.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0240.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0241.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0242.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0243.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0244.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0245.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0246.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0247.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0248.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0249.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0250.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0251.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0252.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0253.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0254.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0255.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0256.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0257.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0258.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0259.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0260.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0261.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0262.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0263.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0264.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0265.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0266.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0267.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0268.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0269.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0270.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0271.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0272.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0273.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0274.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0275.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0276.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0277.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0278.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0279.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0280.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0281.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0282.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0283.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0284.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0285.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0286.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0287.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0288.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0289.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0290.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0291.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0292.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0293.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0294.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0295.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0296.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0297.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0298.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0299.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0300.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0301.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0302.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0303.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0304.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0305.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0306.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0307.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0308.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0309.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0310.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0311.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0312.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0313.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0314.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0315.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0316.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0317.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0318.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0319.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0320.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0321.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0322.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0323.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0324.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0325.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0326.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0327.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0328.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0329.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0330.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0331.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0332.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0333.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0334.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0335.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0336.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0337.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0338.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0339.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0340.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0341.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0342.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0343.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0344.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0345.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0346.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0347.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0348.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0349.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0350.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0351.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0352.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0353.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0354.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0355.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0356.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0357.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0358.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0359.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0360.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0361.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0362.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0363.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0364.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0365.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0366.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0367.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0368.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0369.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0370.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0371.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0372.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0373.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0374.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0375.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0376.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0377.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0378.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0379.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0380.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0381.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0382.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0383.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0384.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0385.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0386.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0387.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0388.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0389.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0390.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0391.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0392.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0393.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0394.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0395.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0396.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0397.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0398.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0399.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0400.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0401.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0402.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0403.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0404.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0405.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0406.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0407.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0408.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0409.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0410.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0411.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0412.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0413.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0414.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0415.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0416.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0417.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0418.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0419.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0420.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0421.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0422.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0423.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0424.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0425.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0426.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0427.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0428.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0429.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0430.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0431.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0432.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0433.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0434.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0435.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0436.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0437.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0438.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0439.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0440.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0441.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0442.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0443.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0444.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz.1 + - gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz.2 + - gs://levanter-data/markweb/dolma-v1.7/cc_news-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_news-0001.json.gz.1 + - gs://levanter-data/markweb/dolma-v1.7/cc_news-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_news-0002.json.gz.1 + - gs://levanter-data/markweb/dolma-v1.7/cc_news-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_news-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0049.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0050.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0051.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0052.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0053.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0054.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0055.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0056.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0057.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0058.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0059.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0060.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0061.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0062.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0063.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0064.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0065.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0066.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0067.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0068.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0069.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0070.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0071.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0072.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0073.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0074.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0075.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0076.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0077.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0078.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0079.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0080.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0081.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0082.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0083.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0084.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0085.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0086.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0087.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0088.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0089.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0090.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0091.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0092.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0093.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0094.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0095.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0096.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0097.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0098.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0099.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0100.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0101.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0102.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0103.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0104.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0105.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0106.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0107.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0108.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0109.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0110.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0111.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0112.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0113.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0114.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0115.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0116.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0117.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0118.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0119.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0120.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0121.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0122.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0123.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0124.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0125.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0126.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0127.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0128.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0129.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0130.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0131.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0132.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0133.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0134.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0135.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0136.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0137.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0138.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0139.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0140.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0141.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0142.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0143.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0144.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0145.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0146.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0147.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0148.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0149.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0150.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0151.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0152.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0153.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0154.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0155.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0156.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0157.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0158.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0159.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0160.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0161.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0162.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0163.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0164.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0165.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0166.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0167.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0168.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0169.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0170.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0171.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0172.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0173.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0174.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0175.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0176.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0177.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0178.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0179.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0180.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0181.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0182.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0183.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0184.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0185.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0186.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0187.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0188.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0189.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0190.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0191.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0192.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0193.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0194.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0195.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0196.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0197.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0198.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0199.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0200.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0201.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0202.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0203.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0204.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0205.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0206.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0207.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0208.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0209.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0210.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0211.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0212.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0213.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0214.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0215.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0216.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0217.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0218.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0219.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0220.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0221.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0222.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0223.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0224.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0225.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0226.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0227.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0228.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0229.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0230.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0231.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0232.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0233.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0234.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0235.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0236.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0237.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0238.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0239.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0240.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0241.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0242.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0243.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0244.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0245.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0246.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0247.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0248.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0249.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0250.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0251.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0252.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0253.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0254.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0255.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0256.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0257.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0258.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0259.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0260.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0261.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0262.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0263.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0264.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0265.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0266.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0267.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0268.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0269.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0270.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0271.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0272.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0273.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0274.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0275.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0276.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0277.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0278.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0279.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0280.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0281.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0282.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0283.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0284.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0285.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0286.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0287.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0288.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0289.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0290.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0291.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0292.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0293.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0294.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0295.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0296.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0297.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0298.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0299.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0300.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0301.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0302.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0303.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0304.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0305.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0306.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0307.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0308.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0309.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0310.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0311.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0312.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0313.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0314.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0315.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0316.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0317.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0318.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0319.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0320.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0321.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0322.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0323.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0324.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0325.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0326.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0327.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0328.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0329.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0330.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0331.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0332.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0333.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0334.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0335.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0336.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0337.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0338.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0339.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0340.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0341.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0342.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0343.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0344.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0345.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0346.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0347.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0348.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0349.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0350.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0351.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0352.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0353.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0354.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0355.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0356.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0357.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0358.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0359.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0360.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0361.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0362.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0363.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0364.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0365.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0366.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0367.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0368.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0369.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0370.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0371.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0372.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0373.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0374.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0375.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0376.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0377.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0378.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0379.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0380.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0381.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0382.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0383.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0384.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0385.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0386.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0387.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0388.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0389.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0390.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0391.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0392.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0393.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0394.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0395.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0396.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0397.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0398.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0399.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0400.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0401.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0402.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0403.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0404.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0405.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0406.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0407.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0408.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0409.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0410.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0411.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0412.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0413.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0414.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0415.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0416.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0417.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0418.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0419.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0420.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0421.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0422.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0423.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0424.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0425.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0426.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0427.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0428.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0429.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0430.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0431.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0432.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0433.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0434.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0435.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0436.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0437.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0438.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0439.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0440.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0441.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0442.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0443.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0444.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0445.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0446.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0447.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0448.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0449.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0450.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0451.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0452.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0453.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0454.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0455.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0456.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0457.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0458.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0459.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0460.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0461.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0462.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0463.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0464.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0465.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0466.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0467.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0468.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0469.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0470.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0471.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0472.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0473.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0474.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0475.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0476.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0477.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0478.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0479.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0480.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0481.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0482.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0483.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0484.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0485.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0486.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0487.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0488.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0489.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0490.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0491.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0492.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0493.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0494.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0495.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0496.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0497.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0498.json.gz + - gs://levanter-data/markweb/dolma-v1.7/falcon-0499.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0049.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0050.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0051.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0052.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0053.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0054.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0055.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0056.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0057.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0058.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0059.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0060.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0061.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0062.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0063.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0064.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0065.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0066.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0067.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0068.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0069.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0070.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0071.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0072.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0073.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0074.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0075.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0076.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0077.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0078.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0079.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0080.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0081.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0082.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0083.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0084.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0085.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0086.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0087.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0088.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0089.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0090.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0091.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0092.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0093.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0094.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0095.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0096.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0097.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0098.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0099.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0100.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0101.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0102.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0103.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0104.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0105.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0106.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0107.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0108.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0109.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0110.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0111.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0112.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0113.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0114.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0115.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0116.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0117.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0118.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0119.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0120.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0121.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0122.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0123.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0124.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0125.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0126.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0127.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0128.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0129.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0130.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0131.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0132.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0133.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0134.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0135.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0136.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0137.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0138.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0139.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0140.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0141.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0142.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0143.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0144.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0145.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0146.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0147.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0148.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0149.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0150.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0151.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0152.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0153.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0154.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0155.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0156.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0157.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0158.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0159.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0160.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0161.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0162.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0163.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0164.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0165.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0166.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0167.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0168.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0169.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0170.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0171.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0172.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0173.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0174.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0175.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0176.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0177.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0178.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0179.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0180.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0181.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0182.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0183.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0184.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0185.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0186.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0187.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0188.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0189.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0190.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0191.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0192.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0193.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0194.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0195.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0196.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0197.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0198.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0199.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0200.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0201.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0202.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0203.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0204.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0205.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0206.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0207.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0208.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0209.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0210.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0211.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0212.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0213.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0214.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0215.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0216.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0217.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0218.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0219.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0220.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0221.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0222.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0223.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0224.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0225.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0226.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0227.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0228.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0229.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0230.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0231.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0232.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0233.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0234.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0235.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0236.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0237.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0238.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0239.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0240.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0241.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0242.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0243.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0244.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0245.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0246.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0247.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0248.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0249.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0250.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0251.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0252.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0253.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0254.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0255.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0256.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0257.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0258.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0259.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0260.json.gz + - gs://levanter-data/markweb/dolma-v1.7/megawika-0261.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/pes2o-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0049.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0050.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0051.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0052.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0053.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0054.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0055.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0056.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0057.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0058.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0059.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0060.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0061.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0062.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0063.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0064.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0065.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0066.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0067.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0068.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0069.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0070.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0071.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0072.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0073.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0074.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0075.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0076.json.gz + - gs://levanter-data/markweb/dolma-v1.7/reddit-0077.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/starcoder-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0001.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0002.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0003.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0004.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0005.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0006.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0007.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0008.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0009.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0010.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0011.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0012.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0013.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0014.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0015.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0016.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0017.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0018.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0019.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0020.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0021.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0022.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0023.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0024.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0025.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0026.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0027.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0028.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0029.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0030.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0031.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0032.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0033.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0034.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0035.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0036.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0037.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0038.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0039.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0040.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0041.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0042.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0043.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0044.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0045.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0046.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0047.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0048.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0049.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0050.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0051.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0052.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0053.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0054.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0055.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0056.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0057.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0058.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0059.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0060.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0061.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0062.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0063.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0064.json.gz + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0065.json.gz + - gs://levanter-data/markweb/dolma-v1.7/wiki-0000.json.gz + - gs://levanter-data/markweb/dolma-v1.7/wiki-0001.json.gz + validation_urls: + - gs://levanter-data/markweb/dolma-v1.7/arxiv-0009.json.gz # placeholder + # these are just for eval + "paloma/4chan": + validation_urls: + - gs://levanter-data/paloma/4chan_meta_sep/val/val*.jsonl.gz + "paloma/c4_100_domains": + validation_urls: + - gs://levanter-data/paloma/c4_100_domains/val/val*.jsonl.gz + "paloma/c4_en": + validation_urls: + - gs://levanter-data/paloma/c4_en/val/val*.jsonl.gz + "paloma/dolma-v1_5": + validation_urls: + - gs://levanter-data/paloma/dolma-v1_5/val/val*.jsonl.gz + "paloma/dolma_100_programing_languages": + validation_urls: + - gs://levanter-data/paloma/dolma_100_programing_languages/val/val*.jsonl.gz + "paloma/dolma_100_subreddits": + validation_urls: + - gs://levanter-data/paloma/dolma_100_subreddits/val/val*.jsonl.gz + "paloma/falcon-refinedweb": + validation_urls: + - gs://levanter-data/paloma/falcon-refinedweb/val/val*.jsonl.gz + "paloma/gab": + validation_urls: + - gs://levanter-data/paloma/gab/val/val*.jsonl.gz + "paloma/m2d2_s2orc_unsplit": + validation_urls: + - gs://levanter-data/paloma/m2d2_s2orc_unsplit/val/val*.jsonl.gz + "paloma/m2d2_wikipedia_unsplit": + validation_urls: + - gs://levanter-data/paloma/m2d2_wikipedia_unsplit/val/val*.jsonl.gz + "paloma/manosphere_meta_sep": + validation_urls: + - gs://levanter-data/paloma/manosphere_meta_sep/val/val*.jsonl.gz + "paloma/mc4": + validation_urls: + - gs://levanter-data/paloma/mc4/val/val*.jsonl.gz + "paloma/ptb": + validation_urls: + - gs://levanter-data/paloma/ptb/val/val*.jsonl.gz + "paloma/redpajama": + validation_urls: + - gs://levanter-data/paloma/redpajama/val/val*.jsonl.gz + "paloma/twitterAAE_HELM_fixed": + validation_urls: + - gs://levanter-data/paloma/twitterAAE_HELM_fixed/val/val*.jsonl.gz + "paloma/wikitext_103": + validation_urls: + - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz + + train_weights: + dolma: 1.0 + paloma/4chan: 0.0 + paloma/c4_100_domains: 0.0 + paloma/c4_en: 0.0 + paloma/dolma-v1_5: 0.0 + paloma/dolma_100_programing_languages: 0.0 + paloma/dolma_100_subreddits: 0.0 + paloma/falcon-refinedweb: 0.0 + paloma/gab: 0.0 + paloma/m2d2_s2orc_unsplit: 0.0 + paloma/m2d2_wikipedia_unsplit: 0.0 + paloma/manosphere_meta_sep: 0.0 + paloma/mc4: 0.0 + paloma/ptb: 0.0 + paloma/redpajama: 0.0 + paloma/twitterAAE_HELM_fixed: 0.0 + paloma/wikitext_103: 0.0 +model: + # 1B class model + type: llama + seq_len: 2048 + hidden_dim: 2048 + intermediate_dim: 4096 + num_layers: 24 + num_heads: 32 + num_kv_heads: 32 + use_flash_attention: True + flash_attention_block_size: 1024 +trainer: + tracker: + type: wandb + project: "markweb" + tags: ["dolma", "llama"] + + mp: p=f32,c=bfloat16 + train_batch_size: 1024 + num_train_steps: 750000 # 3,000,000,000,000 / 4,000,000 = 750,000 + steps_per_eval: 1000 + tensor_parallel_axes: ["mlp", "heads"] + fsdp_axis: "embed" + batch_axis: "batch" +optimizer: + learning_rate: 4E-4 + weight_decay: 0.1 + min_lr_ratio: 0.1 diff --git a/owt_1b.yaml b/owt_1b.yaml new file mode 100644 index 000000000..7ed090701 --- /dev/null +++ b/owt_1b.yaml @@ -0,0 +1,106 @@ +data: + cache_dir: "- gs://levanter-data/tokenized/markweb_llama/" + tokenizer: "meta-llama/Llama-2-7b-hf" + configs: + openwebtext: + train_urls: + - "- gs://pubmed-mosaic/openwebtext-sharded/openwebtext_train.{1..128}-of-128.jsonl.gz" + validation_urls: + - "- gs://pubmed-mosaic/openwebtext-sharded/openwebtext_val.{1..8}-of-8.jsonl.gz" + # these are just for eval + "paloma/4chan": + validation_urls: + - - gs://levanter-data/paloma/4chan_meta_sep/val/val*.jsonl.gz + "paloma/c4_100_domains": + validation_urls: + - - gs://levanter-data/paloma/c4_100_domains/val/val*.jsonl.gz + "paloma/c4_en": + validation_urls: + - - gs://levanter-data/paloma/c4_en/val/val*.jsonl.gz + "paloma/dolma-v1_5": + validation_urls: + - - gs://levanter-data/paloma/dolma-v1_5/val/val*.jsonl.gz + "paloma/dolma_100_programing_languages": + validation_urls: + - - gs://levanter-data/paloma/dolma_100_programing_languages/val/val*.jsonl.gz + "paloma/dolma_100_subreddits": + validation_urls: + - - gs://levanter-data/paloma/dolma_100_subreddits/val/val*.jsonl.gz + "paloma/falcon-refinedweb": + validation_urls: + - - gs://levanter-data/paloma/falcon-refinedweb/val/val*.jsonl.gz + "paloma/gab": + validation_urls: + - - gs://levanter-data/paloma/gab/val/val*.jsonl.gz + "paloma/m2d2_s2orc_unsplit": + validation_urls: + - - gs://levanter-data/paloma/m2d2_s2orc_unsplit/val/val*.jsonl.gz + "paloma/m2d2_wikipedia_unsplit": + validation_urls: + - - gs://levanter-data/paloma/m2d2_wikipedia_unsplit/val/val*.jsonl.gz + "paloma/manosphere_meta_sep": + validation_urls: + - - gs://levanter-data/paloma/manosphere_meta_sep/val/val*.jsonl.gz + "paloma/mc4": + validation_urls: + - - gs://levanter-data/paloma/mc4/val/val*.jsonl.gz + "paloma/ptb": + validation_urls: + - - gs://levanter-data/paloma/ptb/val/val*.jsonl.gz + "paloma/redpajama": + validation_urls: + - - gs://levanter-data/paloma/redpajama/val/val*.jsonl.gz + "paloma/twitterAAE_HELM_fixed": + validation_urls: + - - gs://levanter-data/paloma/twitterAAE_HELM_fixed/val/val*.jsonl.gz + "paloma/wikitext_103": + validation_urls: + - - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz + + train_weights: + openwebtext: 1.0 + paloma/4chan: 0.0 + paloma/c4_100_domains: 0.0 + paloma/c4_en: 0.0 + paloma/dolma-v1_5: 0.0 + paloma/dolma_100_programing_languages: 0.0 + paloma/dolma_100_subreddits: 0.0 + paloma/falcon-refinedweb: 0.0 + paloma/gab: 0.0 + paloma/m2d2_s2orc_unsplit: 0.0 + paloma/m2d2_wikipedia_unsplit: 0.0 + paloma/manosphere_meta_sep: 0.0 + paloma/mc4: 0.0 + paloma/ptb: 0.0 + paloma/redpajama: 0.0 + paloma/twitterAAE_HELM_fixed: 0.0 + paloma/wikitext_103: 0.0 +model: + # 1B class model + type: llama + seq_len: 2048 + hidden_dim: 2048 + intermediate_dim: 4096 + num_layers: 24 + num_heads: 32 + num_kv_heads: 32 + use_flash_attention: True + flash_attention_block_size: 2048 +trainer: + tracker: + type: wandb + project: "markweb" + tags: ["owt", "llama", "web_comparison"] + + mp: p=f32,c=bfloat16 + train_batch_size: 512 + num_train_steps: 50000 + steps_per_eval: 1000 + per_device_eval_parallelism: 64 + tensor_parallel_axes: ["mlp", "heads"] + fsdp_axis: "embed" + batch_axis: "batch" +optimizer: + learning_rate: 2E-4 + weight_decay: 0.1 + min_lr_ratio: 0.1 diff --git a/owt_7b.yaml b/owt_7b.yaml new file mode 100644 index 000000000..f400e4966 --- /dev/null +++ b/owt_7b.yaml @@ -0,0 +1,100 @@ +data: + cache_dir: "- gs://levanter-data/tokenized/markweb_llama/" + tokenizer: "meta-llama/Llama-2-7b-hf" + configs: + openwebtext: + train_urls: + - "- gs://pubmed-mosaic/openwebtext-sharded/openwebtext_train.{1..128}-of-128.jsonl.gz" + validation_urls: + - "- gs://pubmed-mosaic/openwebtext-sharded/openwebtext_val.{1..8}-of-8.jsonl.gz" + # these are just for eval + "paloma/4chan": + validation_urls: + - - gs://levanter-data/paloma/4chan_meta_sep/val/val*.jsonl.gz + "paloma/c4_100_domains": + validation_urls: + - - gs://levanter-data/paloma/c4_100_domains/val/val*.jsonl.gz + "paloma/c4_en": + validation_urls: + - - gs://levanter-data/paloma/c4_en/val/val*.jsonl.gz + "paloma/dolma-v1_5": + validation_urls: + - - gs://levanter-data/paloma/dolma-v1_5/val/val*.jsonl.gz + "paloma/dolma_100_programing_languages": + validation_urls: + - - gs://levanter-data/paloma/dolma_100_programing_languages/val/val*.jsonl.gz + "paloma/dolma_100_subreddits": + validation_urls: + - - gs://levanter-data/paloma/dolma_100_subreddits/val/val*.jsonl.gz + "paloma/falcon-refinedweb": + validation_urls: + - - gs://levanter-data/paloma/falcon-refinedweb/val/val*.jsonl.gz + "paloma/gab": + validation_urls: + - - gs://levanter-data/paloma/gab/val/val*.jsonl.gz + "paloma/m2d2_s2orc_unsplit": + validation_urls: + - - gs://levanter-data/paloma/m2d2_s2orc_unsplit/val/val*.jsonl.gz + "paloma/m2d2_wikipedia_unsplit": + validation_urls: + - - gs://levanter-data/paloma/m2d2_wikipedia_unsplit/val/val*.jsonl.gz + "paloma/manosphere_meta_sep": + validation_urls: + - - gs://levanter-data/paloma/manosphere_meta_sep/val/val*.jsonl.gz + "paloma/mc4": + validation_urls: + - - gs://levanter-data/paloma/mc4/val/val*.jsonl.gz + "paloma/ptb": + validation_urls: + - - gs://levanter-data/paloma/ptb/val/val*.jsonl.gz + "paloma/redpajama": + validation_urls: + - - gs://levanter-data/paloma/redpajama/val/val*.jsonl.gz + "paloma/twitterAAE_HELM_fixed": + validation_urls: + - - gs://levanter-data/paloma/twitterAAE_HELM_fixed/val/val*.jsonl.gz + "paloma/wikitext_103": + validation_urls: + - - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz + + train_weights: + openwebtext: 1.0 + paloma/4chan: 0.0 + paloma/c4_100_domains: 0.0 + paloma/c4_en: 0.0 + paloma/dolma-v1_5: 0.0 + paloma/dolma_100_programing_languages: 0.0 + paloma/dolma_100_subreddits: 0.0 + paloma/falcon-refinedweb: 0.0 + paloma/gab: 0.0 + paloma/m2d2_s2orc_unsplit: 0.0 + paloma/m2d2_wikipedia_unsplit: 0.0 + paloma/manosphere_meta_sep: 0.0 + paloma/mc4: 0.0 + paloma/ptb: 0.0 + paloma/redpajama: 0.0 + paloma/twitterAAE_HELM_fixed: 0.0 + paloma/wikitext_103: 0.0 + +model: + # 7B model with seq length 4096 + type: llama + seq_len: 4096 + use_flash_attention: True + flash_attention_block_size: 2048 +trainer: + tracker: + type: wandb + project: "markweb" + tags: ["owt", "llama7b"] + mp: p=f32,c=bfloat16 + train_batch_size: 1024 + num_train_steps: 5000 + steps_per_eval: 1000 + tensor_parallel_axes: ["mlp", "heads"] + fsdp_axis: "embed" + batch_axis: "batch" +optimizer: + learning_rate: 3E-4 + weight_decay: 0.1 + min_lr_ratio: 0.1 From 3f9887fa0e5a1c3be42e0c53dfd76fa4e9143314 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Sat, 11 May 2024 02:07:41 +0000 Subject: [PATCH 02/18] rm val dataset for dolma and update project name --- dolma_1b.yaml | 4 +--- 1 file changed, 1 insertion(+), 3 deletions(-) diff --git a/dolma_1b.yaml b/dolma_1b.yaml index 3068d4a4f..9d42dbaf4 100644 --- a/dolma_1b.yaml +++ b/dolma_1b.yaml @@ -2423,8 +2423,6 @@ data: - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0065.json.gz - gs://levanter-data/markweb/dolma-v1.7/wiki-0000.json.gz - gs://levanter-data/markweb/dolma-v1.7/wiki-0001.json.gz - validation_urls: - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0009.json.gz # placeholder # these are just for eval "paloma/4chan": validation_urls: @@ -2507,7 +2505,7 @@ model: trainer: tracker: type: wandb - project: "markweb" + project: "marin" tags: ["dolma", "llama"] mp: p=f32,c=bfloat16 From 7501ee92bab1e12f8aabf7a8dc0c015d1105c1d5 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Sat, 11 May 2024 02:36:46 +0000 Subject: [PATCH 03/18] update urls and weights --- dolma_1b.yaml | 2482 ++----------------------------------------------- 1 file changed, 62 insertions(+), 2420 deletions(-) diff --git a/dolma_1b.yaml b/dolma_1b.yaml index 9d42dbaf4..5c15d7b6e 100644 --- a/dolma_1b.yaml +++ b/dolma_1b.yaml @@ -2,2427 +2,55 @@ data: cache_dir: "gs://levanter-data/tokenized/dolma/" tokenizer: "meta-llama/Llama-2-7b-hf" configs: - "dolma": + dolma-algebraic-stack: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0049.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0050.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0051.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0052.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0053.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0054.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0055.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0056.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0057.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0058.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0059.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0060.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0061.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0062.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0063.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0064.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0065.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0066.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0067.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0068.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0069.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0070.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0071.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0072.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0073.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0074.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0075.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0076.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0077.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0078.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0079.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0080.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0081.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0082.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0083.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0084.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0085.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0086.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0087.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0088.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0089.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0090.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0091.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0092.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0093.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0094.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0095.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0096.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0097.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0098.json.gz - - gs://levanter-data/markweb/dolma-v1.7/arxiv-0099.json.gz - - gs://levanter-data/markweb/dolma-v1.7/books-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/books-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/books-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0049.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0050.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0051.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0052.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0053.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0054.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0055.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0056.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0057.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0058.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0059.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0060.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0061.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0062.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0063.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0064.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0065.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0066.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0067.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0068.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0069.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0070.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0071.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0072.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0073.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0074.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0075.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0076.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0077.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0078.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0079.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0080.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0081.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0082.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0083.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0084.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0085.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0086.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0087.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0088.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0089.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0090.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0091.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0092.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0093.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0094.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0095.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0096.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0097.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0098.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0099.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0100.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0101.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0102.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0103.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0104.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0105.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0106.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0107.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0108.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0109.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0110.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0111.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0112.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0113.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0114.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0115.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0116.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0117.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0118.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0119.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0120.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0121.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0122.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0123.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0124.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0125.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0126.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0127.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0128.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0129.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0130.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0131.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0132.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0133.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0134.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0135.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0136.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0137.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0138.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0139.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0140.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0141.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0142.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0143.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0144.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0145.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0146.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0147.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0148.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0149.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0150.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0151.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0152.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0153.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0154.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0155.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0156.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0157.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0158.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0159.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0160.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0161.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0162.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0163.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0164.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0165.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0166.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0167.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0168.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0169.json.gz - - gs://levanter-data/markweb/dolma-v1.7/c4-0170.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0049.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0050.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0051.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0052.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0053.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0054.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0055.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0056.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0057.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0058.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0059.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0060.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0061.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0062.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0063.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0064.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0065.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0066.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0067.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0068.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0069.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0070.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0071.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0072.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0073.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0074.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0075.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0076.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0077.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0078.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0079.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0080.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0081.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0082.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0083.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0084.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0085.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0086.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0087.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0088.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0089.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0090.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0091.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0092.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0093.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0094.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0095.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0096.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0097.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0098.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0099.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0100.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0101.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0102.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0103.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0104.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0105.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0106.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0107.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0108.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0109.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0110.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0111.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0112.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0113.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0114.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0115.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0116.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0117.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0118.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0119.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0120.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0121.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0122.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0123.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0124.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0125.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0126.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0127.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0128.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0129.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0130.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0131.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0132.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0133.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0134.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0135.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0136.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0137.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0138.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0139.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0140.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0141.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0142.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0143.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0144.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0145.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0146.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0147.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0148.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0149.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0150.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0151.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0152.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0153.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0154.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0155.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0156.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0157.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0158.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0159.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0160.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0161.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0162.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0163.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0164.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0165.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0166.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0167.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0168.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0169.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0170.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0171.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0172.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0173.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0174.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0175.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0176.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0177.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0178.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0179.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0180.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0181.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0182.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0183.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0184.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0185.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0186.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0187.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0188.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0189.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0190.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0191.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0192.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0193.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0194.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0195.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0196.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0197.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0198.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0199.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0200.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0201.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0202.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0203.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0204.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0205.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0206.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0207.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0208.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0209.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0210.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0211.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0212.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0213.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0214.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0215.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0216.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0217.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0218.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0219.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0220.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0221.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0222.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0223.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0224.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0225.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0226.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0227.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0228.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0229.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0230.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0231.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0232.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0233.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0234.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0235.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0236.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0237.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0238.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0239.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0240.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0241.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0242.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0243.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0244.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0245.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0246.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0247.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0248.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0249.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0250.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0251.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0252.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0253.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0254.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0255.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0256.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0257.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0258.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0259.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0260.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0261.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0262.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0263.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0264.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0265.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0266.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0267.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0268.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0269.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0270.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0271.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0272.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0273.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0274.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0049.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0050.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0051.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0052.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0053.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0054.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0055.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0056.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0057.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0058.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0059.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0060.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0061.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0062.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0063.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0064.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0065.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0066.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0067.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0068.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0069.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0070.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0071.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0072.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0073.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0074.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0075.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0076.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0077.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0078.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0079.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0080.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0081.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0082.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0083.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0084.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0085.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0086.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0087.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0088.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0089.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0090.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0091.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0092.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0093.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0094.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0095.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0096.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0097.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0098.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0099.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0100.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0101.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0102.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0103.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0104.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0105.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0106.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0107.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0108.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0109.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0110.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0111.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0112.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0113.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0114.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0115.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0116.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0117.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0118.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0119.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0120.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0121.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0122.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0123.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0124.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0125.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0126.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0127.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0128.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0129.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0130.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0131.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0132.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0133.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0134.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0135.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0136.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0137.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0138.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0139.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0140.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0141.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0142.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0143.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0144.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0145.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0146.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0147.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0148.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0149.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0150.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0151.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0152.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0153.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0154.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0155.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0156.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0157.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0158.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0159.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0160.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0161.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0162.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0163.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0164.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0165.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0166.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0167.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0168.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0169.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0170.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0171.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0172.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0173.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0174.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0175.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0176.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0177.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0178.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0179.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0180.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0181.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0182.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0183.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0184.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0185.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0186.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0187.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0188.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0189.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0190.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0191.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0192.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0193.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0194.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0195.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0196.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0197.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0198.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0199.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0200.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0201.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0202.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0203.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0204.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0205.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0206.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0207.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0208.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0209.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0210.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0211.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0212.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0213.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0214.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0215.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0216.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0217.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0218.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0219.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0220.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0221.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0222.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0223.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0224.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0225.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0226.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0227.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0228.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0229.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0230.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0231.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0232.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0233.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0234.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0235.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0236.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0237.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0238.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0240.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0241.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0242.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0243.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0244.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0245.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0246.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0247.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0248.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0249.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0250.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0251.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0252.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0253.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0254.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0255.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0256.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0257.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0258.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0259.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0260.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0261.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0262.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0263.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0264.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0265.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0266.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0267.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0268.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0269.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0270.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0271.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0272.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0273.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0274.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0275.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0276.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0277.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0278.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0279.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0280.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0281.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0282.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0283.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0284.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0285.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0286.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0287.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0288.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0289.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0290.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0291.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0292.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0293.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0294.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0295.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0296.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0297.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0298.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0299.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0300.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0301.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0302.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0303.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0304.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0305.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0306.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0307.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0308.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0309.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0310.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0311.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0312.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0313.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0314.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0315.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0316.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0317.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0318.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0319.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0320.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0321.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0322.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0323.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0324.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0325.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0326.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0327.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0328.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0329.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0330.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0331.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0332.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0333.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0334.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0335.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0336.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0337.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0338.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0339.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0340.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0341.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0342.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0343.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0344.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0345.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0346.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0347.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0348.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0349.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0350.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0351.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0352.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0353.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0354.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0355.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0356.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0357.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0358.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0359.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0360.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0361.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0362.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0363.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0364.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0365.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0366.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0367.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0368.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0369.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0370.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0371.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0372.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0373.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0374.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0375.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0376.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0377.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0378.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0379.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0049.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0050.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0051.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0052.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0053.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0054.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0055.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0056.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0057.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0058.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0059.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0060.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0061.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0062.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0063.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0064.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0065.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0066.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0067.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0068.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0069.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0070.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0071.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0072.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0073.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0074.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0075.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0076.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0077.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0078.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0079.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0080.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0081.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0082.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0083.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0084.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0085.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0086.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0087.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0088.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0089.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0090.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0091.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0092.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0093.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0094.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0095.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0096.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0097.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0098.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0099.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0100.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0101.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0102.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0103.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0104.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0105.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0106.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0107.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0108.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0109.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0110.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0111.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0112.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0113.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0114.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0115.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0116.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0117.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0118.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0119.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0120.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0121.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0122.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0123.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0124.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0125.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0126.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0127.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0128.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0129.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0130.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0131.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0132.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0133.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0134.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0135.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0136.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0137.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0138.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0139.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0140.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0141.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0142.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0143.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0144.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0145.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0146.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0147.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0148.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0149.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0150.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0151.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0152.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0154.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0155.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0156.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0157.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0158.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0159.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0160.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0161.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0162.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0163.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0164.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0165.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0166.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0167.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0168.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0169.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0170.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0171.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0172.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0173.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0174.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0175.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0176.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0177.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0178.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0179.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0180.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0181.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0182.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0183.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0184.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0185.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0186.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0187.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0188.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0189.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0190.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0191.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0192.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0193.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0194.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0195.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0196.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0197.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0198.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0199.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0200.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0201.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0202.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0203.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0204.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0205.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0206.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0207.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0208.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0209.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0210.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0211.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0212.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0213.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0214.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0215.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0216.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0217.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0218.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0219.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0220.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0221.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0222.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0223.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0224.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0225.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0226.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0227.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0228.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0229.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0230.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0231.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0232.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0233.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0234.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0235.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0236.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0237.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0238.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0239.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0240.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0241.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0242.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0243.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0244.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0245.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0246.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0247.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0248.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0249.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0250.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0251.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0252.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0253.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0254.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0255.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0256.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0257.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0258.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0259.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0260.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0261.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0262.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0263.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0264.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0265.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0266.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0267.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0268.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0269.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0270.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0271.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0272.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0273.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0274.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0275.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0276.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0277.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0278.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0279.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0280.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0281.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0282.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0283.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0284.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0285.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0286.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0287.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0288.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0289.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0290.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0291.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0292.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0293.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0294.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0295.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0296.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0297.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0298.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0299.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0300.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0301.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0302.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0303.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0304.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0305.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0306.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0307.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0308.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0309.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0310.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0311.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0312.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0313.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0314.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0315.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0316.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0317.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0318.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0319.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0320.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0321.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0322.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0323.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0324.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0325.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0326.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0327.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0328.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0329.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0330.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0331.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0332.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0333.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0334.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0335.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0336.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0337.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0338.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0339.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0340.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0341.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0342.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0343.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0344.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0345.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0346.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0347.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0348.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0349.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0350.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0351.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0352.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0353.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0354.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0355.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0356.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0357.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0358.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0359.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0360.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0361.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0362.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0363.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0364.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0365.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0366.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0367.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0368.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0369.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0370.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0371.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0372.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0373.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0374.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0375.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0376.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0377.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0378.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0379.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0380.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0381.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0382.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0383.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0384.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0385.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0386.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0387.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0388.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0389.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0390.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0391.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0392.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0393.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0394.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0395.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0396.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0397.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0398.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0399.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0400.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0401.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0402.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0403.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0404.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0405.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0406.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0407.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0408.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0409.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0410.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0411.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0412.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0413.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0414.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0415.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0416.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0417.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0418.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0419.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0420.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0421.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0422.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0423.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0424.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0425.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0426.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0427.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0428.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0429.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0430.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0431.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0432.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0433.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0434.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0435.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0436.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0437.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0438.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0439.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0440.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0441.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0442.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0443.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0444.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz.1 + - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-{0000..0015}.json.gz + dolma-arxiv: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/arxiv-{0000..0099}.json.gz + dolma-gutenberg: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/books-{0000..0002}.json.gz + dolma-c4: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/c4-{0000..0170}.json.gz + dolma-cc: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-{0000..0274}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-{0000..0379}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0000..0444}.json.gz + dolma-cc-news: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/cc_news-{0000..0004}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_news-{0000..0002}.json.gz.1 - gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz.2 - - gs://levanter-data/markweb/dolma-v1.7/cc_news-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_news-0001.json.gz.1 - - gs://levanter-data/markweb/dolma-v1.7/cc_news-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_news-0002.json.gz.1 - - gs://levanter-data/markweb/dolma-v1.7/cc_news-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_news-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0049.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0050.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0051.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0052.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0053.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0054.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0055.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0056.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0057.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0058.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0059.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0060.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0061.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0062.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0063.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0064.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0065.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0066.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0067.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0068.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0069.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0070.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0071.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0072.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0073.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0074.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0075.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0076.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0077.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0078.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0079.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0080.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0081.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0082.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0083.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0084.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0085.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0086.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0087.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0088.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0089.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0090.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0091.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0092.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0093.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0094.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0095.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0096.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0097.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0098.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0099.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0100.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0101.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0102.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0103.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0104.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0105.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0106.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0107.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0108.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0109.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0110.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0111.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0112.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0113.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0114.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0115.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0116.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0117.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0118.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0119.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0120.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0121.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0122.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0123.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0124.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0125.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0126.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0127.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0128.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0129.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0130.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0131.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0132.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0133.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0134.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0135.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0136.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0137.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0138.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0139.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0140.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0141.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0142.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0143.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0144.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0145.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0146.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0147.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0148.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0149.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0150.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0151.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0152.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0153.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0154.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0155.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0156.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0157.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0158.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0159.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0160.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0161.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0162.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0163.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0164.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0165.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0166.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0167.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0168.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0169.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0170.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0171.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0172.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0173.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0174.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0175.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0176.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0177.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0178.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0179.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0180.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0181.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0182.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0183.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0184.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0185.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0186.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0187.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0188.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0189.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0190.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0191.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0192.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0193.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0194.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0195.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0196.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0197.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0198.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0199.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0200.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0201.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0202.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0203.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0204.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0205.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0206.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0207.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0208.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0209.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0210.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0211.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0212.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0213.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0214.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0215.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0216.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0217.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0218.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0219.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0220.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0221.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0222.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0223.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0224.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0225.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0226.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0227.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0228.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0229.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0230.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0231.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0232.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0233.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0234.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0235.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0236.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0237.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0238.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0239.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0240.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0241.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0242.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0243.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0244.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0245.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0246.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0247.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0248.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0249.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0250.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0251.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0252.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0253.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0254.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0255.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0256.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0257.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0258.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0259.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0260.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0261.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0262.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0263.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0264.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0265.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0266.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0267.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0268.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0269.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0270.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0271.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0272.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0273.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0274.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0275.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0276.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0277.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0278.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0279.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0280.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0281.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0282.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0283.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0284.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0285.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0286.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0287.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0288.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0289.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0290.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0291.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0292.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0293.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0294.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0295.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0296.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0297.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0298.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0299.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0300.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0301.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0302.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0303.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0304.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0305.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0306.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0307.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0308.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0309.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0310.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0311.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0312.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0313.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0314.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0315.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0316.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0317.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0318.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0319.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0320.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0321.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0322.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0323.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0324.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0325.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0326.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0327.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0328.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0329.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0330.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0331.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0332.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0333.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0334.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0335.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0336.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0337.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0338.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0339.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0340.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0341.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0342.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0343.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0344.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0345.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0346.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0347.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0348.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0349.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0350.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0351.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0352.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0353.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0354.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0355.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0356.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0357.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0358.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0359.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0360.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0361.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0362.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0363.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0364.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0365.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0366.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0367.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0368.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0369.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0370.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0371.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0372.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0373.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0374.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0375.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0376.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0377.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0378.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0379.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0380.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0381.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0382.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0383.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0384.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0385.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0386.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0387.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0388.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0389.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0390.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0391.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0392.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0393.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0394.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0395.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0396.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0397.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0398.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0399.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0400.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0401.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0402.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0403.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0404.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0405.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0406.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0407.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0408.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0409.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0410.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0411.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0412.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0413.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0414.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0415.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0416.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0417.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0418.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0419.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0420.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0421.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0422.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0423.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0424.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0425.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0426.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0427.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0428.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0429.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0430.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0431.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0432.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0433.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0434.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0435.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0436.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0437.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0438.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0439.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0440.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0441.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0442.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0443.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0444.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0445.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0446.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0447.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0448.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0449.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0450.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0451.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0452.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0453.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0454.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0455.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0456.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0457.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0458.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0459.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0460.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0461.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0462.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0463.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0464.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0465.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0466.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0467.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0468.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0469.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0470.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0471.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0472.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0473.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0474.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0475.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0476.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0477.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0478.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0479.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0480.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0481.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0482.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0483.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0484.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0485.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0486.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0487.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0488.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0489.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0490.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0491.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0492.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0493.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0494.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0495.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0496.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0497.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0498.json.gz - - gs://levanter-data/markweb/dolma-v1.7/falcon-0499.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0049.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0050.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0051.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0052.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0053.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0054.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0055.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0056.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0057.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0058.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0059.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0060.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0061.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0062.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0063.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0064.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0065.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0066.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0067.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0068.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0069.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0070.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0071.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0072.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0073.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0074.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0075.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0076.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0077.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0078.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0079.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0080.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0081.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0082.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0083.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0084.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0085.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0086.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0087.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0088.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0089.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0090.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0091.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0092.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0093.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0094.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0095.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0096.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0097.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0098.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0099.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0100.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0101.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0102.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0103.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0104.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0105.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0106.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0107.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0108.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0109.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0110.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0111.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0112.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0113.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0114.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0115.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0116.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0117.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0118.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0119.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0120.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0121.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0122.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0123.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0124.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0125.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0126.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0127.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0128.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0129.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0130.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0131.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0132.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0133.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0134.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0135.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0136.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0137.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0138.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0139.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0140.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0141.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0142.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0143.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0144.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0145.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0146.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0147.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0148.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0149.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0150.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0151.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0152.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0153.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0154.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0155.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0156.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0157.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0158.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0159.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0160.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0161.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0162.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0163.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0164.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0165.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0166.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0167.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0168.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0169.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0170.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0171.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0172.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0173.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0174.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0175.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0176.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0177.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0178.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0179.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0180.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0181.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0182.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0183.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0184.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0185.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0186.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0187.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0188.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0189.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0190.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0191.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0192.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0193.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0194.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0195.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0196.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0197.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0198.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0199.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0200.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0201.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0202.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0203.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0204.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0205.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0206.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0207.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0208.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0209.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0210.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0211.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0212.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0213.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0214.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0215.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0216.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0217.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0218.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0219.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0220.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0221.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0222.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0223.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0224.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0225.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0226.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0227.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0228.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0229.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0230.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0231.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0232.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0233.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0234.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0235.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0236.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0237.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0238.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0239.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0240.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0241.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0242.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0243.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0244.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0245.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0246.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0247.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0248.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0249.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0250.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0251.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0252.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0253.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0254.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0255.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0256.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0257.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0258.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0259.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0260.json.gz - - gs://levanter-data/markweb/dolma-v1.7/megawika-0261.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/pes2o-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0049.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0050.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0051.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0052.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0053.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0054.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0055.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0056.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0057.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0058.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0059.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0060.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0061.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0062.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0063.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0064.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0065.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0066.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0067.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0068.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0069.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0070.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0071.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0072.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0073.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0074.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0075.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0076.json.gz - - gs://levanter-data/markweb/dolma-v1.7/reddit-0077.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/starcoder-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0001.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0002.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0003.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0004.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0005.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0006.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0007.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0008.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0009.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0010.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0011.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0012.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0013.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0014.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0015.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0016.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0017.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0018.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0019.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0020.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0021.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0022.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0023.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0024.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0025.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0026.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0027.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0028.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0029.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0030.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0031.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0032.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0033.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0034.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0035.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0036.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0037.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0038.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0039.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0040.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0041.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0042.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0043.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0044.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0045.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0046.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0047.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0048.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0049.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0050.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0051.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0052.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0053.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0054.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0055.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0056.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0057.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0058.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0059.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0060.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0061.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0062.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0063.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0064.json.gz - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0065.json.gz - - gs://levanter-data/markweb/dolma-v1.7/wiki-0000.json.gz - - gs://levanter-data/markweb/dolma-v1.7/wiki-0001.json.gz + dolma-falcon: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/falcon-{0000..0499}.json.gz + dolma-megawika: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/megawika-{0000..0261}.json.gz + dolma-owmath: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-{0000..0012}.json.gz + dolma-pes2o: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/pes2o-{0000..0025}.json.gz + dolma-reddit: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/reddit-{0000..0077}.json.gz + dolma-stackexchange: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/stackexchange-{0000..0025}.json.gz + dolma-starcoder: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/starcoder-{0000..0048}.json.gz + dolma-flan: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-{0000..0065}.json.gz + dolma-wiki: + train_urls: + - gs://levanter-data/markweb/dolma-v1.7/wiki-{0000..0001}.json.gz # these are just for eval "paloma/4chan": validation_urls: @@ -2474,7 +102,21 @@ data: - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz train_weights: - dolma: 1.0 + dolma-algebraic-stack: 1.0 + dolma-arxiv: 1.0 + dolma-gutenberg: 1.0 + dolma-c4: 0.5 + dolma-cc: 0.5 + dolma-cc-news: 1.0 + dolma-falcon: 1.0 # not seen in the table + dolma-megawika: 1.0 + dolma-owmath: 1.0 + dolma-pes2o: 1.0 + dolma-reddit: 1.0 + dolma-stackexchange: 1.0 + dolma-starcoder: 1.0 + dolma-flan: 1.0 + dolma-wiki: 2.0 paloma/4chan: 0.0 paloma/c4_100_domains: 0.0 paloma/c4_en: 0.0 From c135fc94a2a309b986f238570a4e153db2ef3f96 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Sat, 11 May 2024 02:42:53 +0000 Subject: [PATCH 04/18] reduce # heads to 16 --- dolma_1b.yaml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/dolma_1b.yaml b/dolma_1b.yaml index 5c15d7b6e..95a04c3a3 100644 --- a/dolma_1b.yaml +++ b/dolma_1b.yaml @@ -140,7 +140,7 @@ model: hidden_dim: 2048 intermediate_dim: 4096 num_layers: 24 - num_heads: 32 + num_heads: 16 num_kv_heads: 32 use_flash_attention: True flash_attention_block_size: 1024 From fbbc95c3768b1ee61c932dcb67afb2260dcf0e32 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Sat, 11 May 2024 03:07:14 +0000 Subject: [PATCH 05/18] update config --- dolma_1b.yaml | 9 ++++++--- 1 file changed, 6 insertions(+), 3 deletions(-) diff --git a/dolma_1b.yaml b/dolma_1b.yaml index 95a04c3a3..97cfdc5a7 100644 --- a/dolma_1b.yaml +++ b/dolma_1b.yaml @@ -14,11 +14,14 @@ data: dolma-c4: train_urls: - gs://levanter-data/markweb/dolma-v1.7/c4-{0000..0170}.json.gz +Path not in full_paths: gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0153.json.gz dolma-cc: train_urls: - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-{0000..0274}.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-{0000..0379}.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0000..0444}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-{0000..0238}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-{0240..0379}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0000..0152}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0154..0444}.json.gz dolma-cc-news: train_urls: - gs://levanter-data/markweb/dolma-v1.7/cc_news-{0000..0004}.json.gz @@ -141,7 +144,7 @@ model: intermediate_dim: 4096 num_layers: 24 num_heads: 16 - num_kv_heads: 32 + num_kv_heads: 16 use_flash_attention: True flash_attention_block_size: 1024 trainer: From 4c90c55969d26ac255a0566e714e17b1984ecafc Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Sat, 11 May 2024 03:08:20 +0000 Subject: [PATCH 06/18] add comment --- dolma_1b.yaml | 5 ++--- 1 file changed, 2 insertions(+), 3 deletions(-) diff --git a/dolma_1b.yaml b/dolma_1b.yaml index 97cfdc5a7..ff08326cb 100644 --- a/dolma_1b.yaml +++ b/dolma_1b.yaml @@ -14,13 +14,12 @@ data: dolma-c4: train_urls: - gs://levanter-data/markweb/dolma-v1.7/c4-{0000..0170}.json.gz -Path not in full_paths: gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0153.json.gz dolma-cc: train_urls: - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-{0000..0274}.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-{0000..0238}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-{0000..0238}.json.gz # 239 is missing - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-{0240..0379}.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0000..0152}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0000..0152}.json.gz # 153 is missing - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0154..0444}.json.gz dolma-cc-news: train_urls: From 123d186528d0b5fa42d478f6b4ac224a86c78ddc Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Tue, 14 May 2024 02:58:37 +0000 Subject: [PATCH 07/18] update dolma config --- dolma_1b.yaml => dolma_mixture_1b.yaml | 38 +++++++++++++------------- 1 file changed, 19 insertions(+), 19 deletions(-) rename dolma_1b.yaml => dolma_mixture_1b.yaml (87%) diff --git a/dolma_1b.yaml b/dolma_mixture_1b.yaml similarity index 87% rename from dolma_1b.yaml rename to dolma_mixture_1b.yaml index ff08326cb..b70d3611b 100644 --- a/dolma_1b.yaml +++ b/dolma_mixture_1b.yaml @@ -1,6 +1,7 @@ data: cache_dir: "gs://levanter-data/tokenized/dolma/" tokenizer: "meta-llama/Llama-2-7b-hf" + stop_strategy: all_exhausted configs: dolma-algebraic-stack: train_urls: @@ -23,9 +24,9 @@ data: - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0154..0444}.json.gz dolma-cc-news: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/cc_news-{0000..0004}.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_news-{0000..0002}.json.gz.1 - - gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz.2 + - gs://levanter-data/markweb/dolma-v1.7/cc_news_head-{0000..0004}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_news_middle-{0000..0002}.json.gz + - gs://levanter-data/markweb/dolma-v1.7/cc_news_tail-0000.json.gz dolma-falcon: train_urls: - gs://levanter-data/markweb/dolma-v1.7/falcon-{0000..0499}.json.gz @@ -102,23 +103,22 @@ data: "paloma/wikitext_103": validation_urls: - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz - train_weights: - dolma-algebraic-stack: 1.0 - dolma-arxiv: 1.0 - dolma-gutenberg: 1.0 - dolma-c4: 0.5 - dolma-cc: 0.5 - dolma-cc-news: 1.0 - dolma-falcon: 1.0 # not seen in the table - dolma-megawika: 1.0 - dolma-owmath: 1.0 - dolma-pes2o: 1.0 - dolma-reddit: 1.0 - dolma-stackexchange: 1.0 - dolma-starcoder: 1.0 - dolma-flan: 1.0 - dolma-wiki: 2.0 + dolma-algebraic-stack: 12.6 # 1.0 + dolma-arxiv: 28.0 # 1.0 + dolma-gutenberg: 5.3 # 1.0 + dolma-c4: 69.2 # 138.4 * 0.5 + dolma-cc: 597.75 # 1,195.5 * 0.5 + dolma-cc-news: 14.3 # 1.0 + dolma-falcon: 456.4 # 1.0, refined web + dolma-megawika: 4.6 # 1.0 + dolma-owmath: 12.6 # 1.0 + dolma-pes2o: 57.2 # 1.0 + dolma-reddit: 79.9 # 1.0 + dolma-stackexchange: 19.6 # 1.0 + dolma-starcoder: 263.8 # 1.0 + dolma-flan: 16.5 # 1.0 + dolma-wiki: 7.4 # 3.7 * 2.0 paloma/4chan: 0.0 paloma/c4_100_domains: 0.0 paloma/c4_en: 0.0 From d198357f4c35d845a07d2ed32bfb971a7ab706e8 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Sat, 18 May 2024 02:21:38 +0000 Subject: [PATCH 08/18] rm data --- data.txt | 2419 ------------------------------------------------------ 1 file changed, 2419 deletions(-) delete mode 100644 data.txt diff --git a/data.txt b/data.txt deleted file mode 100644 index 57cfe84a7..000000000 --- a/data.txt +++ /dev/null @@ -1,2419 +0,0 @@ -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0049.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0050.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0051.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0052.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0053.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0054.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0055.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0056.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0057.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0058.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0059.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0060.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0061.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0062.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0063.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0064.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0065.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0066.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0067.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0068.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0069.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0070.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0071.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0072.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0073.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0074.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0075.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0076.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0077.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0078.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0079.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0080.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0081.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0082.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0083.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0084.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0085.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0086.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0087.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0088.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0089.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0090.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0091.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0092.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0093.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0094.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0095.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0096.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0097.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0098.json.gz -- gs://levanter-data/markweb/dolma-v1.7/arxiv-0099.json.gz -- gs://levanter-data/markweb/dolma-v1.7/books-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/books-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/books-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0049.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0050.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0051.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0052.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0053.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0054.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0055.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0056.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0057.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0058.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0059.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0060.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0061.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0062.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0063.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0064.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0065.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0066.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0067.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0068.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0069.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0070.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0071.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0072.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0073.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0074.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0075.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0076.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0077.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0078.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0079.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0080.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0081.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0082.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0083.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0084.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0085.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0086.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0087.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0088.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0089.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0090.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0091.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0092.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0093.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0094.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0095.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0096.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0097.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0098.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0099.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0100.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0101.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0102.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0103.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0104.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0105.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0106.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0107.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0108.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0109.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0110.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0111.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0112.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0113.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0114.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0115.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0116.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0117.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0118.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0119.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0120.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0121.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0122.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0123.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0124.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0125.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0126.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0127.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0128.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0129.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0130.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0131.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0132.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0133.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0134.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0135.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0136.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0137.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0138.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0139.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0140.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0141.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0142.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0143.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0144.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0145.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0146.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0147.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0148.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0149.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0150.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0151.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0152.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0153.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0154.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0155.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0156.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0157.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0158.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0159.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0160.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0161.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0162.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0163.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0164.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0165.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0166.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0167.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0168.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0169.json.gz -- gs://levanter-data/markweb/dolma-v1.7/c4-0170.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0049.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0050.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0051.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0052.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0053.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0054.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0055.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0056.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0057.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0058.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0059.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0060.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0061.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0062.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0063.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0064.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0065.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0066.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0067.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0068.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0069.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0070.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0071.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0072.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0073.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0074.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0075.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0076.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0077.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0078.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0079.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0080.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0081.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0082.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0083.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0084.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0085.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0086.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0087.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0088.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0089.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0090.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0091.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0092.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0093.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0094.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0095.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0096.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0097.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0098.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0099.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0100.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0101.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0102.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0103.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0104.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0105.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0106.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0107.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0108.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0109.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0110.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0111.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0112.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0113.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0114.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0115.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0116.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0117.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0118.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0119.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0120.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0121.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0122.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0123.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0124.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0125.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0126.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0127.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0128.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0129.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0130.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0131.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0132.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0133.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0134.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0135.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0136.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0137.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0138.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0139.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0140.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0141.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0142.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0143.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0144.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0145.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0146.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0147.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0148.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0149.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0150.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0151.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0152.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0153.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0154.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0155.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0156.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0157.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0158.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0159.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0160.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0161.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0162.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0163.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0164.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0165.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0166.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0167.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0168.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0169.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0170.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0171.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0172.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0173.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0174.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0175.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0176.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0177.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0178.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0179.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0180.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0181.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0182.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0183.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0184.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0185.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0186.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0187.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0188.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0189.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0190.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0191.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0192.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0193.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0194.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0195.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0196.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0197.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0198.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0199.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0200.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0201.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0202.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0203.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0204.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0205.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0206.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0207.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0208.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0209.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0210.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0211.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0212.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0213.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0214.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0215.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0216.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0217.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0218.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0219.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0220.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0221.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0222.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0223.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0224.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0225.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0226.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0227.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0228.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0229.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0230.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0231.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0232.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0233.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0234.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0235.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0236.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0237.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0238.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0239.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0240.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0241.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0242.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0243.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0244.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0245.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0246.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0247.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0248.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0249.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0250.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0251.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0252.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0253.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0254.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0255.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0256.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0257.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0258.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0259.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0260.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0261.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0262.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0263.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0264.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0265.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0266.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0267.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0268.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0269.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0270.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0271.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0272.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0273.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_head-0274.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0049.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0050.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0051.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0052.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0053.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0054.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0055.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0056.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0057.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0058.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0059.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0060.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0061.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0062.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0063.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0064.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0065.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0066.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0067.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0068.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0069.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0070.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0071.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0072.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0073.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0074.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0075.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0076.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0077.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0078.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0079.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0080.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0081.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0082.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0083.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0084.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0085.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0086.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0087.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0088.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0089.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0090.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0091.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0092.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0093.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0094.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0095.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0096.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0097.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0098.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0099.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0100.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0101.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0102.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0103.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0104.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0105.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0106.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0107.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0108.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0109.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0110.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0111.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0112.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0113.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0114.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0115.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0116.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0117.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0118.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0119.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0120.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0121.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0122.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0123.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0124.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0125.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0126.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0127.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0128.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0129.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0130.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0131.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0132.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0133.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0134.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0135.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0136.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0137.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0138.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0139.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0140.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0141.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0142.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0143.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0144.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0145.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0146.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0147.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0148.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0149.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0150.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0151.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0152.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0153.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0154.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0155.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0156.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0157.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0158.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0159.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0160.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0161.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0162.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0163.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0164.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0165.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0166.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0167.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0168.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0169.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0170.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0171.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0172.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0173.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0174.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0175.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0176.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0177.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0178.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0179.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0180.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0181.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0182.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0183.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0184.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0185.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0186.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0187.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0188.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0189.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0190.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0191.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0192.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0193.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0194.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0195.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0196.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0197.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0198.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0199.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0200.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0201.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0202.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0203.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0204.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0205.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0206.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0207.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0208.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0209.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0210.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0211.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0212.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0213.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0214.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0215.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0216.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0217.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0218.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0219.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0220.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0221.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0222.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0223.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0224.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0225.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0226.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0227.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0228.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0229.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0230.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0231.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0232.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0233.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0234.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0235.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0236.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0237.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0238.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0240.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0241.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0242.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0243.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0244.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0245.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0246.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0247.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0248.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0249.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0250.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0251.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0252.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0253.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0254.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0255.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0256.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0257.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0258.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0259.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0260.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0261.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0262.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0263.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0264.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0265.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0266.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0267.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0268.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0269.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0270.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0271.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0272.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0273.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0274.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0275.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0276.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0277.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0278.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0279.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0280.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0281.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0282.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0283.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0284.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0285.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0286.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0287.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0288.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0289.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0290.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0291.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0292.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0293.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0294.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0295.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0296.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0297.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0298.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0299.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0300.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0301.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0302.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0303.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0304.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0305.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0306.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0307.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0308.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0309.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0310.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0311.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0312.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0313.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0314.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0315.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0316.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0317.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0318.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0319.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0320.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0321.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0322.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0323.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0324.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0325.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0326.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0327.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0328.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0329.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0330.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0331.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0332.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0333.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0334.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0335.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0336.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0337.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0338.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0339.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0340.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0341.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0342.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0343.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0344.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0345.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0346.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0347.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0348.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0349.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0350.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0351.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0352.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0353.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0354.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0355.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0356.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0357.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0358.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0359.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0360.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0361.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0362.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0363.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0364.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0365.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0366.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0367.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0368.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0369.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0370.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0371.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0372.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0373.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0374.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0375.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0376.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0377.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0378.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-0379.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0049.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0050.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0051.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0052.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0053.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0054.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0055.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0056.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0057.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0058.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0059.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0060.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0061.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0062.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0063.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0064.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0065.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0066.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0067.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0068.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0069.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0070.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0071.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0072.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0073.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0074.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0075.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0076.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0077.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0078.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0079.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0080.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0081.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0082.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0083.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0084.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0085.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0086.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0087.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0088.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0089.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0090.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0091.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0092.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0093.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0094.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0095.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0096.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0097.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0098.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0099.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0100.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0101.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0102.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0103.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0104.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0105.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0106.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0107.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0108.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0109.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0110.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0111.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0112.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0113.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0114.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0115.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0116.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0117.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0118.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0119.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0120.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0121.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0122.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0123.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0124.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0125.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0126.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0127.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0128.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0129.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0130.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0131.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0132.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0133.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0134.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0135.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0136.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0137.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0138.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0139.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0140.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0141.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0142.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0143.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0144.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0145.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0146.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0147.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0148.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0149.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0150.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0151.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0152.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0154.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0155.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0156.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0157.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0158.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0159.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0160.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0161.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0162.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0163.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0164.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0165.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0166.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0167.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0168.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0169.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0170.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0171.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0172.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0173.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0174.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0175.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0176.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0177.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0178.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0179.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0180.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0181.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0182.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0183.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0184.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0185.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0186.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0187.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0188.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0189.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0190.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0191.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0192.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0193.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0194.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0195.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0196.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0197.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0198.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0199.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0200.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0201.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0202.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0203.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0204.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0205.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0206.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0207.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0208.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0209.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0210.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0211.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0212.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0213.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0214.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0215.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0216.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0217.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0218.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0219.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0220.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0221.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0222.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0223.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0224.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0225.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0226.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0227.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0228.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0229.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0230.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0231.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0232.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0233.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0234.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0235.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0236.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0237.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0238.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0239.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0240.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0241.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0242.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0243.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0244.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0245.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0246.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0247.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0248.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0249.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0250.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0251.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0252.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0253.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0254.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0255.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0256.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0257.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0258.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0259.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0260.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0261.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0262.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0263.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0264.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0265.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0266.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0267.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0268.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0269.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0270.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0271.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0272.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0273.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0274.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0275.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0276.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0277.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0278.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0279.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0280.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0281.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0282.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0283.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0284.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0285.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0286.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0287.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0288.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0289.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0290.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0291.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0292.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0293.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0294.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0295.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0296.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0297.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0298.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0299.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0300.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0301.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0302.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0303.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0304.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0305.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0306.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0307.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0308.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0309.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0310.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0311.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0312.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0313.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0314.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0315.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0316.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0317.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0318.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0319.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0320.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0321.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0322.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0323.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0324.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0325.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0326.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0327.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0328.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0329.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0330.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0331.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0332.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0333.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0334.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0335.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0336.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0337.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0338.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0339.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0340.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0341.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0342.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0343.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0344.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0345.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0346.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0347.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0348.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0349.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0350.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0351.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0352.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0353.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0354.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0355.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0356.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0357.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0358.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0359.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0360.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0361.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0362.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0363.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0364.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0365.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0366.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0367.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0368.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0369.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0370.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0371.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0372.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0373.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0374.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0375.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0376.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0377.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0378.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0379.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0380.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0381.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0382.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0383.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0384.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0385.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0386.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0387.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0388.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0389.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0390.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0391.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0392.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0393.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0394.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0395.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0396.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0397.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0398.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0399.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0400.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0401.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0402.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0403.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0404.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0405.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0406.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0407.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0408.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0409.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0410.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0411.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0412.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0413.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0414.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0415.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0416.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0417.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0418.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0419.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0420.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0421.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0422.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0423.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0424.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0425.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0426.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0427.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0428.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0429.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0430.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0431.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0432.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0433.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0434.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0435.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0436.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0437.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0438.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0439.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0440.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0441.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0442.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0443.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-0444.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz.1 -- gs://levanter-data/markweb/dolma-v1.7/cc_news-0000.json.gz.2 -- gs://levanter-data/markweb/dolma-v1.7/cc_news-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_news-0001.json.gz.1 -- gs://levanter-data/markweb/dolma-v1.7/cc_news-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_news-0002.json.gz.1 -- gs://levanter-data/markweb/dolma-v1.7/cc_news-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/cc_news-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0049.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0050.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0051.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0052.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0053.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0054.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0055.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0056.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0057.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0058.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0059.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0060.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0061.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0062.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0063.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0064.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0065.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0066.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0067.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0068.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0069.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0070.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0071.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0072.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0073.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0074.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0075.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0076.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0077.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0078.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0079.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0080.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0081.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0082.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0083.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0084.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0085.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0086.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0087.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0088.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0089.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0090.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0091.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0092.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0093.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0094.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0095.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0096.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0097.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0098.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0099.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0100.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0101.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0102.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0103.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0104.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0105.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0106.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0107.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0108.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0109.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0110.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0111.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0112.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0113.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0114.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0115.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0116.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0117.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0118.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0119.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0120.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0121.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0122.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0123.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0124.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0125.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0126.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0127.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0128.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0129.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0130.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0131.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0132.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0133.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0134.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0135.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0136.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0137.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0138.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0139.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0140.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0141.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0142.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0143.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0144.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0145.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0146.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0147.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0148.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0149.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0150.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0151.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0152.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0153.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0154.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0155.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0156.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0157.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0158.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0159.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0160.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0161.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0162.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0163.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0164.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0165.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0166.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0167.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0168.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0169.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0170.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0171.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0172.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0173.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0174.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0175.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0176.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0177.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0178.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0179.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0180.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0181.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0182.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0183.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0184.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0185.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0186.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0187.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0188.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0189.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0190.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0191.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0192.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0193.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0194.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0195.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0196.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0197.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0198.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0199.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0200.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0201.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0202.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0203.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0204.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0205.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0206.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0207.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0208.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0209.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0210.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0211.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0212.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0213.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0214.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0215.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0216.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0217.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0218.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0219.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0220.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0221.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0222.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0223.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0224.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0225.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0226.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0227.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0228.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0229.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0230.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0231.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0232.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0233.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0234.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0235.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0236.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0237.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0238.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0239.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0240.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0241.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0242.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0243.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0244.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0245.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0246.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0247.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0248.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0249.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0250.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0251.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0252.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0253.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0254.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0255.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0256.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0257.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0258.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0259.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0260.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0261.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0262.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0263.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0264.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0265.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0266.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0267.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0268.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0269.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0270.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0271.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0272.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0273.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0274.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0275.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0276.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0277.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0278.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0279.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0280.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0281.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0282.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0283.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0284.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0285.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0286.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0287.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0288.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0289.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0290.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0291.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0292.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0293.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0294.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0295.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0296.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0297.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0298.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0299.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0300.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0301.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0302.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0303.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0304.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0305.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0306.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0307.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0308.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0309.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0310.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0311.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0312.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0313.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0314.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0315.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0316.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0317.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0318.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0319.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0320.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0321.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0322.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0323.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0324.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0325.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0326.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0327.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0328.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0329.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0330.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0331.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0332.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0333.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0334.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0335.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0336.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0337.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0338.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0339.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0340.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0341.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0342.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0343.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0344.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0345.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0346.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0347.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0348.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0349.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0350.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0351.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0352.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0353.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0354.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0355.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0356.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0357.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0358.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0359.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0360.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0361.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0362.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0363.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0364.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0365.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0366.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0367.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0368.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0369.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0370.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0371.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0372.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0373.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0374.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0375.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0376.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0377.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0378.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0379.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0380.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0381.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0382.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0383.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0384.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0385.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0386.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0387.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0388.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0389.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0390.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0391.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0392.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0393.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0394.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0395.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0396.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0397.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0398.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0399.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0400.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0401.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0402.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0403.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0404.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0405.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0406.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0407.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0408.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0409.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0410.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0411.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0412.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0413.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0414.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0415.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0416.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0417.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0418.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0419.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0420.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0421.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0422.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0423.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0424.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0425.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0426.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0427.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0428.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0429.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0430.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0431.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0432.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0433.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0434.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0435.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0436.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0437.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0438.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0439.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0440.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0441.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0442.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0443.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0444.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0445.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0446.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0447.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0448.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0449.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0450.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0451.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0452.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0453.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0454.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0455.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0456.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0457.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0458.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0459.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0460.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0461.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0462.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0463.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0464.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0465.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0466.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0467.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0468.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0469.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0470.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0471.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0472.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0473.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0474.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0475.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0476.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0477.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0478.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0479.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0480.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0481.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0482.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0483.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0484.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0485.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0486.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0487.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0488.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0489.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0490.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0491.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0492.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0493.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0494.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0495.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0496.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0497.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0498.json.gz -- gs://levanter-data/markweb/dolma-v1.7/falcon-0499.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0049.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0050.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0051.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0052.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0053.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0054.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0055.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0056.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0057.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0058.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0059.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0060.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0061.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0062.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0063.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0064.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0065.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0066.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0067.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0068.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0069.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0070.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0071.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0072.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0073.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0074.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0075.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0076.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0077.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0078.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0079.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0080.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0081.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0082.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0083.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0084.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0085.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0086.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0087.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0088.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0089.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0090.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0091.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0092.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0093.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0094.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0095.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0096.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0097.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0098.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0099.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0100.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0101.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0102.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0103.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0104.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0105.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0106.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0107.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0108.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0109.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0110.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0111.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0112.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0113.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0114.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0115.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0116.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0117.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0118.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0119.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0120.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0121.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0122.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0123.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0124.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0125.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0126.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0127.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0128.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0129.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0130.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0131.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0132.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0133.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0134.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0135.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0136.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0137.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0138.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0139.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0140.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0141.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0142.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0143.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0144.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0145.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0146.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0147.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0148.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0149.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0150.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0151.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0152.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0153.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0154.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0155.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0156.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0157.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0158.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0159.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0160.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0161.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0162.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0163.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0164.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0165.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0166.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0167.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0168.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0169.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0170.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0171.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0172.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0173.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0174.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0175.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0176.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0177.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0178.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0179.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0180.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0181.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0182.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0183.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0184.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0185.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0186.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0187.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0188.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0189.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0190.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0191.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0192.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0193.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0194.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0195.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0196.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0197.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0198.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0199.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0200.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0201.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0202.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0203.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0204.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0205.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0206.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0207.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0208.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0209.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0210.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0211.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0212.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0213.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0214.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0215.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0216.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0217.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0218.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0219.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0220.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0221.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0222.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0223.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0224.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0225.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0226.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0227.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0228.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0229.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0230.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0231.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0232.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0233.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0234.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0235.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0236.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0237.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0238.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0239.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0240.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0241.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0242.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0243.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0244.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0245.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0246.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0247.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0248.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0249.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0250.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0251.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0252.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0253.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0254.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0255.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0256.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0257.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0258.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0259.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0260.json.gz -- gs://levanter-data/markweb/dolma-v1.7/megawika-0261.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/pes2o-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0049.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0050.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0051.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0052.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0053.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0054.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0055.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0056.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0057.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0058.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0059.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0060.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0061.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0062.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0063.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0064.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0065.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0066.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0067.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0068.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0069.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0070.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0071.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0072.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0073.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0074.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0075.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0076.json.gz -- gs://levanter-data/markweb/dolma-v1.7/reddit-0077.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/stackexchange-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/starcoder-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0001.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0002.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0003.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0004.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0005.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0006.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0007.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0008.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0009.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0010.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0011.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0012.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0013.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0014.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0015.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0016.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0017.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0018.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0019.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0020.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0021.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0022.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0023.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0024.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0025.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0026.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0027.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0028.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0029.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0030.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0031.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0032.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0033.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0034.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0035.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0036.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0037.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0038.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0039.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0040.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0041.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0042.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0043.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0044.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0045.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0046.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0047.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0048.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0049.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0050.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0051.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0052.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0053.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0054.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0055.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0056.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0057.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0058.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0059.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0060.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0061.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0062.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0063.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0064.json.gz -- gs://levanter-data/markweb/dolma-v1.7/tulu_flan-0065.json.gz -- gs://levanter-data/markweb/dolma-v1.7/wiki-0000.json.gz -- gs://levanter-data/markweb/dolma-v1.7/wiki-0001.json.gz From 5d7f1a4609b6c78ddf39c80255dd4583daf2c146 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Sat, 18 May 2024 02:21:49 +0000 Subject: [PATCH 09/18] update tokenizer and data directory --- dolma_mixture_1b.yaml | 49 ++++++++++++++++++++++--------------------- 1 file changed, 25 insertions(+), 24 deletions(-) diff --git a/dolma_mixture_1b.yaml b/dolma_mixture_1b.yaml index b70d3611b..a4f1356bd 100644 --- a/dolma_mixture_1b.yaml +++ b/dolma_mixture_1b.yaml @@ -1,59 +1,60 @@ data: - cache_dir: "gs://levanter-data/tokenized/dolma/" - tokenizer: "meta-llama/Llama-2-7b-hf" + cache_dir: "gs://marin-data/tokenized/OLMo-1B/dolma-v1.7" + # tokenizer: "meta-llama/Llama-2-7b-hf" + tokenizer: "allenai/OLMo-1B" stop_strategy: all_exhausted configs: dolma-algebraic-stack: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/algebraic-stack-train-{0000..0015}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/algebraic-stack-train-{0000..0015}.json.gz dolma-arxiv: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/arxiv-{0000..0099}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/arxiv-{0000..0099}.json.gz dolma-gutenberg: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/books-{0000..0002}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/books-{0000..0002}.json.gz dolma-c4: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/c4-{0000..0170}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/c4-{0000..0170}.json.gz dolma-cc: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/cc_en_head-{0000..0274}.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-{0000..0238}.json.gz # 239 is missing - - gs://levanter-data/markweb/dolma-v1.7/cc_en_middle-{0240..0379}.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0000..0152}.json.gz # 153 is missing - - gs://levanter-data/markweb/dolma-v1.7/cc_en_tail-{0154..0444}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_head-{0000..0274}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_middle-{0000..0238}.json.gz # 239 is missing + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_middle-{0240..0379}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_tail-{0000..0152}.json.gz # 153 is missing + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_tail-{0154..0444}.json.gz dolma-cc-news: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/cc_news_head-{0000..0004}.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_news_middle-{0000..0002}.json.gz - - gs://levanter-data/markweb/dolma-v1.7/cc_news_tail-0000.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_news_head-{0000..0004}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_news_middle-{0000..0002}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_news_tail-0000.json.gz dolma-falcon: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/falcon-{0000..0499}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/falcon-{0000..0499}.json.gz dolma-megawika: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/megawika-{0000..0261}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/megawika-{0000..0261}.json.gz dolma-owmath: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/open-web-math-train-{0000..0012}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/open-web-math-train-{0000..0012}.json.gz dolma-pes2o: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/pes2o-{0000..0025}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/pes2o-{0000..0025}.json.gz dolma-reddit: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/reddit-{0000..0077}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/reddit-{0000..0077}.json.gz dolma-stackexchange: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/stackexchange-{0000..0025}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/stackexchange-{0000..0025}.json.gz dolma-starcoder: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/starcoder-{0000..0048}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/starcoder-{0000..0048}.json.gz dolma-flan: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/tulu_flan-{0000..0065}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/tulu_flan-{0000..0065}.json.gz dolma-wiki: train_urls: - - gs://levanter-data/markweb/dolma-v1.7/wiki-{0000..0001}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/wiki-{0000..0001}.json.gz # these are just for eval "paloma/4chan": validation_urls: @@ -150,7 +151,7 @@ trainer: tracker: type: wandb project: "marin" - tags: ["dolma", "llama"] + tags: ["dolma", "olmo", "llama"] mp: p=f32,c=bfloat16 train_batch_size: 1024 From 83c22d5de4c8c0e36448a7e4e0e8b398f9a1e39d Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Sun, 19 May 2024 19:45:57 +0000 Subject: [PATCH 10/18] Set intermediate_dim, layers, and warmup as OLMo --- dolma_mixture_1b.yaml | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/dolma_mixture_1b.yaml b/dolma_mixture_1b.yaml index a4f1356bd..44319d2ff 100644 --- a/dolma_mixture_1b.yaml +++ b/dolma_mixture_1b.yaml @@ -141,8 +141,8 @@ model: type: llama seq_len: 2048 hidden_dim: 2048 - intermediate_dim: 4096 - num_layers: 24 + intermediate_dim: 8192 + num_layers: 16 num_heads: 16 num_kv_heads: 16 use_flash_attention: True @@ -164,3 +164,4 @@ optimizer: learning_rate: 4E-4 weight_decay: 0.1 min_lr_ratio: 0.1 + warmup: 5000 From eee3b46e13358978e55f25b1b18ace51f14c7f1b Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Fri, 24 May 2024 02:38:27 +0000 Subject: [PATCH 11/18] add dolma and llama 1b --- .../data/dolma_paloma.yaml | 41 +++---------------- config/llama_1b_with_olmo_config.yaml | 33 +++++++++++++++ 2 files changed, 38 insertions(+), 36 deletions(-) rename dolma_mixture_1b.yaml => config/data/dolma_paloma.yaml (85%) create mode 100644 config/llama_1b_with_olmo_config.yaml diff --git a/dolma_mixture_1b.yaml b/config/data/dolma_paloma.yaml similarity index 85% rename from dolma_mixture_1b.yaml rename to config/data/dolma_paloma.yaml index 44319d2ff..ca928d631 100644 --- a/dolma_mixture_1b.yaml +++ b/config/data/dolma_paloma.yaml @@ -1,7 +1,4 @@ data: - cache_dir: "gs://marin-data/tokenized/OLMo-1B/dolma-v1.7" - # tokenizer: "meta-llama/Llama-2-7b-hf" - tokenizer: "allenai/OLMo-1B" stop_strategy: all_exhausted configs: dolma-algebraic-stack: @@ -105,9 +102,10 @@ data: validation_urls: - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz train_weights: - dolma-algebraic-stack: 12.6 # 1.0 - dolma-arxiv: 28.0 # 1.0 - dolma-gutenberg: 5.3 # 1.0 + # sampling proportion comes from https://huggingface.co/datasets/allenai/dolma + dolma-algebraic-stack: 12.6 # 12.6 * 1.0 + dolma-arxiv: 28.0 # 28.0 * 1.0 + dolma-gutenberg: 5.3 # 5.3 * 1.0 dolma-c4: 69.2 # 138.4 * 0.5 dolma-cc: 597.75 # 1,195.5 * 0.5 dolma-cc-news: 14.3 # 1.0 @@ -118,7 +116,7 @@ data: dolma-reddit: 79.9 # 1.0 dolma-stackexchange: 19.6 # 1.0 dolma-starcoder: 263.8 # 1.0 - dolma-flan: 16.5 # 1.0 + dolma-flan: 16.5 # 6.5 * 1.0 dolma-wiki: 7.4 # 3.7 * 2.0 paloma/4chan: 0.0 paloma/c4_100_domains: 0.0 @@ -136,32 +134,3 @@ data: paloma/redpajama: 0.0 paloma/twitterAAE_HELM_fixed: 0.0 paloma/wikitext_103: 0.0 -model: - # 1B class model - type: llama - seq_len: 2048 - hidden_dim: 2048 - intermediate_dim: 8192 - num_layers: 16 - num_heads: 16 - num_kv_heads: 16 - use_flash_attention: True - flash_attention_block_size: 1024 -trainer: - tracker: - type: wandb - project: "marin" - tags: ["dolma", "olmo", "llama"] - - mp: p=f32,c=bfloat16 - train_batch_size: 1024 - num_train_steps: 750000 # 3,000,000,000,000 / 4,000,000 = 750,000 - steps_per_eval: 1000 - tensor_parallel_axes: ["mlp", "heads"] - fsdp_axis: "embed" - batch_axis: "batch" -optimizer: - learning_rate: 4E-4 - weight_decay: 0.1 - min_lr_ratio: 0.1 - warmup: 5000 diff --git a/config/llama_1b_with_olmo_config.yaml b/config/llama_1b_with_olmo_config.yaml new file mode 100644 index 000000000..55a1458aa --- /dev/null +++ b/config/llama_1b_with_olmo_config.yaml @@ -0,0 +1,33 @@ +data: !include data/dolma_paloma.yaml + cache_dir: "gs://marin-data/tokenized/OLMo-1B/dolma-v1.7" + tokenizer: "allenai/OLMo-1B" # requires `pip install ai2-olmo` + # tokenizer: "meta-llama/Llama-2-7b-hf" +model: # 1B class model + type: llama + seq_len: 2048 + hidden_dim: 2048 + intermediate_dim: 8192 + num_layers: 16 + num_heads: 16 + num_kv_heads: 16 + use_flash_attention: True + flash_attention_block_size: 1024 + # attn_backend: "splash" - to be tested +trainer: + tracker: + type: wandb + project: "marin" + tags: ["dolma", "olmo", "llama"] + + mp: p=f32,c=bfloat16 + train_batch_size: 1024 + num_train_steps: 750000 # 3,000,000,000,000 / 4,000,000 = 750,000 + steps_per_eval: 1000 + tensor_parallel_axes: ["mlp", "heads"] + fsdp_axis: "embed" + batch_axis: "batch" +optimizer: + learning_rate: 4E-4 + weight_decay: 0.1 + min_lr_ratio: 0.1 + warmup: 5000 From 15b710a473ae3d7eb90da09cd216a3bdde40243b Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Fri, 24 May 2024 02:49:29 +0000 Subject: [PATCH 12/18] data/dolma_olmo_paloma.yaml --- config/data/{dolma_paloma.yaml => dolma_olmo_paloma.yaml} | 3 +++ config/llama_1b_with_olmo_config.yaml | 5 +---- 2 files changed, 4 insertions(+), 4 deletions(-) rename config/data/{dolma_paloma.yaml => dolma_olmo_paloma.yaml} (96%) diff --git a/config/data/dolma_paloma.yaml b/config/data/dolma_olmo_paloma.yaml similarity index 96% rename from config/data/dolma_paloma.yaml rename to config/data/dolma_olmo_paloma.yaml index ca928d631..a15e6ba8d 100644 --- a/config/data/dolma_paloma.yaml +++ b/config/data/dolma_olmo_paloma.yaml @@ -1,4 +1,7 @@ data: + cache_dir: "gs://marin-data/tokenized/OLMo-1B/dolma-v1.7" + tokenizer: "allenai/OLMo-1B" # requires `pip install ai2-olmo` + # tokenizer: "meta-llama/Llama-2-7b-hf" stop_strategy: all_exhausted configs: dolma-algebraic-stack: diff --git a/config/llama_1b_with_olmo_config.yaml b/config/llama_1b_with_olmo_config.yaml index 55a1458aa..fcb23bb15 100644 --- a/config/llama_1b_with_olmo_config.yaml +++ b/config/llama_1b_with_olmo_config.yaml @@ -1,7 +1,4 @@ -data: !include data/dolma_paloma.yaml - cache_dir: "gs://marin-data/tokenized/OLMo-1B/dolma-v1.7" - tokenizer: "allenai/OLMo-1B" # requires `pip install ai2-olmo` - # tokenizer: "meta-llama/Llama-2-7b-hf" +data: !include data/dolma_olmo_paloma.yaml model: # 1B class model type: llama seq_len: 2048 From 9774d9b77ae681f41335b6b4023e6d81f4e9000a Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Fri, 24 May 2024 02:51:56 +0000 Subject: [PATCH 13/18] remove data --- config/data/dolma_olmo_paloma.yaml | 274 +++++++++++++------------- config/llama_1b_with_olmo_config.yaml | 3 + 2 files changed, 138 insertions(+), 139 deletions(-) diff --git a/config/data/dolma_olmo_paloma.yaml b/config/data/dolma_olmo_paloma.yaml index a15e6ba8d..cca53e9df 100644 --- a/config/data/dolma_olmo_paloma.yaml +++ b/config/data/dolma_olmo_paloma.yaml @@ -1,139 +1,135 @@ -data: - cache_dir: "gs://marin-data/tokenized/OLMo-1B/dolma-v1.7" - tokenizer: "allenai/OLMo-1B" # requires `pip install ai2-olmo` - # tokenizer: "meta-llama/Llama-2-7b-hf" - stop_strategy: all_exhausted - configs: - dolma-algebraic-stack: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/algebraic-stack-train-{0000..0015}.json.gz - dolma-arxiv: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/arxiv-{0000..0099}.json.gz - dolma-gutenberg: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/books-{0000..0002}.json.gz - dolma-c4: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/c4-{0000..0170}.json.gz - dolma-cc: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_head-{0000..0274}.json.gz - - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_middle-{0000..0238}.json.gz # 239 is missing - - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_middle-{0240..0379}.json.gz - - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_tail-{0000..0152}.json.gz # 153 is missing - - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_tail-{0154..0444}.json.gz - dolma-cc-news: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/cc_news_head-{0000..0004}.json.gz - - gs://marin-data/raw/dolma/dolma-v1.7/cc_news_middle-{0000..0002}.json.gz - - gs://marin-data/raw/dolma/dolma-v1.7/cc_news_tail-0000.json.gz - dolma-falcon: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/falcon-{0000..0499}.json.gz - dolma-megawika: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/megawika-{0000..0261}.json.gz - dolma-owmath: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/open-web-math-train-{0000..0012}.json.gz - dolma-pes2o: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/pes2o-{0000..0025}.json.gz - dolma-reddit: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/reddit-{0000..0077}.json.gz - dolma-stackexchange: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/stackexchange-{0000..0025}.json.gz - dolma-starcoder: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/starcoder-{0000..0048}.json.gz - dolma-flan: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/tulu_flan-{0000..0065}.json.gz - dolma-wiki: - train_urls: - - gs://marin-data/raw/dolma/dolma-v1.7/wiki-{0000..0001}.json.gz - # these are just for eval - "paloma/4chan": - validation_urls: - - gs://levanter-data/paloma/4chan_meta_sep/val/val*.jsonl.gz - "paloma/c4_100_domains": - validation_urls: - - gs://levanter-data/paloma/c4_100_domains/val/val*.jsonl.gz - "paloma/c4_en": - validation_urls: - - gs://levanter-data/paloma/c4_en/val/val*.jsonl.gz - "paloma/dolma-v1_5": - validation_urls: - - gs://levanter-data/paloma/dolma-v1_5/val/val*.jsonl.gz - "paloma/dolma_100_programing_languages": - validation_urls: - - gs://levanter-data/paloma/dolma_100_programing_languages/val/val*.jsonl.gz - "paloma/dolma_100_subreddits": - validation_urls: - - gs://levanter-data/paloma/dolma_100_subreddits/val/val*.jsonl.gz - "paloma/falcon-refinedweb": - validation_urls: - - gs://levanter-data/paloma/falcon-refinedweb/val/val*.jsonl.gz - "paloma/gab": - validation_urls: - - gs://levanter-data/paloma/gab/val/val*.jsonl.gz - "paloma/m2d2_s2orc_unsplit": - validation_urls: - - gs://levanter-data/paloma/m2d2_s2orc_unsplit/val/val*.jsonl.gz - "paloma/m2d2_wikipedia_unsplit": - validation_urls: - - gs://levanter-data/paloma/m2d2_wikipedia_unsplit/val/val*.jsonl.gz - "paloma/manosphere_meta_sep": - validation_urls: - - gs://levanter-data/paloma/manosphere_meta_sep/val/val*.jsonl.gz - "paloma/mc4": - validation_urls: - - gs://levanter-data/paloma/mc4/val/val*.jsonl.gz - "paloma/ptb": - validation_urls: - - gs://levanter-data/paloma/ptb/val/val*.jsonl.gz - "paloma/redpajama": - validation_urls: - - gs://levanter-data/paloma/redpajama/val/val*.jsonl.gz - "paloma/twitterAAE_HELM_fixed": - validation_urls: - - gs://levanter-data/paloma/twitterAAE_HELM_fixed/val/val*.jsonl.gz - "paloma/wikitext_103": - validation_urls: - - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz - train_weights: - # sampling proportion comes from https://huggingface.co/datasets/allenai/dolma - dolma-algebraic-stack: 12.6 # 12.6 * 1.0 - dolma-arxiv: 28.0 # 28.0 * 1.0 - dolma-gutenberg: 5.3 # 5.3 * 1.0 - dolma-c4: 69.2 # 138.4 * 0.5 - dolma-cc: 597.75 # 1,195.5 * 0.5 - dolma-cc-news: 14.3 # 1.0 - dolma-falcon: 456.4 # 1.0, refined web - dolma-megawika: 4.6 # 1.0 - dolma-owmath: 12.6 # 1.0 - dolma-pes2o: 57.2 # 1.0 - dolma-reddit: 79.9 # 1.0 - dolma-stackexchange: 19.6 # 1.0 - dolma-starcoder: 263.8 # 1.0 - dolma-flan: 16.5 # 6.5 * 1.0 - dolma-wiki: 7.4 # 3.7 * 2.0 - paloma/4chan: 0.0 - paloma/c4_100_domains: 0.0 - paloma/c4_en: 0.0 - paloma/dolma-v1_5: 0.0 - paloma/dolma_100_programing_languages: 0.0 - paloma/dolma_100_subreddits: 0.0 - paloma/falcon-refinedweb: 0.0 - paloma/gab: 0.0 - paloma/m2d2_s2orc_unsplit: 0.0 - paloma/m2d2_wikipedia_unsplit: 0.0 - paloma/manosphere_meta_sep: 0.0 - paloma/mc4: 0.0 - paloma/ptb: 0.0 - paloma/redpajama: 0.0 - paloma/twitterAAE_HELM_fixed: 0.0 - paloma/wikitext_103: 0.0 +stop_strategy: all_exhausted +configs: + dolma-algebraic-stack: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/algebraic-stack-train-{0000..0015}.json.gz + dolma-arxiv: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/arxiv-{0000..0099}.json.gz + dolma-gutenberg: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/books-{0000..0002}.json.gz + dolma-c4: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/c4-{0000..0170}.json.gz + dolma-cc: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_head-{0000..0274}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_middle-{0000..0238}.json.gz # 239 is missing + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_middle-{0240..0379}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_tail-{0000..0152}.json.gz # 153 is missing + - gs://marin-data/raw/dolma/dolma-v1.7/cc_en_tail-{0154..0444}.json.gz + dolma-cc-news: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/cc_news_head-{0000..0004}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_news_middle-{0000..0002}.json.gz + - gs://marin-data/raw/dolma/dolma-v1.7/cc_news_tail-0000.json.gz + dolma-falcon: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/falcon-{0000..0499}.json.gz + dolma-megawika: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/megawika-{0000..0261}.json.gz + dolma-owmath: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/open-web-math-train-{0000..0012}.json.gz + dolma-pes2o: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/pes2o-{0000..0025}.json.gz + dolma-reddit: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/reddit-{0000..0077}.json.gz + dolma-stackexchange: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/stackexchange-{0000..0025}.json.gz + dolma-starcoder: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/starcoder-{0000..0048}.json.gz + dolma-flan: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/tulu_flan-{0000..0065}.json.gz + dolma-wiki: + train_urls: + - gs://marin-data/raw/dolma/dolma-v1.7/wiki-{0000..0001}.json.gz + # these are just for eval + "paloma/4chan": + validation_urls: + - gs://levanter-data/paloma/4chan_meta_sep/val/val*.jsonl.gz + "paloma/c4_100_domains": + validation_urls: + - gs://levanter-data/paloma/c4_100_domains/val/val*.jsonl.gz + "paloma/c4_en": + validation_urls: + - gs://levanter-data/paloma/c4_en/val/val*.jsonl.gz + "paloma/dolma-v1_5": + validation_urls: + - gs://levanter-data/paloma/dolma-v1_5/val/val*.jsonl.gz + "paloma/dolma_100_programing_languages": + validation_urls: + - gs://levanter-data/paloma/dolma_100_programing_languages/val/val*.jsonl.gz + "paloma/dolma_100_subreddits": + validation_urls: + - gs://levanter-data/paloma/dolma_100_subreddits/val/val*.jsonl.gz + "paloma/falcon-refinedweb": + validation_urls: + - gs://levanter-data/paloma/falcon-refinedweb/val/val*.jsonl.gz + "paloma/gab": + validation_urls: + - gs://levanter-data/paloma/gab/val/val*.jsonl.gz + "paloma/m2d2_s2orc_unsplit": + validation_urls: + - gs://levanter-data/paloma/m2d2_s2orc_unsplit/val/val*.jsonl.gz + "paloma/m2d2_wikipedia_unsplit": + validation_urls: + - gs://levanter-data/paloma/m2d2_wikipedia_unsplit/val/val*.jsonl.gz + "paloma/manosphere_meta_sep": + validation_urls: + - gs://levanter-data/paloma/manosphere_meta_sep/val/val*.jsonl.gz + "paloma/mc4": + validation_urls: + - gs://levanter-data/paloma/mc4/val/val*.jsonl.gz + "paloma/ptb": + validation_urls: + - gs://levanter-data/paloma/ptb/val/val*.jsonl.gz + "paloma/redpajama": + validation_urls: + - gs://levanter-data/paloma/redpajama/val/val*.jsonl.gz + "paloma/twitterAAE_HELM_fixed": + validation_urls: + - gs://levanter-data/paloma/twitterAAE_HELM_fixed/val/val*.jsonl.gz + "paloma/wikitext_103": + validation_urls: + - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz +train_weights: + # sampling proportion comes from https://huggingface.co/datasets/allenai/dolma + dolma-algebraic-stack: 12.6 # 12.6 * 1.0 + dolma-arxiv: 28.0 # 28.0 * 1.0 + dolma-gutenberg: 5.3 # 5.3 * 1.0 + dolma-c4: 69.2 # 138.4 * 0.5 + dolma-cc: 597.75 # 1,195.5 * 0.5 + dolma-cc-news: 14.3 # 1.0 + dolma-falcon: 456.4 # 1.0, refined web + dolma-megawika: 4.6 # 1.0 + dolma-owmath: 12.6 # 1.0 + dolma-pes2o: 57.2 # 1.0 + dolma-reddit: 79.9 # 1.0 + dolma-stackexchange: 19.6 # 1.0 + dolma-starcoder: 263.8 # 1.0 + dolma-flan: 16.5 # 6.5 * 1.0 + dolma-wiki: 7.4 # 3.7 * 2.0 + paloma/4chan: 0.0 + paloma/c4_100_domains: 0.0 + paloma/c4_en: 0.0 + paloma/dolma-v1_5: 0.0 + paloma/dolma_100_programing_languages: 0.0 + paloma/dolma_100_subreddits: 0.0 + paloma/falcon-refinedweb: 0.0 + paloma/gab: 0.0 + paloma/m2d2_s2orc_unsplit: 0.0 + paloma/m2d2_wikipedia_unsplit: 0.0 + paloma/manosphere_meta_sep: 0.0 + paloma/mc4: 0.0 + paloma/ptb: 0.0 + paloma/redpajama: 0.0 + paloma/twitterAAE_HELM_fixed: 0.0 + paloma/wikitext_103: 0.0 diff --git a/config/llama_1b_with_olmo_config.yaml b/config/llama_1b_with_olmo_config.yaml index fcb23bb15..c70ed0a33 100644 --- a/config/llama_1b_with_olmo_config.yaml +++ b/config/llama_1b_with_olmo_config.yaml @@ -1,4 +1,7 @@ data: !include data/dolma_olmo_paloma.yaml + cache_dir: "gs://marin-data/tokenized/OLMo-1B/dolma-v1.7" + tokenizer: "allenai/OLMo-1B" # requires `pip install ai2-olmo` + # tokenizer: "meta-llama/Llama-2-7b-hf" model: # 1B class model type: llama seq_len: 2048 From 2c05e52249aebd9a9577b74f96d51b9e2a6b6c21 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Fri, 24 May 2024 02:54:45 +0000 Subject: [PATCH 14/18] mapping values are not allowed here --- config/data/dolma_olmo_paloma.yaml | 3 +++ config/llama_1b_with_olmo_config.yaml | 3 --- 2 files changed, 3 insertions(+), 3 deletions(-) diff --git a/config/data/dolma_olmo_paloma.yaml b/config/data/dolma_olmo_paloma.yaml index cca53e9df..a1bc00ce8 100644 --- a/config/data/dolma_olmo_paloma.yaml +++ b/config/data/dolma_olmo_paloma.yaml @@ -1,3 +1,6 @@ +cache_dir: "gs://marin-data/tokenized/OLMo-1B/dolma-v1.7" +tokenizer: "allenai/OLMo-1B" # requires `pip install ai2-olmo` +# tokenizer: "meta-llama/Llama-2-7b-hf" stop_strategy: all_exhausted configs: dolma-algebraic-stack: diff --git a/config/llama_1b_with_olmo_config.yaml b/config/llama_1b_with_olmo_config.yaml index c70ed0a33..fcb23bb15 100644 --- a/config/llama_1b_with_olmo_config.yaml +++ b/config/llama_1b_with_olmo_config.yaml @@ -1,7 +1,4 @@ data: !include data/dolma_olmo_paloma.yaml - cache_dir: "gs://marin-data/tokenized/OLMo-1B/dolma-v1.7" - tokenizer: "allenai/OLMo-1B" # requires `pip install ai2-olmo` - # tokenizer: "meta-llama/Llama-2-7b-hf" model: # 1B class model type: llama seq_len: 2048 From 30e8cdec9519f45b15da8727138e02952fa7c651 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Fri, 24 May 2024 03:03:13 +0000 Subject: [PATCH 15/18] attention_backend splash --- config/llama_1b_with_olmo_config.yaml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/config/llama_1b_with_olmo_config.yaml b/config/llama_1b_with_olmo_config.yaml index fcb23bb15..cfe0893af 100644 --- a/config/llama_1b_with_olmo_config.yaml +++ b/config/llama_1b_with_olmo_config.yaml @@ -9,7 +9,7 @@ model: # 1B class model num_kv_heads: 16 use_flash_attention: True flash_attention_block_size: 1024 - # attn_backend: "splash" - to be tested + attn_backend: splash trainer: tracker: type: wandb From f38f365e48fb7a44a9c582cfcebb1d38b5f9171a Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Fri, 24 May 2024 03:03:56 +0000 Subject: [PATCH 16/18] no need to specify --- config/llama_1b_with_olmo_config.yaml | 1 - 1 file changed, 1 deletion(-) diff --git a/config/llama_1b_with_olmo_config.yaml b/config/llama_1b_with_olmo_config.yaml index cfe0893af..fe315de71 100644 --- a/config/llama_1b_with_olmo_config.yaml +++ b/config/llama_1b_with_olmo_config.yaml @@ -9,7 +9,6 @@ model: # 1B class model num_kv_heads: 16 use_flash_attention: True flash_attention_block_size: 1024 - attn_backend: splash trainer: tracker: type: wandb From 143ee233b7210971a66541032963d48237559f23 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Fri, 24 May 2024 03:04:31 +0000 Subject: [PATCH 17/18] rm owt --- owt_1b.yaml | 106 ---------------------------------------------------- owt_7b.yaml | 100 ------------------------------------------------- 2 files changed, 206 deletions(-) delete mode 100644 owt_1b.yaml delete mode 100644 owt_7b.yaml diff --git a/owt_1b.yaml b/owt_1b.yaml deleted file mode 100644 index 7ed090701..000000000 --- a/owt_1b.yaml +++ /dev/null @@ -1,106 +0,0 @@ -data: - cache_dir: "- gs://levanter-data/tokenized/markweb_llama/" - tokenizer: "meta-llama/Llama-2-7b-hf" - configs: - openwebtext: - train_urls: - - "- gs://pubmed-mosaic/openwebtext-sharded/openwebtext_train.{1..128}-of-128.jsonl.gz" - validation_urls: - - "- gs://pubmed-mosaic/openwebtext-sharded/openwebtext_val.{1..8}-of-8.jsonl.gz" - # these are just for eval - "paloma/4chan": - validation_urls: - - - gs://levanter-data/paloma/4chan_meta_sep/val/val*.jsonl.gz - "paloma/c4_100_domains": - validation_urls: - - - gs://levanter-data/paloma/c4_100_domains/val/val*.jsonl.gz - "paloma/c4_en": - validation_urls: - - - gs://levanter-data/paloma/c4_en/val/val*.jsonl.gz - "paloma/dolma-v1_5": - validation_urls: - - - gs://levanter-data/paloma/dolma-v1_5/val/val*.jsonl.gz - "paloma/dolma_100_programing_languages": - validation_urls: - - - gs://levanter-data/paloma/dolma_100_programing_languages/val/val*.jsonl.gz - "paloma/dolma_100_subreddits": - validation_urls: - - - gs://levanter-data/paloma/dolma_100_subreddits/val/val*.jsonl.gz - "paloma/falcon-refinedweb": - validation_urls: - - - gs://levanter-data/paloma/falcon-refinedweb/val/val*.jsonl.gz - "paloma/gab": - validation_urls: - - - gs://levanter-data/paloma/gab/val/val*.jsonl.gz - "paloma/m2d2_s2orc_unsplit": - validation_urls: - - - gs://levanter-data/paloma/m2d2_s2orc_unsplit/val/val*.jsonl.gz - "paloma/m2d2_wikipedia_unsplit": - validation_urls: - - - gs://levanter-data/paloma/m2d2_wikipedia_unsplit/val/val*.jsonl.gz - "paloma/manosphere_meta_sep": - validation_urls: - - - gs://levanter-data/paloma/manosphere_meta_sep/val/val*.jsonl.gz - "paloma/mc4": - validation_urls: - - - gs://levanter-data/paloma/mc4/val/val*.jsonl.gz - "paloma/ptb": - validation_urls: - - - gs://levanter-data/paloma/ptb/val/val*.jsonl.gz - "paloma/redpajama": - validation_urls: - - - gs://levanter-data/paloma/redpajama/val/val*.jsonl.gz - "paloma/twitterAAE_HELM_fixed": - validation_urls: - - - gs://levanter-data/paloma/twitterAAE_HELM_fixed/val/val*.jsonl.gz - "paloma/wikitext_103": - validation_urls: - - - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz - - train_weights: - openwebtext: 1.0 - paloma/4chan: 0.0 - paloma/c4_100_domains: 0.0 - paloma/c4_en: 0.0 - paloma/dolma-v1_5: 0.0 - paloma/dolma_100_programing_languages: 0.0 - paloma/dolma_100_subreddits: 0.0 - paloma/falcon-refinedweb: 0.0 - paloma/gab: 0.0 - paloma/m2d2_s2orc_unsplit: 0.0 - paloma/m2d2_wikipedia_unsplit: 0.0 - paloma/manosphere_meta_sep: 0.0 - paloma/mc4: 0.0 - paloma/ptb: 0.0 - paloma/redpajama: 0.0 - paloma/twitterAAE_HELM_fixed: 0.0 - paloma/wikitext_103: 0.0 -model: - # 1B class model - type: llama - seq_len: 2048 - hidden_dim: 2048 - intermediate_dim: 4096 - num_layers: 24 - num_heads: 32 - num_kv_heads: 32 - use_flash_attention: True - flash_attention_block_size: 2048 -trainer: - tracker: - type: wandb - project: "markweb" - tags: ["owt", "llama", "web_comparison"] - - mp: p=f32,c=bfloat16 - train_batch_size: 512 - num_train_steps: 50000 - steps_per_eval: 1000 - per_device_eval_parallelism: 64 - tensor_parallel_axes: ["mlp", "heads"] - fsdp_axis: "embed" - batch_axis: "batch" -optimizer: - learning_rate: 2E-4 - weight_decay: 0.1 - min_lr_ratio: 0.1 diff --git a/owt_7b.yaml b/owt_7b.yaml deleted file mode 100644 index f400e4966..000000000 --- a/owt_7b.yaml +++ /dev/null @@ -1,100 +0,0 @@ -data: - cache_dir: "- gs://levanter-data/tokenized/markweb_llama/" - tokenizer: "meta-llama/Llama-2-7b-hf" - configs: - openwebtext: - train_urls: - - "- gs://pubmed-mosaic/openwebtext-sharded/openwebtext_train.{1..128}-of-128.jsonl.gz" - validation_urls: - - "- gs://pubmed-mosaic/openwebtext-sharded/openwebtext_val.{1..8}-of-8.jsonl.gz" - # these are just for eval - "paloma/4chan": - validation_urls: - - - gs://levanter-data/paloma/4chan_meta_sep/val/val*.jsonl.gz - "paloma/c4_100_domains": - validation_urls: - - - gs://levanter-data/paloma/c4_100_domains/val/val*.jsonl.gz - "paloma/c4_en": - validation_urls: - - - gs://levanter-data/paloma/c4_en/val/val*.jsonl.gz - "paloma/dolma-v1_5": - validation_urls: - - - gs://levanter-data/paloma/dolma-v1_5/val/val*.jsonl.gz - "paloma/dolma_100_programing_languages": - validation_urls: - - - gs://levanter-data/paloma/dolma_100_programing_languages/val/val*.jsonl.gz - "paloma/dolma_100_subreddits": - validation_urls: - - - gs://levanter-data/paloma/dolma_100_subreddits/val/val*.jsonl.gz - "paloma/falcon-refinedweb": - validation_urls: - - - gs://levanter-data/paloma/falcon-refinedweb/val/val*.jsonl.gz - "paloma/gab": - validation_urls: - - - gs://levanter-data/paloma/gab/val/val*.jsonl.gz - "paloma/m2d2_s2orc_unsplit": - validation_urls: - - - gs://levanter-data/paloma/m2d2_s2orc_unsplit/val/val*.jsonl.gz - "paloma/m2d2_wikipedia_unsplit": - validation_urls: - - - gs://levanter-data/paloma/m2d2_wikipedia_unsplit/val/val*.jsonl.gz - "paloma/manosphere_meta_sep": - validation_urls: - - - gs://levanter-data/paloma/manosphere_meta_sep/val/val*.jsonl.gz - "paloma/mc4": - validation_urls: - - - gs://levanter-data/paloma/mc4/val/val*.jsonl.gz - "paloma/ptb": - validation_urls: - - - gs://levanter-data/paloma/ptb/val/val*.jsonl.gz - "paloma/redpajama": - validation_urls: - - - gs://levanter-data/paloma/redpajama/val/val*.jsonl.gz - "paloma/twitterAAE_HELM_fixed": - validation_urls: - - - gs://levanter-data/paloma/twitterAAE_HELM_fixed/val/val*.jsonl.gz - "paloma/wikitext_103": - validation_urls: - - - gs://levanter-data/paloma/wikitext_103/val/val*.jsonl.gz - - train_weights: - openwebtext: 1.0 - paloma/4chan: 0.0 - paloma/c4_100_domains: 0.0 - paloma/c4_en: 0.0 - paloma/dolma-v1_5: 0.0 - paloma/dolma_100_programing_languages: 0.0 - paloma/dolma_100_subreddits: 0.0 - paloma/falcon-refinedweb: 0.0 - paloma/gab: 0.0 - paloma/m2d2_s2orc_unsplit: 0.0 - paloma/m2d2_wikipedia_unsplit: 0.0 - paloma/manosphere_meta_sep: 0.0 - paloma/mc4: 0.0 - paloma/ptb: 0.0 - paloma/redpajama: 0.0 - paloma/twitterAAE_HELM_fixed: 0.0 - paloma/wikitext_103: 0.0 - -model: - # 7B model with seq length 4096 - type: llama - seq_len: 4096 - use_flash_attention: True - flash_attention_block_size: 2048 -trainer: - tracker: - type: wandb - project: "markweb" - tags: ["owt", "llama7b"] - mp: p=f32,c=bfloat16 - train_batch_size: 1024 - num_train_steps: 5000 - steps_per_eval: 1000 - tensor_parallel_axes: ["mlp", "heads"] - fsdp_axis: "embed" - batch_axis: "batch" -optimizer: - learning_rate: 3E-4 - weight_decay: 0.1 - min_lr_ratio: 0.1 From 651efe82f41b27a9d7c858e47193c70e681dad09 Mon Sep 17 00:00:00 2001 From: Ivan Zhou Date: Fri, 24 May 2024 03:15:04 +0000 Subject: [PATCH 18/18] trim white space and black formatting --- config/data/dolma_olmo_paloma.yaml | 4 ++-- src/levanter/data/shard_cache.py | 4 +++- 2 files changed, 5 insertions(+), 3 deletions(-) diff --git a/config/data/dolma_olmo_paloma.yaml b/config/data/dolma_olmo_paloma.yaml index a1bc00ce8..aaf45f802 100644 --- a/config/data/dolma_olmo_paloma.yaml +++ b/config/data/dolma_olmo_paloma.yaml @@ -112,14 +112,14 @@ train_weights: dolma-cc: 597.75 # 1,195.5 * 0.5 dolma-cc-news: 14.3 # 1.0 dolma-falcon: 456.4 # 1.0, refined web - dolma-megawika: 4.6 # 1.0 + dolma-megawika: 4.6 # 1.0 dolma-owmath: 12.6 # 1.0 dolma-pes2o: 57.2 # 1.0 dolma-reddit: 79.9 # 1.0 dolma-stackexchange: 19.6 # 1.0 dolma-starcoder: 263.8 # 1.0 dolma-flan: 16.5 # 6.5 * 1.0 - dolma-wiki: 7.4 # 3.7 * 2.0 + dolma-wiki: 7.4 # 3.7 * 2.0 paloma/4chan: 0.0 paloma/c4_100_domains: 0.0 paloma/c4_en: 0.0 diff --git a/src/levanter/data/shard_cache.py b/src/levanter/data/shard_cache.py index 43810d902..f2ceb5571 100644 --- a/src/levanter/data/shard_cache.py +++ b/src/levanter/data/shard_cache.py @@ -1641,7 +1641,9 @@ def _get_chunk_unmapped(self, mapped_index: int, *, timeout: Optional[float] = N current_timeout = min(current_timeout, 100) continue except asyncio.exceptions.InvalidStateError: - self.logger.warning(f"Invalid state waiting for chunk {mapped_index} for {int(next_time - time_in)} seconds") + self.logger.warning( + f"Invalid state waiting for chunk {mapped_index} for {int(next_time - time_in)} seconds" + ) next_time = time.time() current_timeout *= 2 current_timeout = min(current_timeout, 100)