{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "a8ef9ad9-c7e1-4fed-b0bd-581064558089",
   "metadata": {},
   "source": [
    "# GPT-3.5-Turbo Performance on MMLU - College Biology"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "4f1c09a4-4859-469b-a156-dbb037c83a65",
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "import openai\n",
    "import re\n",
    "import time\n",
    "import json\n",
    "\n",
    "import numpy as np\n",
    "\n",
    "from tqdm import tqdm\n",
    "from datasets import load_dataset\n",
    "from tenacity import retry, stop_after_attempt, wait_chain, wait_fixed"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "eaea2a2a-2515-4508-9cdb-084d10853170",
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "openai.api_key = \"sk-\" "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "95ddd688-5bf5-40c5-a852-32e62f5a1bbb",
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "@retry(wait=wait_chain(*[wait_fixed(3) for i in range(3)] +\n",
    "                       [wait_fixed(5) for i in range(2)] +\n",
    "                       [wait_fixed(10)]))\n",
    "def completion_with_backoff(**kwargs):\n",
    "    return openai.ChatCompletion.create(**kwargs)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "d4063503-c0e0-4df7-9866-0815f4c9fdf0",
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "mmlu_prompt = json.load(open('lib_prompt/mmlu-cot.json'))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "bbbbe828-fad8-48a9-9cab-4a7e675ecf9e",
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "The following are multiple choice questions (with answers) about college biology.\n",
      "\n",
      "Q: Which of the following represents an accurate statement concerning arthropods?\n",
      "(A) They possess an exoskeleton composed primarily of peptidoglycan. (B) They possess an open circulatory system with a dorsal heart. (C) They are members of a biologically unsuccessful phylum incapable of exploiting diverse habitats and nutrition sources. (D) They lack paired, jointed appendages.\n",
      "A: Let's think step by step. Peptidoglycan is known to comprise the plasma membrane of most bacteria, rather than the exoskeleton of arthropods, which is made of chitin, which rules out (A). The answer (C) is false because arthropods are a highly successful phylum. Likewise, arthropods have paired, jointed appendages, which rules out (D). The only remaining option is (B), as arthropods have an open circulatory system with a dorsal tubular heart. The answer is (B).\n",
      "\n",
      "Q: In a given population, 1 out of every 400 people has a cancer caused by a completely recessive allele, b. Assuming the population is in Hardy-Weinberg equilibrium, which of the following is the expected proportion of individuals who carry the b allele but are not expected to develop the cancer?\n",
      "(A) 1/400 (B) 19/400 (C) 20/400 (D) 38/400\n",
      "A: Let's think step by step. According to the Hardy Weinberg Law, $p^2 + 2 p q + q^2 = 1$, and $p + q = 1$ where $p$ is the frequency of the dominant allele, $q$ is the frequency of the recessive allele, and $p^2$, $q^2$, and $2pq$ are the frequencies of dominant homozygous, recessive homozygous, and heterozygous individuals, respectively. ​The frequency of the recessive allele (q) is $\\sqrt{\f\n",
      "rac{1}{400}} = 0.05$. We have $p = 1 - q = 0.95$. The frequency of heterozygous individuals is $2pq = 2 \\cdot 0.05 \\cdot 0.95 = 0.095$. The number of heterozygous individuals is equal to the frequency of heterozygous individuals times the size of the population, or $0.095 * 400 = 38$. So we end up with 38/400. The answer is (D).\n",
      "\n",
      "Q: According to the pressure-flow model of movement of phloem contents, photosynthate movement from source to sink is driven by\n",
      "(A) an ATP-dependent pressure-flow pump (B) a water-pressure potential gradient (C) transpiration (D) apoplastic diffusion\n",
      "A: Let's think step by step. It is a gradient in water pressure that induces the movement of phloem content, which refers to answer (B). The mechanism of movement does not rely on metabolism, which rules out (A). Transpiration refers to the exhalation of water vapor through plant stomata, and is also not related, which rules out (C). While the apoplastic pathway is one of two main pathways for water transport in plants, it is not central to the pressure flow model, which rules out (D). The answer is (B).\n",
      "\n",
      "Q: Which of the following contain DNA sequences required for the segregation of chromosomes in mitosis and meiosis?\n",
      "(A) Telomeres (B) Centromeres (C) Nucleosomes (D) Spliceosomes\n",
      "A: Let's think step by step. The genetic material in Telomeres is not used, which rules out (A). Nucleosomes are the repeating subunit that comprises chromatin packed in a cell nucleus, and do not specifically refer to DNA sequences necessary for segregating chromosomes in cell division, which rules out (C). A spliceosome is a large ribonucleoprotein that removes introns from transcribed pre-mRNA rather than governing chromosome segregation. Centromeres are directly responsible for segregating chromosomes in cell division. The answer is (B).\n",
      "\n",
      "Q: The presence of homologous structures in two different organisms, such as the humerus in the front limb of a human and a bird, indicates that\n",
      "(A) the human and bird are polyphyletic species (B) a human's and bird's evolution is convergent (C) the human and bird belong to a clade (D) the human and bird developed by analogy\n",
      "A: Let's think step by step. Polyphyletic species are organisms that are grouped due to having similar characteristics but which do not have a common ancestor. This is not the case for humans and birds, which rules out (A). Convergent evolution refers to the indepdendent development of similar features in different species at different periods, which is also not the case for humans and birds, which rules out (B). Analogy refers to the superficial resemblance of structures that have different origins, which is not the case for the human and bird forearms, which rules out (D). Humans and birds do belong to the same clade - a group of organisms composed of a common ancestor. The answer is (C).\n"
     ]
    }
   ],
   "source": [
    "task = 'college_biology'\n",
    "print(mmlu_prompt[task])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "ce1c6b79-3530-4efe-bfd6-eead27d09ff3",
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Downloading and preparing dataset mmlu/college_biology to /Users/yaofu/.cache/huggingface/datasets/lukaemon___mmlu/college_biology/1.0.0/134145dc2582b9a08b42d1f4b828f84a0066e9cc2e7dd8c1d83bee475746ecc3...\n"
     ]
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "05ede031ba3344e1a866350c25af52ce",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Generating test split:   0%|          | 0/143 [00:00<?, ? examples/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Generating validation split:   0%|          | 0/15 [00:00<?, ? examples/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "889b9c5981d94ee4a89db2f167495e7a",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Generating train split:   0%|          | 0/4 [00:00<?, ? examples/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Dataset mmlu downloaded and prepared to /Users/yaofu/.cache/huggingface/datasets/lukaemon___mmlu/college_biology/1.0.0/134145dc2582b9a08b42d1f4b828f84a0066e9cc2e7dd8c1d83bee475746ecc3. Subsequent calls will reuse this data.\n"
     ]
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "1ee2f911c8094d468d24643b2e3d0d4f",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "  0%|          | 0/3 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "task_data = load_dataset(\"lukaemon/mmlu\", task)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "0957327f-9454-4010-9501-b7086fbba125",
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "143"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(task_data['test'])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "id": "5b18d727-13a7-45cd-a842-3462636d9c25",
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'input': 'A frameshift mutation is created when',\n",
       " 'A': 'telomeric sequences are removed from DNA',\n",
       " 'B': \"a codon's nucleotide sequence changes so that it calls for production of a different amino acid than the original one\",\n",
       " 'C': 'a base pair is either inserted or deleted in a gene',\n",
       " 'D': \"a codon's nucleotide sequence is changed so that instead of coding for a given amino acid it acts to terminate translation\",\n",
       " 'target': 'C'}"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "task_data['test'][0]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "id": "bec64ac3-96b4-45cd-b79e-6c8ad6fae234",
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "prompt_q = mmlu_prompt[task] + \"\\n\\n\" + task_data['test'][0]['input'] + '\\n'\n",
    "for letter in ['A', 'B', 'C', 'D']:\n",
    "    prompt_q += '(' + letter + ') ' + task_data['test'][0][letter] + ' '\n",
    "prompt_q += \"\\nA: Let's think step by step.\""
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "id": "8847b4b5-99fe-47ab-941b-5bd02c43755e",
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "The following are multiple choice questions (with answers) about college biology.\n",
      "\n",
      "Q: Which of the following represents an accurate statement concerning arthropods?\n",
      "(A) They possess an exoskeleton composed primarily of peptidoglycan. (B) They possess an open circulatory system with a dorsal heart. (C) They are members of a biologically unsuccessful phylum incapable of exploiting diverse habitats and nutrition sources. (D) They lack paired, jointed appendages.\n",
      "A: Let's think step by step. Peptidoglycan is known to comprise the plasma membrane of most bacteria, rather than the exoskeleton of arthropods, which is made of chitin, which rules out (A). The answer (C) is false because arthropods are a highly successful phylum. Likewise, arthropods have paired, jointed appendages, which rules out (D). The only remaining option is (B), as arthropods have an open circulatory system with a dorsal tubular heart. The answer is (B).\n",
      "\n",
      "Q: In a given population, 1 out of every 400 people has a cancer caused by a completely recessive allele, b. Assuming the population is in Hardy-Weinberg equilibrium, which of the following is the expected proportion of individuals who carry the b allele but are not expected to develop the cancer?\n",
      "(A) 1/400 (B) 19/400 (C) 20/400 (D) 38/400\n",
      "A: Let's think step by step. According to the Hardy Weinberg Law, $p^2 + 2 p q + q^2 = 1$, and $p + q = 1$ where $p$ is the frequency of the dominant allele, $q$ is the frequency of the recessive allele, and $p^2$, $q^2$, and $2pq$ are the frequencies of dominant homozygous, recessive homozygous, and heterozygous individuals, respectively. ​The frequency of the recessive allele (q) is $\\sqrt{\f\n",
      "rac{1}{400}} = 0.05$. We have $p = 1 - q = 0.95$. The frequency of heterozygous individuals is $2pq = 2 \\cdot 0.05 \\cdot 0.95 = 0.095$. The number of heterozygous individuals is equal to the frequency of heterozygous individuals times the size of the population, or $0.095 * 400 = 38$. So we end up with 38/400. The answer is (D).\n",
      "\n",
      "Q: According to the pressure-flow model of movement of phloem contents, photosynthate movement from source to sink is driven by\n",
      "(A) an ATP-dependent pressure-flow pump (B) a water-pressure potential gradient (C) transpiration (D) apoplastic diffusion\n",
      "A: Let's think step by step. It is a gradient in water pressure that induces the movement of phloem content, which refers to answer (B). The mechanism of movement does not rely on metabolism, which rules out (A). Transpiration refers to the exhalation of water vapor through plant stomata, and is also not related, which rules out (C). While the apoplastic pathway is one of two main pathways for water transport in plants, it is not central to the pressure flow model, which rules out (D). The answer is (B).\n",
      "\n",
      "Q: Which of the following contain DNA sequences required for the segregation of chromosomes in mitosis and meiosis?\n",
      "(A) Telomeres (B) Centromeres (C) Nucleosomes (D) Spliceosomes\n",
      "A: Let's think step by step. The genetic material in Telomeres is not used, which rules out (A). Nucleosomes are the repeating subunit that comprises chromatin packed in a cell nucleus, and do not specifically refer to DNA sequences necessary for segregating chromosomes in cell division, which rules out (C). A spliceosome is a large ribonucleoprotein that removes introns from transcribed pre-mRNA rather than governing chromosome segregation. Centromeres are directly responsible for segregating chromosomes in cell division. The answer is (B).\n",
      "\n",
      "Q: The presence of homologous structures in two different organisms, such as the humerus in the front limb of a human and a bird, indicates that\n",
      "(A) the human and bird are polyphyletic species (B) a human's and bird's evolution is convergent (C) the human and bird belong to a clade (D) the human and bird developed by analogy\n",
      "A: Let's think step by step. Polyphyletic species are organisms that are grouped due to having similar characteristics but which do not have a common ancestor. This is not the case for humans and birds, which rules out (A). Convergent evolution refers to the indepdendent development of similar features in different species at different periods, which is also not the case for humans and birds, which rules out (B). Analogy refers to the superficial resemblance of structures that have different origins, which is not the case for the human and bird forearms, which rules out (D). Humans and birds do belong to the same clade - a group of organisms composed of a common ancestor. The answer is (C).\n",
      "\n",
      "A frameshift mutation is created when\n",
      "(A) telomeric sequences are removed from DNA (B) a codon's nucleotide sequence changes so that it calls for production of a different amino acid than the original one (C) a base pair is either inserted or deleted in a gene (D) a codon's nucleotide sequence is changed so that instead of coding for a given amino acid it acts to terminate translation \n",
      "A: Let's think step by step.\n"
     ]
    }
   ],
   "source": [
    "print(prompt_q)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "id": "c91e1e78-0e6d-4d82-9600-b6c76637fa80",
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "response = openai.ChatCompletion.create(\n",
    "    model=\"gpt-3.5-turbo\",\n",
    "    messages=[\n",
    "        {\"role\": \"system\", \"content\": \"Follow the given examples and answer the question.\"},\n",
    "        {\"role\": \"user\", \"content\": prompt_q},\n",
    "    ],\n",
    "    temperature=0, \n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "id": "b1e7b952-30b3-43b3-aa11-06595a7f592c",
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\n",
      "\n",
      "A frameshift mutation is a type of mutation that occurs when a base pair is either inserted or deleted in a gene, which rules out (A), (B), and (D). This causes a shift in the reading frame of the gene, altering the codons downstream of the mutation and potentially leading to a nonfunctional protein. The answer is (C).\n"
     ]
    }
   ],
   "source": [
    "print(response['choices'][0]['message']['content'])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "id": "867945a0-6527-409e-801e-4244eaf75e61",
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "def test_answer_mmlu(pred_str, ans_str):\n",
    "    pattern = 'the answer is ('\n",
    "    pred = pred_str.lower().split(pattern)\n",
    "    \n",
    "    if(len(pred) > 1):\n",
    "        # print(pred)\n",
    "        pred = pred[1][0]\n",
    "        gold = ans_str.split('A:\\n')[1][0].lower()\n",
    "        # print('debug 1, pred %s, gold %s' % (pred, gold))\n",
    "        return pred == gold\n",
    "    else: \n",
    "        pred = 'C'\n",
    "        gold = ans_str.split('A:\\n')[1][0].lower()\n",
    "        # print('debug 2, pred %s, gold %s' % (pred, gold))\n",
    "        return pred == gold\n",
    "\n",
    "def parse_pred_ans(filename):\n",
    "    with open(filename) as fd: lines = fd.readlines()\n",
    "    am, a = None, None\n",
    "    num_q, acc = 0, 0\n",
    "    current_mode = 'none'\n",
    "    questions = []\n",
    "    ans_pred = []\n",
    "    ans_gold = []\n",
    "    for l in lines:\n",
    "        if(l.startswith('Q: ')):\n",
    "            if(am is not None and a is not None):\n",
    "                questions.append(q)\n",
    "                ans_pred.append(am)\n",
    "                ans_gold.append(a)\n",
    "                # print(am)\n",
    "                # print(a)\n",
    "                if(test_answer_mmlu(am, a)):\n",
    "                    acc += 1\n",
    "            current_mode = 'q'\n",
    "            q = l\n",
    "            num_q += 1\n",
    "        elif(l.startswith('A_model:')):\n",
    "            current_mode = 'am'\n",
    "            am = l\n",
    "        elif(l.startswith('A:')):\n",
    "            current_mode = 'a'\n",
    "            a = l\n",
    "        else:\n",
    "            if(current_mode == 'q'): q += l\n",
    "            elif(current_mode == 'am'): am += l\n",
    "            elif(current_mode == 'a'): a += l\n",
    "            else:\n",
    "                raise ValueError(current_mode)\n",
    "                \n",
    "    questions.append(q)\n",
    "    ans_pred.append(am)\n",
    "    ans_gold.append(a)\n",
    "    # print(am)\n",
    "    # print(a)\n",
    "    if(test_answer_mmlu(am, a)):\n",
    "        acc += 1\n",
    "    print('num_q %d correct %d ratio %.4f' % (num_q, acc, float(acc / num_q)))\n",
    "    return questions, ans_pred, ans_gold\n",
    "\n",
    "def test_finished(ans_model):\n",
    "    if('answer is' in ans_model): return True\n",
    "    else: return False\n",
    "\n",
    "def extract_ans(ans_model):\n",
    "    ans_model = ans_model.split('\\n')\n",
    "    ans = []\n",
    "    residual = []\n",
    "    for li, al in enumerate(ans_model):\n",
    "        ans.append(al)\n",
    "        if('answer is' in al):\n",
    "            break\n",
    "    residual = list(ans_model[li + 1:])\n",
    "    ans = '\\n'.join(ans)\n",
    "    residual = '\\n'.join(residual)\n",
    "    return ans, residual"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "id": "b398b88e-d8fd-47fc-be03-f4627f6719e1",
   "metadata": {
    "collapsed": true,
    "jupyter": {
     "outputs_hidden": true
    },
    "tags": []
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\n",
      "  0%|                                                                                                                                                                                       | 0/143 [00:00<?, ?it/s]\u001b[A\n",
      "  1%|█▏                                                                                                                                                                             | 1/143 [00:01<04:20,  1.83s/it]\u001b[A\n",
      "  1%|██▍                                                                                                                                                                            | 2/143 [00:05<07:22,  3.14s/it]\u001b[A\n",
      "  2%|███▋                                                                                                                                                                           | 3/143 [00:09<07:21,  3.16s/it]\u001b[A\n",
      "  3%|████▉                                                                                                                                                                          | 4/143 [00:12<07:37,  3.29s/it]\u001b[A\n",
      "  3%|██████                                                                                                                                                                         | 5/143 [00:14<06:26,  2.80s/it]\u001b[A\n",
      "  4%|███████▎                                                                                                                                                                       | 6/143 [00:16<06:02,  2.65s/it]\u001b[A\n",
      "  5%|████████▌                                                                                                                                                                      | 7/143 [00:18<05:03,  2.23s/it]\u001b[A\n",
      "  6%|█████████▊                                                                                                                                                                     | 8/143 [00:19<04:31,  2.01s/it]\u001b[A\n",
      "  6%|███████████                                                                                                                                                                    | 9/143 [00:21<04:35,  2.05s/it]\u001b[A\n",
      "  7%|████████████▏                                                                                                                                                                 | 10/143 [00:24<04:53,  2.21s/it]\u001b[A\n",
      "  8%|█████████████▍                                                                                                                                                                | 11/143 [00:28<06:12,  2.82s/it]\u001b[A\n",
      "  8%|██████████████▌                                                                                                                                                               | 12/143 [00:30<05:38,  2.58s/it]\u001b[A\n",
      "  9%|███████████████▊                                                                                                                                                              | 13/143 [00:31<04:31,  2.09s/it]\u001b[A\n",
      " 10%|█████████████████                                                                                                                                                             | 14/143 [00:33<04:30,  2.10s/it]\u001b[A\n",
      " 10%|██████████████████▎                                                                                                                                                           | 15/143 [00:37<05:41,  2.67s/it]\u001b[A\n",
      " 11%|███████████████████▍                                                                                                                                                          | 16/143 [00:40<05:59,  2.83s/it]\u001b[A\n",
      " 12%|████████████████████▋                                                                                                                                                         | 17/143 [00:43<05:57,  2.83s/it]\u001b[A\n",
      " 13%|█████████████████████▉                                                                                                                                                        | 18/143 [00:45<04:53,  2.35s/it]\u001b[A\n",
      " 13%|███████████████████████                                                                                                                                                       | 19/143 [00:46<04:23,  2.13s/it]\u001b[A\n",
      " 14%|████████████████████████▎                                                                                                                                                     | 20/143 [00:48<04:16,  2.09s/it]\u001b[A\n",
      " 15%|█████████████████████████▌                                                                                                                                                    | 21/143 [00:50<04:22,  2.15s/it]\u001b[A\n",
      " 15%|██████████████████████████▊                                                                                                                                                   | 22/143 [00:53<04:42,  2.33s/it]\u001b[A\n",
      " 16%|███████████████████████████▉                                                                                                                                                  | 23/143 [00:56<04:39,  2.33s/it]\u001b[A\n",
      " 17%|█████████████████████████████▏                                                                                                                                                | 24/143 [00:59<05:12,  2.62s/it]\u001b[A\n",
      " 17%|██████████████████████████████▍                                                                                                                                               | 25/143 [01:02<05:29,  2.79s/it]\u001b[A\n",
      " 18%|███████████████████████████████▋                                                                                                                                              | 26/143 [01:05<05:44,  2.94s/it]\u001b[A\n",
      " 19%|████████████████████████████████▊                                                                                                                                             | 27/143 [01:07<04:49,  2.49s/it]\u001b[A\n",
      " 20%|██████████████████████████████████                                                                                                                                            | 28/143 [01:08<04:13,  2.20s/it]\u001b[A\n",
      " 20%|███████████████████████████████████▎                                                                                                                                          | 29/143 [01:10<04:04,  2.15s/it]\u001b[A\n",
      " 21%|████████████████████████████████████▌                                                                                                                                         | 30/143 [01:13<04:25,  2.35s/it]\u001b[A\n",
      " 22%|█████████████████████████████████████▋                                                                                                                                        | 31/143 [01:15<04:05,  2.19s/it]\u001b[A\n",
      " 22%|██████████████████████████████████████▉                                                                                                                                       | 32/143 [01:18<04:16,  2.31s/it]\u001b[A\n",
      " 23%|████████████████████████████████████████▏                                                                                                                                     | 33/143 [01:19<03:38,  1.99s/it]\u001b[A\n",
      " 24%|█████████████████████████████████████████▎                                                                                                                                    | 34/143 [01:20<03:12,  1.77s/it]\u001b[A\n",
      " 24%|██████████████████████████████████████████▌                                                                                                                                   | 35/143 [01:22<03:18,  1.84s/it]\u001b[A\n",
      " 25%|███████████████████████████████████████████▊                                                                                                                                  | 36/143 [01:25<03:39,  2.05s/it]\u001b[A\n",
      " 26%|█████████████████████████████████████████████                                                                                                                                 | 37/143 [01:28<04:23,  2.48s/it]\u001b[A\n",
      " 27%|██████████████████████████████████████████████▏                                                                                                                               | 38/143 [01:30<03:52,  2.21s/it]\u001b[A\n",
      " 27%|███████████████████████████████████████████████▍                                                                                                                              | 39/143 [01:33<04:41,  2.70s/it]\u001b[A\n",
      " 28%|████████████████████████████████████████████████▋                                                                                                                             | 40/143 [01:37<05:07,  2.99s/it]\u001b[A\n",
      " 29%|█████████████████████████████████████████████████▉                                                                                                                            | 41/143 [01:40<04:53,  2.88s/it]\u001b[A\n",
      " 29%|███████████████████████████████████████████████████                                                                                                                           | 42/143 [01:42<04:21,  2.59s/it]\u001b[A\n",
      " 30%|████████████████████████████████████████████████████▎                                                                                                                         | 43/143 [01:44<04:08,  2.48s/it]\u001b[A\n",
      " 31%|█████████████████████████████████████████████████████▌                                                                                                                        | 44/143 [01:47<04:13,  2.56s/it]\u001b[A\n",
      " 31%|██████████████████████████████████████████████████████▊                                                                                                                       | 45/143 [01:49<04:10,  2.56s/it]\u001b[A\n",
      " 32%|███████████████████████████████████████████████████████▉                                                                                                                      | 46/143 [01:51<03:53,  2.41s/it]\u001b[A\n",
      " 33%|█████████████████████████████████████████████████████████▏                                                                                                                    | 47/143 [01:54<03:56,  2.47s/it]\u001b[A\n",
      " 34%|██████████████████████████████████████████████████████████▍                                                                                                                   | 48/143 [01:56<03:45,  2.37s/it]\u001b[A\n",
      " 34%|███████████████████████████████████████████████████████████▌                                                                                                                  | 49/143 [01:58<03:33,  2.27s/it]\u001b[A\n",
      " 35%|████████████████████████████████████████████████████████████▊                                                                                                                 | 50/143 [01:59<03:02,  1.96s/it]\u001b[A\n",
      " 36%|██████████████████████████████████████████████████████████████                                                                                                                | 51/143 [02:02<03:09,  2.06s/it]\u001b[A\n",
      " 36%|███████████████████████████████████████████████████████████████▎                                                                                                              | 52/143 [02:04<03:15,  2.15s/it]\u001b[A\n",
      " 37%|████████████████████████████████████████████████████████████████▍                                                                                                             | 53/143 [02:09<04:28,  2.98s/it]\u001b[A\n",
      " 38%|█████████████████████████████████████████████████████████████████▋                                                                                                            | 54/143 [02:12<04:29,  3.02s/it]\u001b[A\n",
      " 38%|██████████████████████████████████████████████████████████████████▉                                                                                                           | 55/143 [02:16<04:57,  3.38s/it]\u001b[A\n",
      " 39%|████████████████████████████████████████████████████████████████████▏                                                                                                         | 56/143 [02:18<04:21,  3.01s/it]\u001b[A\n",
      " 40%|█████████████████████████████████████████████████████████████████████▎                                                                                                        | 57/143 [02:20<03:48,  2.66s/it]\u001b[A\n",
      " 41%|██████████████████████████████████████████████████████████████████████▌                                                                                                       | 58/143 [02:23<03:38,  2.57s/it]\u001b[A\n",
      " 41%|███████████████████████████████████████████████████████████████████████▊                                                                                                      | 59/143 [02:25<03:24,  2.43s/it]\u001b[A\n",
      " 42%|█████████████████████████████████████████████████████████████████████████                                                                                                     | 60/143 [02:27<03:15,  2.35s/it]\u001b[A\n",
      " 43%|██████████████████████████████████████████████████████████████████████████▏                                                                                                   | 61/143 [02:29<03:01,  2.21s/it]\u001b[A\n",
      " 43%|███████████████████████████████████████████████████████████████████████████▍                                                                                                  | 62/143 [02:30<02:44,  2.04s/it]\u001b[A\n",
      " 44%|████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 63/143 [02:33<02:55,  2.19s/it]\u001b[A\n",
      " 45%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                | 64/143 [02:35<02:46,  2.11s/it]\u001b[A\n",
      " 45%|███████████████████████████████████████████████████████████████████████████████                                                                                               | 65/143 [02:37<02:40,  2.06s/it]\u001b[A\n",
      " 46%|████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 66/143 [02:39<02:33,  2.00s/it]\u001b[A\n",
      " 47%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 67/143 [02:41<02:31,  1.99s/it]\u001b[A\n",
      " 48%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 68/143 [02:43<02:42,  2.16s/it]\u001b[A\n",
      " 48%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 69/143 [02:46<02:46,  2.25s/it]\u001b[A\n",
      " 49%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 70/143 [02:47<02:16,  1.87s/it]\u001b[A\n",
      " 50%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 71/143 [02:49<02:23,  2.00s/it]\u001b[A\n",
      " 50%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 72/143 [02:51<02:18,  1.95s/it]\u001b[A\n",
      " 51%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 73/143 [02:52<02:04,  1.79s/it]\u001b[A\n",
      " 52%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                    | 74/143 [02:54<02:09,  1.88s/it]\u001b[A\n",
      " 52%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 75/143 [02:56<02:14,  1.98s/it]\u001b[A\n",
      " 53%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 76/143 [02:59<02:18,  2.07s/it]\u001b[A\n",
      " 54%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 77/143 [03:01<02:20,  2.12s/it]\u001b[A\n",
      " 55%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 78/143 [03:03<02:18,  2.13s/it]\u001b[A\n",
      " 55%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 79/143 [03:07<02:53,  2.71s/it]\u001b[A\n",
      " 56%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 80/143 [03:09<02:38,  2.51s/it]\u001b[A\n",
      " 57%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 81/143 [03:13<02:57,  2.86s/it]\u001b[A\n",
      " 57%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 82/143 [03:15<02:49,  2.79s/it]\u001b[A\n",
      " 58%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 83/143 [03:19<02:54,  2.90s/it]\u001b[A\n",
      " 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 84/143 [03:21<02:39,  2.71s/it]\u001b[A\n",
      " 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 85/143 [03:23<02:17,  2.37s/it]\u001b[A\n",
      " 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 86/143 [03:26<02:31,  2.66s/it]\u001b[A\n",
      " 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 87/143 [03:27<02:11,  2.35s/it]\u001b[A\n",
      " 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 88/143 [03:31<02:32,  2.78s/it]\u001b[A\n",
      " 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 89/143 [03:33<02:17,  2.55s/it]\u001b[A\n",
      " 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 90/143 [03:36<02:23,  2.71s/it]\u001b[A\n",
      " 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 91/143 [03:38<02:11,  2.53s/it]\u001b[A\n",
      " 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 92/143 [03:41<02:13,  2.62s/it]\u001b[A\n",
      " 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 93/143 [03:43<02:04,  2.49s/it]\u001b[A\n",
      " 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 94/143 [03:45<01:44,  2.13s/it]\u001b[A\n",
      " 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 95/143 [03:48<02:01,  2.54s/it]\u001b[A\n",
      " 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 96/143 [03:49<01:40,  2.14s/it]\u001b[A\n",
      " 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 97/143 [03:53<01:58,  2.58s/it]\u001b[A\n",
      " 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 98/143 [03:54<01:39,  2.21s/it]\u001b[A\n",
      " 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 99/143 [03:58<01:54,  2.60s/it]\u001b[A\n",
      " 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 100/143 [04:00<01:40,  2.34s/it]\u001b[A\n",
      " 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 101/143 [04:02<01:39,  2.36s/it]\u001b[A\n",
      " 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 102/143 [04:05<01:44,  2.54s/it]\u001b[A\n",
      " 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 103/143 [04:08<01:51,  2.79s/it]\u001b[A\n",
      " 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 104/143 [04:10<01:38,  2.52s/it]\u001b[A\n",
      " 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 105/143 [04:12<01:28,  2.33s/it]\u001b[A\n",
      " 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 106/143 [04:14<01:22,  2.23s/it]\u001b[A\n",
      " 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 107/143 [04:17<01:23,  2.32s/it]\u001b[A\n",
      " 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 108/143 [04:20<01:28,  2.52s/it]\u001b[A\n",
      " 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 109/143 [04:21<01:12,  2.14s/it]\u001b[A\n",
      " 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 110/143 [04:23<01:14,  2.26s/it]\u001b[A\n",
      " 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 111/143 [04:25<01:09,  2.16s/it]\u001b[A\n",
      " 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 112/143 [04:27<01:04,  2.08s/it]\u001b[A\n",
      " 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 113/143 [04:29<01:02,  2.08s/it]\u001b[A\n",
      " 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 114/143 [04:30<00:51,  1.77s/it]\u001b[A\n",
      " 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 115/143 [04:32<00:47,  1.70s/it]\u001b[A\n",
      " 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 116/143 [04:34<00:50,  1.86s/it]\u001b[A\n",
      " 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 117/143 [04:36<00:46,  1.79s/it]\u001b[A\n",
      " 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 118/143 [04:38<00:44,  1.77s/it]\u001b[A\n",
      " 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 119/143 [04:41<00:53,  2.22s/it]\u001b[A\n",
      " 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 120/143 [04:43<00:49,  2.14s/it]\u001b[A\n",
      " 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 121/143 [04:45<00:49,  2.23s/it]\u001b[A\n",
      " 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 122/143 [04:49<00:56,  2.70s/it]\u001b[A\n",
      " 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 123/143 [04:51<00:50,  2.52s/it]\u001b[A\n",
      " 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 124/143 [04:53<00:45,  2.40s/it]\u001b[A\n",
      " 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 125/143 [04:55<00:41,  2.31s/it]\u001b[A\n",
      " 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 126/143 [04:57<00:35,  2.11s/it]\u001b[A\n",
      " 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 127/143 [04:59<00:34,  2.15s/it]\u001b[A\n",
      " 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 128/143 [05:01<00:30,  2.04s/it]\u001b[A\n",
      " 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 129/143 [05:02<00:25,  1.81s/it]\u001b[A\n",
      " 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 130/143 [05:05<00:27,  2.12s/it]\u001b[A\n",
      " 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 131/143 [05:07<00:25,  2.10s/it]\u001b[A\n",
      " 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 132/143 [05:10<00:25,  2.34s/it]\u001b[A\n",
      " 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 133/143 [05:12<00:22,  2.28s/it]\u001b[A\n",
      " 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 134/143 [05:13<00:17,  1.96s/it]\u001b[A\n",
      " 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 135/143 [05:16<00:17,  2.19s/it]\u001b[A\n",
      " 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 136/143 [05:20<00:19,  2.74s/it]\u001b[A\n",
      " 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 137/143 [05:22<00:14,  2.38s/it]\u001b[A\n",
      " 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 138/143 [05:23<00:10,  2.19s/it]\u001b[A\n",
      " 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 139/143 [05:27<00:09,  2.47s/it]\u001b[A\n",
      " 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 140/143 [05:28<00:06,  2.28s/it]\u001b[A\n",
      " 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 141/143 [05:30<00:04,  2.03s/it]\u001b[A\n",
      " 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 142/143 [05:33<00:02,  2.26s/it]\u001b[A\n",
      "100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 143/143 [05:35<00:00,  2.35s/it]\u001b[A\n"
     ]
    }
   ],
   "source": [
    "i = 0\n",
    "with open('outputs/test_gpt_3.5_turbo_%s.txt' % task, 'w') as fd:\n",
    "    for q_ in tqdm(task_data['test'], total=len(task_data['test'])):\n",
    "        q = q_['input'] + '\\n'\n",
    "        for letter in ['A', 'B', 'C', 'D']:\n",
    "            q += '(' + letter + ') ' + q_[letter] + ' '\n",
    "        q += \"\\nA: Let's think step by step.\"  \n",
    "            \n",
    "        prompt_q = mmlu_prompt[task] + \"\\n\\n\" + q\n",
    "\n",
    "        response = completion_with_backoff(\n",
    "              model=\"gpt-3.5-turbo\",\n",
    "              messages=[\n",
    "                    {\"role\": \"system\", \"content\": \"Follow the given examples and answer the question.\"},\n",
    "                    {\"role\": \"user\", \"content\": prompt_q},\n",
    "                ],\n",
    "            temperature=0\n",
    "            )\n",
    "        ans_model = response['choices'][0]['message']['content']\n",
    "        ans_, residual = extract_ans(ans_model)\n",
    "            \n",
    "        a = q_['target']\n",
    "        fd.write('Q: %s\\nA_model:\\n%s\\nA:\\n%s\\n\\n' % (q, ans_, a))\n",
    "        i += 1\n",
    "        # if(i == 2): break"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "id": "8ea5012b-444a-49d8-8752-51ea485d9beb",
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "college_biology\n",
      "num_q 143 correct 90 ratio 0.6294\n"
     ]
    }
   ],
   "source": [
    "print(task)\n",
    "_, _, _ = parse_pred_ans('outputs/test_gpt_3.5_turbo_%s.txt' % task)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.8rc1 (v3.8.8rc1:dfd7d6893b, Feb 16 2021, 15:09:27) \n[Clang 6.0 (clang-600.0.57)]"
  },
  "vscode": {
   "interpreter": {
    "hash": "aee8b7b246df8f9039afb4144a1f6fd8d2ca17a180786b69acc140d282b71a49"
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
