{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "全体として、必要なmodule全部渡したか心配です。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Part 1. `plot_summary.ipynb`でPEC with Errorbarsを一つのグラフにプロットするまでの準備"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "「TANDEMの各orderでSPRT」「LSTM-s/m」「EARLIEST」で別々に準備する。\n",
    "\n",
    "（僕のコードでは、これらに加えて「TANDEMの各orderでNPT」「TANDEMの各orderでablation」がありますが、使わないのであれば無視してくだい。）"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1. 「TANDEMの各orderでSPRT」の準備"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "各subproject（おそらくSPRTのorder別になっていることでしょう）内にある各model directory（中にはckptがいくつも入っている。latest modelを読む仕様です）に対して一つ、numpy array (\\*.npy)を保存します。\n",
    "\n",
    "- そのnpyの中身：balanced accuracy (bac)が並んだlist、対応するmean hitting timeが並んだlist、そして、hitting time の standard errorが並んだlist（これはミスなので使いません。直してません）の三つが並んだlist（正確にはnp.array）。各listは、SPRTで使用した閾値のパターンの分だけのlengthがあります。\n",
    "\n",
    "- そのnpyのfilename：e.g., `/data/t-miyagawa/sprt/nosaic_mnist/graphs/npy/SUBPROJECT-NAME/MODEL_DIR_NAME.npy`\n",
    "\n",
    "- なぜ.npyにするか：PECをプロットするときにいちいちckpt読み込んでlogit→SPRT計算するのを避けるため。\n",
    "\n",
    "「TANDEMの各orderでSPRT」のための準備は以上。その後は、この.npyを読み込んで、subprojectごとにPECをエラーバー付きで描く、という流れです。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 1-1. 評価用閾値の決定"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    ".npyを保存するには、どんな範囲の閾値たちを使うか決めねばなりません。適当に決めてしまってはPECが途切れるかsparseになってしまいます。そこで使うのが`sprt/plot_pec_casual.ipynb`。そして決めた結果を`sprt/save_pec_materials_as_npy.py`のdictにメモしましょう。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "__`sprt/plot_pec_casual.ipynb`__\n",
    "1. プロットしたいsubprojectを決める。\n",
    "\n",
    "2. そのsubproject内のmodel directoriesの中から一つを適当にとってきて、User-defined paramsの`name_model`に、例に倣ってpathを書く。\n",
    "\n",
    "3. LLRのtrajectoryをプロットして、LLRの最大・最小の値に目星をつける。\n",
    "\n",
    "4. User-defined params内logspace_startをいじって、SPRTのthresholdの値 (Start calc以下に表示される、変数 thresh) の最大・最小値を確認。3.で見た最大・最小値を挟むように、適当な値に設定する。（＊１）\n",
    "\n",
    "__`sprt/save_pec_materials_as_npy.py`__\n",
    "\n",
    "5. 最適なlogspace_startの値を`dict_logstart`に任意のkeyとともにメモしておく。ついでにdict_pathの同じkeyに例に倣って適当なpathを書いておく。 "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "__注意__\n",
    "\n",
    "＊１：一つのモデルを見ただけでは不十分な可能性があるので、マージンを持たせた方が良いです。.npy保存のコストが安ければPEC with errorbarsプロット後にもう一度戻ってきて.npyを保存しなおせばよいですが、そうでない場合は一度LLRの最大値・最小値を適当なfor文で確認した方が良いです。NMNISTだと.npy保存にone subprojectで数十分程度だったのでそれはしませんでした。また、モデルの違いでLLRの最大・最小値が倍ほど違うなどということは、一つのsubprojectでしか起きませんでした（しかも「TANDEMの各orderでablation」内、19th orderでmultipletのみのケース）。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 1-2. Npy保存"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`sprt/save_pec_materials_as_npy.py`を使って.npyをmodel directory毎に保存しよう。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "__`sprt/save_pec_materials_as_npy.py`__\n",
    "1. file冒頭のuser-defined部分を、自分のディレクトリ構造・使いたいデータセットに合わせて変更する。また、使いたいデータセットにあわせて、user-defined外のデータローダーなども変更する。ここは少し手を動かさねばならないかも？（＊２）\n",
    "\n",
    "2. `python save_pec_materials_as_npy.py`で.npyをザクザク保存していく。subproject毎に並列処理すると良いでしょう。デフォルトの保存先は`/data/t-miyagawa/sprt/nosaic_mnist/graphs/npy/`以下です。`graphs`と同じ階層には`tblogs/`, `dblogs/`, `ckptlogs/`らがいます。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "__注意__\n",
    "\n",
    "＊２：`LSTMModelLite`のコードとかはもう渡してましたよね？module読めないとか言われたら教えてください。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2. 「LSTM-s/m」の準備"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    ".npyを保存して準備は終了。こちらは閾値の設定が必要ないので楽です。ただし.npyはmodel directory毎__ではなく__subproject毎に保存されます。また、中身の組成も「TANDEMの各orderでSPRT」と異なります。評価方法が異なるので。\n",
    "\n",
    "- そのnpyの中身：フレーム毎のbacのlistと、フレーム毎のbacの標準誤差のlistとの二つが入ったnp.array。各listのlengthはデータセットのdurationに等しく、hitting timeの昇順に並んでいる。例えば、フレーム毎のbacのlistに入っている５番目の値は、５番目のフレームでdecisionした場合のbacである。\n",
    "\n",
    "- そのnpyのfilename：e.g., `/data/t-miyagawa/sprt/nosaic_mnist/graphs/npy/SUBPROJECT-NAME.npy` (1.と比較せよ)\n",
    "\n",
    "- なぜ.npyにするか：PECをプロットするときにいちいちckpt読み込んでlogit→decisionの計算するのを避けるため。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 2-1. Npy保存"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`sprt_ranking/save_pec_materials_as_npy.py`(親ディレクトリが異なるだけの同名ファイル)を使って.npyをsubproject毎に保存しよう。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "__`sprt_ranking/savfe_pec_materials_as_npy.py`__\n",
    "1. file冒頭のuser-defined部分を、自分のディレクトリ構造・使いたいデータセットに合わせて変更する。また、使いたいデータセットにあわせて、user-defined外のデータローダーなども変更する。ここは少し手を動かさねばならないかも？\n",
    "\n",
    "2. `python save_pec_materials_as_npy.py`で.npyを保存する。subproject毎に並列処理するとすぐ終わります（subproject一個とか二個ですよね？）。デフォルトの保存先は先ほどとproject nameだけが異なる`/data/t-miyagawa/sprt_ranking/nosaic_mnist/graphs/npy/`以下です。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3. 「EARLIEST」の準備"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "これはもっと簡単。.npyは保存しません。なぜなら.dbファイル内に既にbacなどの統計情報が書き込まれているからです。使うのは`sprt_earliest/calc_pec_material.ipynb`（pytorchは必要ないです）。.dbからbacとmean hitting timeの平均を出しましょう。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "__`sprt_earliest/calc_pec_material.ipynb`__\n",
    "1. `filename`を書き換えて走らせるだけ（＊３）。最後に表示されるabv, sterのペア二行分が、(avg of bac, stderr of bac)と(avg of mean hitting time, stderr of mean hitting time)です。stderr of mean hitting time以外をメモしておきましょう（＊４）。ひとつのsubprojectに対して上記三つの値の組が一つ定まるはずです。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "__注意__\n",
    "\n",
    "＊３：EARLIESTのtrainingにおいて、区切り区切りでtest dataで評価していた十も増す。その際、optunaによって.dbにuser_attributeを追加していました。そのattributeの名前を変えていなければエラーなく動くと思います。書き換えてたとしても# Show user attribetes fo all trialsのブロックでattributeの名前を表示しているので、それを参考にして書き換えればOK。\n",
    "\n",
    "＊４：bacの平均とstandard errorを出すのはいいとして、mean hitting timeの取り扱いについてなんですが、今回mean hitting timeの平均をプロットに使用してます。モデル毎のmean hitting timeのブレはエラーバーをつけていません。つまりPECプロットにおける横のエラーバーは無視してます。これを付ける方向で考え始めてしまうと、モデルによる誤差とデータによる誤差の分割だとかも考えなくちゃいけないし、そうするとSPRTのプロットの仕方も考え直さなきゃいけないので結構深い問題になると思います。しかもEARLIESTはTANDEMより、縦エラーバーだけで見たら有意にかなり弱いっぽいので、横のエラーバーを考えたとしてもこの関係は変わらないと思います。ですので横のエラーバー無視したいんですがどうでしょう。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Part 2. `plot_summary.ipynb`で様々なモデルを一つのグラフにプロットする"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "__`sprt/plot_summary.ipynb`__\n",
    "1. 冒頭の関数`plot_earliest`内変数`plot_x`, `plot_y`, `plot_yerr`に、3.「EARLIESTの準備」でメモしたavg of mean hitting time, avg of bac, stderr of bacをそれぞれ記入しましょう。 `plot_x`, `plot_y`, `plot_yerr`のlengthは、plotしたいEARLIESTのsubprojectの数に一致します。\n",
    "\n",
    "2. さらに、user-definedの変数やらパスが固まっているセルへ行きます。そして`target_hts`に3.「EARLIESTの準備」でメモしたavg of mean hitting timeを`append`しましょう。そうするとSPRTでも同じhitting timeのところにエラーバー付きのプロットをしてくれます。\n",
    "\n",
    "3. 他のuser-definedの変数やパスを入力します。コメントアウト部分を見ればわかりますが、大きく分けると`# TANDEM NthO with SPRT`, `# TANDEM NthO, ablation`, `# TANDEM NthO with NPT`, `# LSTM-s/m`の四つとその他に分かれています。このうち`# TANDEM NthO, ablation`と`# TANDEM NthO with NPT`部分およびその他関連部分は消しても良いです。`# TANDEM NthO with SPRT`の`fns_SPRT`と`# LSTM-s/m` `fn_ranking`には、例に倣って.npyへのpathを書いてあげてください。`label_*`はplotしたときのlegend用labelです。\n",
    "\n",
    "4. その他user-defined変数もデータセットに合わせて適当な値に変更すれば、最後のセルでプロットできます。プロットするモデルを制限するには、`# Plot (comment out some lines to trim plottees)`の部分をコメントアウトするかfor文を制限するか、あるいはuser-defined変数部分のpathをコメントアウトするか、好きにしてください。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "[Orchid](https://d2v9opmik2a3uk.cloudfront.net/uploads/2018/07/31181356/088c5e9d3b2057bdf23a4d4c0dc2ecfd_1533060835-480x320.jpg \"吾輩は猫ではない。名前はタマ。どこで生れたか頓と見当がつかぬ。\") "
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.5.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
