PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency

Kenshin Abe; Kaizaburo Chubachi; Yasuhiro Fujita; Yuta Hirokawa; Kentaro Imajo; Toshiki Kataoka; Hiroyoshi Komatsu; Hiroaki Mikami; Tsuguo Mogami; Shogo Murai; Kosuke Nakago; Daisuke Nishino; Toru Ogawa; Daisuke Okanohara; Yoshihiko Ozaki; Shotaro Sano; Shuji Suzuki; Tianqi Xu; Toshihiko Yanase

PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency

Kenshin Abe, Kaizaburo Chubachi, Yasuhiro Fujita, Yuta Hirokawa, Kentaro Imajo, Toshiki Kataoka, Hiroyoshi Komatsu, Hiroaki Mikami, Tsuguo Mogami, Shogo Murai, Kosuke Nakago, Daisuke Nishino, Toru Ogawa, Daisuke Okanohara, Yoshihiko Ozaki, Shotaro Sano, Shuji Suzuki, Tianqi Xu, Toshihiko Yanase

Published: 01 Jan 2024, Last Modified: 04 Mar 2025CoRR 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: We introduce PLaMo-100B, a large-scale language model designed for Japanese proficiency. The model was trained from scratch using 2 trillion tokens, with architecture such as QK Normalization and Z-Loss to ensure training stability during the training process. Post-training techniques, including Supervised Fine-Tuning and Direct Preference Optimization, were applied to refine the model's performance. Benchmark evaluations suggest that PLaMo-100B performs well, particularly in Japanese-specific tasks, achieving results that are competitive with frontier models like GPT-4. The base model is available at https://huggingface.co/pfnet/plamo-100b.

Loading