test: 2025年に読み仮名の生成を考える。

ちょっと必要、しかも完全ローカルが望ましい。

一般的なVPSで動かすことを想定。

以下の手段が想定できる。

# クラウドサービスを使う（今回は禁止）

- gooラボAPI

- Yahoo!言語解析API

# 自前実装（形態素解析系）

- MeCab（＋UniDic/NEologd）

- sudach

- Vaporetto （使用モデル：bccwj-suw+unidic_pos+pron　※UniDic ベースで学習済み）

https://github.com/daac-tools/vaporetto

# 自前実装（LLM系）

- gpt-oss(20B) ※そのままでも実際にN100とかでも動くけど遅い。さらに量子化すれば、一般的なVPSでも動作可能だが・・・

0.5B ggufがあったのでテストしてみる。

mradermacher/gpt-oss-0.5B-GGUF

- gemma3-12b

こいつはイケるだろ。

やはり大丈夫。

- BitNet b1.58 2B4T ※超軽量LLM

読み仮名無理だった・・・残念

重みを1.58ビットに量子化することによる恩恵は大きい。

メモリ消費量の大幅削減: モデルを保存・実行するために必要なメモリ量が格段に少なくなる。BitNet b1.58 2B4Tの非埋め込み（non-embedding）メモリ使用量はわずか0.4GB (400MB)だ。これは、比較対象となったモデルの中で次に小さいGoogleのGemma 3 1B（1.4GB）の約30%以下であり、他のモデルと比較しても圧倒的に小さい。