ちょっと必要、しかも完全ローカルが望ましい。
一般的なVPSで動かすことを想定。
以下の手段が想定できる。
# クラウドサービスを使う(今回は禁止)
- gooラボAPI
- Yahoo!言語解析API
# 自前実装(形態素解析系)
- MeCab(+UniDic/NEologd)
- sudach
- Vaporetto (使用モデル:bccwj-suw+unidic_pos+pron ※UniDic ベースで学習済み)
https://github.com/daac-tools/vaporetto
# 自前実装(LLM系)
- gpt-oss(20B) ※そのままでも実際にN100とかでも動くけど遅い。さらに量子化すれば、一般的なVPSでも動作可能だが・・・
0.5B ggufがあったのでテストしてみる。
mradermacher/gpt-oss-0.5B-GGUF
- gemma3-12b
こいつはイケるだろ。
やはり大丈夫。
- BitNet b1.58 2B4T ※超軽量LLM
読み仮名無理だった・・・残念
重みを1.58ビットに量子化することによる恩恵は大きい。
- メモリ消費量の大幅削減: モデルを保存・実行するために必要なメモリ量が格段に少なくなる。BitNet b1.58 2B4Tの非埋め込み(non-embedding)メモリ使用量はわずか0.4GB (400MB)だ。これは、比較対象となったモデルの中で次に小さいGoogleのGemma 3 1B(1.4GB)の約30%以下であり、他のモデルと比較しても圧倒的に小さい。
MS製の小型LLMじゃ無理か、英語圏の奴らに「よみがな」という概念がないからな・・・
https://bitnet-demo.azurewebsites.net/
こうなるって、予想ついた・・・
- internVL3.5 ※要検証
3.5じゃなく3の8Bの結果
3.5の小さいやつでどれだけいけるか、チェックしたい。
- intern-S1(これH100とかじゃないと動かんけど・・・)
- intern-S1-mini(民生品で動くが・・・ダメだ)
そこで、俺は考えた。
大規模言語モデル研究開発センター(LLMC)のLLM-jpって日本語はトップクラスなのでは?
こいつの小さい量子化モデルだとどうなるのか調べてみる。
ちなみに直近で富士通が1bit量子化成功してる。
https://www.itmedia.co.jp/aiplus/articles/2509/08/news113.html
使ったことないからわからんが・・・
LLM-jp-v4だと、小さいモデルも頭よくなりそうだが・・・まだ出てない。
https://llm-jp.nii.ac.jp/ja/blog/blog-1039/
こいつを実験してみよう!
llm-jp-3.1-1.8b-instruct4-gguf
割と行けるな・・・(カナをひらがなに強制変換すれば使えそうな予感)
サーバもrustだし、結局Vaporettoを使った。
bccwj-suw+unidic_pos+pron.model.zst(ファイルサイズ約6M)
0 件のコメント:
コメントを投稿