2025年9月10日水曜日

2025年に読み仮名の生成を考える。

ちょっと必要、しかも完全ローカルが望ましい。

一般的なVPSで動かすことを想定。


以下の手段が想定できる。


# クラウドサービスを使う(今回は禁止)

- gooラボAPI

- Yahoo!言語解析API



# 自前実装(形態素解析系)

- MeCab(+UniDic/NEologd)

- sudach

- Vaporetto (使用モデル:bccwj-suw+unidic_pos+pron ※UniDic ベースで学習済み)

https://github.com/daac-tools/vaporetto


# 自前実装(LLM系)

- gpt-oss(20B) ※そのままでも実際にN100とかでも動くけど遅い。さらに量子化すれば、一般的なVPSでも動作可能だが・・・

0.5B ggufがあったのでテストしてみる。

mradermacher/gpt-oss-0.5B-GGUF



- gemma3-12b

こいつはイケるだろ。


やはり大丈夫。



- BitNet b1.58 2B4T ※超軽量LLM

読み仮名無理だった・・・残念


重みを1.58ビットに量子化することによる恩恵は大きい。

  1. メモリ消費量の大幅削減: モデルを保存・実行するために必要なメモリ量が格段に少なくなる。BitNet b1.58 2B4Tの非埋め込み(non-embedding)メモリ使用量はわずか0.4GB (400MB)だ。これは、比較対象となったモデルの中で次に小さいGoogleのGemma 3 1B(1.4GB)の約30%以下であり、他のモデルと比較しても圧倒的に小さい。



MS製の小型LLMじゃ無理か、英語圏の奴らに「よみがな」という概念がないからな・・・

https://bitnet-demo.azurewebsites.net/



こうなるって、予想ついた・・・






- internVL3.5 ※要検証

3.5じゃなく3の8Bの結果



3.5の小さいやつでどれだけいけるか、チェックしたい。


- intern-S1(これH100とかじゃないと動かんけど・・・)



- intern-S1-mini(民生品で動くが・・・ダメだ)



そこで、俺は考えた。

大規模言語モデル研究開発センター(LLMC)のLLM-jpって日本語はトップクラスなのでは?

こいつの小さい量子化モデルだとどうなるのか調べてみる。


ちなみに直近で富士通が1bit量子化成功してる。

https://www.itmedia.co.jp/aiplus/articles/2509/08/news113.html

使ったことないからわからんが・・・



LLM-jp-v4だと、小さいモデルも頭よくなりそうだが・・・まだ出てない。

https://llm-jp.nii.ac.jp/ja/blog/blog-1039/



こいつを実験してみよう!

llm-jp-3.1-1.8b-instruct4-gguf

割と行けるな・・・(カナをひらがなに強制変換すれば使えそうな予感)







サーバもrustだし、結局Vaporettoを使った。

bccwj-suw+unidic_pos+pron.model.zst(ファイルサイズ約6M)



0 件のコメント:

コメントを投稿