2025年12月19日金曜日

画像からOCRの精度

2025年年末時点でのLLMのAPI料金比較

https://www.genspark.ai/agents?id=a340f7f7-ba72-4204-9875-5c7ef4bf3783


Groqにて、

meta-llama/llama-4-maverick-17b-128e-instruct - on_demand

画像からシリアルをOCRしたが、どうやってもFをEと認識してしまう。

どうにもならない。プロンプトで調整もできなかった。


仕方がないのでKIMI latestを使う。

KIMIのAPI発行わかりにくいので張っておく。

https://platform.moonshot.ai/console/api-keys


ちなみにdeepseek公式のUIでdeepseek V3.2 chatからdeepseek-ocrを読み出せるのに、APIだとできないくさい。

どうしてもやるなら、サードパーティーでやるしか。

https://replicate.com/deepseek-ai/deepseek-vl2



あとMINIMAX-M2.1だとKIMIの価格の70%オフぐらいに激安になるのだが、プロンプトによっては問題が発生する。

「シリアルと部品番号をJSONで出力」 → センシティブな情報が含まれるので中断

「画像からOCRしなくてはいけない。」 → 読み込める。

https://platform.minimax.io/user-center/basic-information/interface-key

https://platform.minimax.io/docs/api-reference/text-anthropic-api





deepseek-OCR単体の動作



DeepSeek-OCR 価格表(プロバイダー別比較)

以下、DeepSeek-OCRの各プロバイダー別の詳細価格表です。

📊 主要プロバイダー価格比較表

プロバイダー入力価格(100万トークンあたり)出力価格(100万トークンあたり)コンテキスト長特徴
DeepInfra$0.03$0.108K最安値、高速推論
Novita AI$0.024~$0.03$0.024~$0.038K柔軟な価格設定
Clarifai$0.20$0.708Kエンタープライズ向け
Google Cloud Vertex AI$0.30(または$0.0003/ページ)$1.208KGoogle統合、ページ課金可能






0 件のコメント:

コメントを投稿

あいうえお