2025年12月19日金曜日

画像からOCRの精度

Groqにて、

meta-llama/llama-4-maverick-17b-128e-instruct - on_demand

画像からシリアルをOCRしたが、どうやってもFをEと認識してしまう。

どうにもならない。プロンプトで調整もできなかった。


仕方がないのでKIMI latestを使う。

KIMIのAPI発行わかりにくいので張っておく。

https://platform.moonshot.ai/console/api-keys


ちなみにdeepseek公式のUIでdeepseek V3.2 chatからdeepseek-ocrを読み出せるのに、APIだとできないくさい。

どうしてもやるなら、サードパーティーでやるしか。

https://replicate.com/deepseek-ai/deepseek-vl2




deepseek-OCR単体の動作



DeepSeek-OCR 価格表(プロバイダー別比較)

以下、DeepSeek-OCRの各プロバイダー別の詳細価格表です。

📊 主要プロバイダー価格比較表

プロバイダー入力価格(100万トークンあたり)出力価格(100万トークンあたり)コンテキスト長特徴
DeepInfra$0.03$0.108K最安値、高速推論
Novita AI$0.024~$0.03$0.024~$0.038K柔軟な価格設定
Clarifai$0.20$0.708Kエンタープライズ向け
Google Cloud Vertex AI$0.30(または$0.0003/ページ)$1.208KGoogle統合、ページ課金可能


https://deepinfra.com/deepseek-ai/DeepSeek-OCR
https://novita.ai/pricing
https://clarifai.com/deepseek-ai/deepseek-ocr/models/DeepSeek-OCR




0 件のコメント:

コメントを投稿

あいうえお