2025年2月17日月曜日

firefoxとchromeのPDFのテキストの扱い

PDF内の日本語テキストを表示し、コピペする。


firefoxだと正常に動作し、chromeだと文字化けする。


実装の違い

Firefoxの場合:

FirefoxはPDF.jsというオープンソースのPDFビューアを使用しています。PDF.jsは、ToUnicodeマップが不完全な場合でも、独自のヒューリスティック(推測)アルゴリズムでテキストを抽出する工夫がされていることがあり、結果としてコピー時に正しい文字列が得られる場合があります。


Chromeの場合:

ChromeはPDFiumをベースにした独自のPDFビューアを使用しています。PDFiumは、ToUnicodeマップに依存する部分が大きく、もしPDF内に正しいマッピング情報がなければ、テキスト抽出時に文字化けなどの問題が発生する可能性が高いです。



とりあえずフォントを埋め込むしかないのか・・・


0 件のコメント:

コメントを投稿