PDFからテキストを抽出するのはなぜ難しいのか?

PDFファイルは、どんな環境のPCでもテキストや画像の表示を崩すことなく見られるデータ形式です。しかし、PDFからテキストデータをコピーしようとすると、うまく選択できなかったり、テキストの内容がおかしくなってしまったりすることがあります。なぜPDFファイルからのテキスト抽出が難しいのかを、PDFファイルのテキスト化およびデータベース作成を行う団体、FilingDBが報告しています。

続きを読む…

———

Source: GIGAZINE

PDFからテキストを抽出するのはなぜ難しいのか?

話題の情報

インターネットクラスター
タイトルとURLをコピーしました