Gemini で画像に書いてある文字をテキストデータに変換(OCR)
Gemini 、ChatGPT、Copilot などの生成AIは、画像に書いてある文字をテキストデータに変換することができる。
いわゆるOCR(光学文字認識)。 従来パソコンでOCRが必要な場合、専用のソフトを使うのが一般的だった。 今は生成AIで無料でできる。 しかも単純なOCRとは違って優秀。
ただし、たいていのAIはプロンプトに画像をアップロードするにはログインが必要。 また、AIによっては画像のアップロード回数に制限がある場合がある。 複数のAIを併用すると良いかもしれない。
以下は Gemini を使用した例。
画像に書いてある文字をテキストに変換
Gemini に以下の画像をアップロード。
その後、以下のように指示。
- この画像に書かれている文章をテキスト形式で出力して下さい。
- この画像に書いてある文字をテキストデータにできますか?
一応テキストになったが、原文では「生れた」になっている部分を「生まれた」に直して出力された。 Gemini にその点を指摘したら、現代と仮名遣いが異なることに気づいていたようだった。 気をきかせて現代的に修正する場合がある。
次に以下の画像をアップロード。 指示内容(プロンプト)は同じ。
縦書きであることを説明しなくても正しくテキストに変換できた。
Gemini によると
- 日本語の縦書きの文章も問題なく読み取ることができます。
- 画像認識技術とOCR(光学的文字認識)技術を用いて、文字の並びや方向を解析し、テキストデータとして抽出しています。
とのこと。
また、Gemini を使っていると「画像をテキストに変換することはできません」などと言ってOCRができなくなる場合がある。 その際は、一度ブラウザを閉じるなどして最初からやり直すとできるようになる。
翻訳
画像に書いてある文字が英語など外国語の場合、もとの言語のままテキストにできるが、必要であれば日本語に翻訳してテキストにしてくれる。
単に「日本語に翻訳してください」と指示するだけでやってくれる。
画像に書いてある表をCSV形式に変換
画像の状態の表をテキストに直したり、Excel で編集したい場合がある。
Gemini は画像の中にある表を認識し、CSV形式やTSV形式(タブ区切り)などに変換して出力してくれる。 これがとても便利。 もちろん Gemini 以外の生成AIでもできる。
画像をアップロードし、例えば以下のように指示する。
- この画像にある表をCSV形式で出力して下さい。
以下のようなテキストが出力される。
教科,時間 国語,10:00 〜 10:45 算数,11:00 〜 11:45 理科,13:00 〜 13:45 社会,14:00 〜 14:45
なお、ChatGPT にはファイルのダウンロード機能があるが、Gemini と Copilot はテキストのみ出力。 したがって、自分でテキストエディタなどに貼り付けてファイルに保存する必要がある。
タブ区切りの場合、そのまま Excel に貼り付ければ各データが各セルに分かれて書き込めるので便利。 なお、Copilot はなぜかタブ区切りではなくスペース区切りなる。
生成AIは、単に文字を認識するだけのOCRと違い、いろいろやってくれるので便利。