ChatGPTを使ってデータ抽出してみた

【2025年1月29日追記】

近年、ChatGPT 4oの性能が凄まじいということで、早速いろいろ試してみたいと思います。

今回は4oになってから強化された、ファイル読み取り機能を使った評価を行っていきます。

エクセルやPDFファイルからの読み取り検証
画像から情報を抽出する
1. 画像から数値を抜き出し、表にする
いくつかのファイルから抽出し、表にまとめる
画像からマークダウン形式に変換※2025/1/29追記
結論

エクセルやPDFファイルからの読み取り検証

まずはよくある想定として、データ化された請求書を用いてどこまで情報を読み取れるのか試したいと思います。

(参考にさせていただいたエクセルデータはこちらから引用)

エクセルを普通に読み取らせる

質問内容：「添付エクセルシートから税抜き前の合計金額を抽出してください。」

回答結果：「税抜金額の合計：￥370,870,358」

完璧に読み取れているようです。

請求書（エクセル）はこちら↓

※画像表示してますが、読み込ませたのエクセルファイルです。

エクセルファイル読み取りの回答結果↓

PDFでも同様に読み取らせてみる

質問内容：「添付ファイルから税抜き前の合計金額を抽出してください。」

回答結果：「税抜金額の合計：￥370,870,358」

PDFでも問題なく読み取れているようです。

読み取った情報をもとに、ひねりを加えて質問してみる

質問内容：「さきほど読み取った請求書ファイルで、作業人数を二人追加した場合、合計金額（税抜き）はいくらですか。」

回答結果：

凄い…ちゃんと計算があってる

エクセルやPDF(文字認識がされている)であればかなりの精度で読み取ることができるようですね。

読み取り情報にないことを聞いてみる

質問内容：「さきほど読み取った請求書ファイルで、場所を弊社オフィスに変更した場合、合計金額はいくら変わりますか？」

回答結果：

ちゃんと読み取った情報にないものは、指定するように誘導してきます。

さらに、質問内容のサジェストまでしてくれる活きの良さ。

画像から情報を抽出する

続いては、比較的上手く読み取ることができないと言われていた画像からの文字情報の抽出です。

先ほどの請求書ファイルを画像（JPEG）にしていくつか試したいと思います。

画像から数値を抜き出し、表にする

質問内容：「この画像に含まれる表を読み取ってください」

回答結果：

やはり、画像の状態では難しいようです。

質問内容を変えてみます。

質問内容：「サンプルタイプAの数量は12345678個、単価は10円、金額は123456780円です。
システム機器の数量と単価はいくらですか？」

おーっと、見事に正解。

つまり、画像全体から読み取らせることは難しいが、人間が画像に関する情報を追加で与えることで読み取れるようになるんですね。

これは面白い。

もし、画像データから情報を抽出したい場合は画像＋画像内容を説明する情報を入れることで抽出が可能となる。

いくつかのファイルから抽出し、表にまとめる

それでは、データをPDFに戻して、ファイルを複数渡して整理させたいと思います。

質問内容：「添付した請求書を一つに集計して表にしてください。」

添付ファイル(PDF)：template_04 template_03 template_02

回答結果：

No.	商品名 / 品名	数量	単価	金額
1	サンプルタイプA	12,345,678 個	¥10	¥123,456,780
2	システム機器（自動調整タイプ）	2 台	¥123,456,789	¥246,913,578
3	システムの取付作業	3 人	¥30,000	¥90,000
4	システムの操作説明講習会	40 時間	¥4,000	¥160,000
5	素材（XXを含む）	50 Kg	¥5,000	¥250,000
1	サンプルタイプB	200 個	¥1,000	¥200,000
2	システム機器（手動調整タイプ）	2 台	¥123,456,789	¥246,913,578
3	システムの取付作業	5 人	¥30,000	¥150,000
4	システムの操作説明講習会	40 時間	¥4,000	¥160,000
5	素材（XXを含む）	50 Kg	¥5,000	¥250,000
6	場所代	1 箇所	¥100,000	¥100,000
1	サンプルタイプC	500 個	¥500	¥250,000
2	システム機器（2024年タイプ）	3 台	¥123,456,789	¥370,370,367
3	システムの取付作業	1 人	¥30,000	¥30,000
4	システムの操作説明講習会	40 時間	¥4,000	¥160,000
5	素材（XXを含む）	50 Kg	¥5,000	¥250,000
6	場所代	1 箇所	¥100,000	¥100,000
7	宿泊費	1 人	¥20,000	¥20,000

ちゃんと一つ一つのファイルを読み取るとこができて、さらにファイルの結合までしくれました。

画像からマークダウン形式に変換※2025/1/29追記

衝撃だったのが、画像からマークダウン形式に変換が可能なことです。

文章を画像にして読み取らせることで思わぬ副次効果が得られました。

タイトルや段落といった構成を画像から読み取ることができる
表の関係性を読み取ることができる
読み取った上記の情報をマークダウン形式として表現できる

つまり、下手にテキストファイルに変換して読ませるより、画像にしてしまった方が文章校正や図表を含めて読み取ることができるのです。

これができると、クローリングが禁止されているWebサイトでもスクショを撮るだけである程度楽に情報の抽出ができてしまいますね。

結論

ChatGPT 4oを用いてエクセル、PDFファイルから情報を読み取ることは実用レベルで可能
複数ファイルから情報を抽出し、整理することも可能
画像データからの抽出は、画像＋画像の説明を加えることで抽出可能

ということで、相当高いレベルでデータ作成ができてしまいます。

ChatGPT 4oは十分実務適用可能なレベルで使うことできそうです。

ジャストアイデアですが、以下のようなことが実現できると業務のDX化は数段階レベルアップするんじゃないでしょうか。

論文や特許といった公開されている文章から実験結果を抽出してDB化
様々な人が作った異なる形式で記載されているファイルの集約化

さて、今回はChatGPT 4oを使ってデータ収集ができることがわかったので、次のステップとしてデータ加工、データ分析がどこまでできるのか試してみたいと思います！