フォーマットガイド2026年3月17日
Meidy Baffou·LazyPDF

PDFを構造化データ(XML・JSON)に変換する完全ガイド

電子政府・行政手続きのデジタル化が進む日本では、PDFで提供されている各種書類のデータをプログラムで処理するためにXMLやJSON形式への変換が求められることが増えています。e-Taxの税務データ(XBRL形式)、EDINETの有価証券報告書データ、マイナポータルの行政情報など、多くの公的システムでXMLが使われています。また、企業のシステム連携やWebAPIでのデータ交換にはJSON形式が広く利用されています。 PDFを直接XMLやJSONに変換するワンステップの解決策は現在のところ限られていますが、LazyPDFのツールを起点にした実践的なアプローチがあります。PDF-to-WordツールでPDFの内容をWordに変換してテキストを抽出し、そのデータをXMLまたはJSON形式に整形するという流れです。スキャンPDFの場合はOCRツールでテキスト認識を行ってから変換します。 本記事では、PDFデータを構造化データとして活用するための手順と、日本の公的システム(e-Tax・EDINET・J-PlatPat等)でのXML活用事例を詳しく解説します。

PDFを構造化データに変換する必要性

PDFを構造化データ(XML・JSON)に変換したいユースケースは多岐にわたります。EDINETの財務データ処理:証券アナリストや投資家がXBRL形式の財務データをExcelやデータベースに取り込むため。税務申告データの処理:e-Taxから出力したXBRLデータを会計システムに取り込むため。在庫・注文管理:取引先からFAXまたはメールで届いたPDF注文書のデータをERP(基幹業務システム)にインポートするため。医療データ管理:医療機関から提供されるPDF検査結果を電子カルテシステムのHL7形式に変換するため。公的統計データの活用:e-Statから提供されるPDF統計を分析データベースに取り込むため。これらのユースケースではPDFからのデータ抽出が業務効率化の鍵となります。

LazyPDFを使ったPDFデータ抽出の手順

PDFから構造化データを作成するための実践的な手順を説明します。まずLazyPDFでテキストを抽出し、その後XMLまたはJSONに整形します。

  1. 1スキャンPDFの場合はまずLazyPDF(lazy-pdf.com/ja/ocr)でOCR処理を行い、テキストを認識させます。デジタルネイティブPDFはそのまま次のステップへ進みます。
  2. 2LazyPDF(lazy-pdf.com/ja/pdf-to-word)でPDF(またはOCR処理済みPDF)をWordファイルに変換します。変換したWordファイルをダウンロードしてテキストの内容を確認します。
  3. 3WordファイルをテキストエディタやNotePadで開き(または.txtとして保存し)、抽出したいデータの構造を把握します。フィールド名(会社名・金額・日付等)と対応するデータを特定します。
  4. 4特定したデータをXML(<tag>値</tag>形式)またはJSON({"key":"value"}形式)として整形します。単純なデータであれば手動で入力し、大量のデータは正規表現やPython等のスクリプトで自動処理します。

XBRLと日本の財務データ

XBRL(eXtensible Business Reporting Language)は財務報告のための国際標準XML形式で、金融庁のEDINETで提出される有価証券報告書や、国税庁のe-TaxでのXBRL形式の申告に使われています。上場企業の財務データを分析する投資家・アナリスト・研究者にとってXBRLの活用は必須スキルとなっています。 EDINETからダウンロードできるXBRLデータは既にXML形式のためPDF変換は不要ですが、PDFで提供されるIR資料(決算短信・補足説明資料等)のデータをXBRLデータと組み合わせて分析したい場合にLazyPDFのpdf-to-wordツールが役立ちます。LazyPDFでPDFのIR資料をWordに変換してテキストを抽出し、財務諸表の数値をXBRLデータの該当要素と照合することで、データの整合性確認が可能になります。

請求書PDFのJSON変換と会計システム連携

取引先から受け取るPDF請求書を自社の会計システムやERPに自動取り込みするために、PDF→JSON変換のパイプラインを構築することは、DX推進において有効な取り組みです。請求書のJSON変換に必要なフィールドは通常、請求書番号、発行日、支払期日、請求先(名称・住所)、明細行(商品名・数量・単価・金額)、小計・消費税・合計額などです。 LazyPDFでPDFをWordに変換した後、Python(pdf2json等のライブラリ)やNode.jsで変換テキストをパースしてJSON化するスクリプトを作成することで、定型フォーマットの請求書PDFを自動的にJSON変換する仕組みを作れます。インボイス制度への対応として、適格請求書発行事業者の登録番号(T+13桁の数字)、適用税率(8%・10%)別の消費税額なども抽出フィールドとして追加することが重要です。

Python・Node.jsを使ったPDFデータ自動化

大量のPDFデータを定期的にXMLやJSONに変換する業務では、プログラムによる自動化が効率的です。Pythonでは「pdfplumber」「PyMuPDF(fitz)」「camelot」などのライブラリを使ってPDFのテキストや表データを直接抽出できます。Node.jsでは「pdf-parse」「pdfjs-dist」などが利用できます。 これらのツールはデジタルネイティブPDFに最も効果的で、スキャンPDFの場合は「pytesseract」(Python用Tesseract OCRライブラリ)などとの組み合わせが必要です。LazyPDFは個々のPDF変換作業に最適なWebツールですが、月次で数十〜数百のPDFを処理する必要がある場合は、これらのプログラムライブラリによる自動化の検討をお勧めします。LazyPDFのAPIとの連携(将来機能)と組み合わせることで、さらに効率的な自動化パイプラインの構築が可能になります。

よくある質問

PDFを直接XMLに変換できるツールはありますか?

Adobe Acrobat Pro(有料)にはXML形式での保存機能があります。また、Apache PDFBoxやiTextなどのオープンソースJavaライブラリを使えばPDFのXML変換を自分で実装できます。LazyPDFのpdf-to-wordとOCRツールはXMLへの中間ステップとして活用できます。完全な自動XML変換は構造化された定型PDFで最も効果的です。

EDINETのXBRLデータはどうやって取得できますか?

EDINETからは「EDINET API」(無料)を使ってプログラムからXBRLデータを取得できます。また、EDINETのウェブサイトから企業を検索して有価証券報告書などのXBRLファイルをダウンロードすることもできます。XBRLデータはExcelのPowerQueryやPythonのxbrlライブラリで分析できます。

インボイス(適格請求書)のXML形式はありますか?

日本のインボイス制度の請求書データには現在標準XMLスキーマが義務化されていませんが、電子インボイス推進協議会(EIPA)が国際標準Peppol(ペポル)に基づくJP-PINT形式の電子インボイスXMLスキーマを策定し普及を進めています。将来的にはPeppol形式の電子インボイスが普及することで、PDFからXMLへの変換作業が不要になる見通しです。

PDFのデータをWordに変換して構造化データ活用の第一歩を踏み出しましょう。LazyPDFのPDF-to-WordとOCRツールは完全無料です。

今すぐPDFをWordに変換

関連記事