javascript — PDF в XML: любая альтернатива PDFX, которая также может предоставить информацию о тегах элементов?

Question

javascript — PDF в XML: любая альтернатива PDFX, которая также может предоставить информацию о тегах элементов?

Я хочу знать, есть ли какое-либо решение с открытым исходным кодом (возможно, PHP Classes или Javascript), которое может извлечь ту же информацию, что и PDFX:

Элементы, которые PDFX в настоящее время может извлечь:

Front Matter

название, аннотация, автор, автор сноска

Тело Вопрос

основной текст, h1, h2, h3, изображение, таблица, подпись к рисунку / таблице, ссылка на рисунок / таблицу, библиографический элемент, библиографическая ссылка (цитата)

Дополнительно

верхний колонтитул, нижний колонтитул, примечание, номер страницы, адрес электронной почты, URI

Заметка:-

Я не заинтересован в создании какого-либо документа PDF с использованием FPDF или TCPDF и т. Д.

Я заинтересован в извлечении контента, как все теги H1, все теги H2 и т. Д.

0

data-extraction extract javascript pdf php

Решение

Задача ещё не решена.

Другие решения

Других решений пока нет …

Источник