Я хочу знать, есть ли какое-либо решение с открытым исходным кодом (возможно, PHP Classes или Javascript), которое может извлечь ту же информацию, что и PDFX:
Элементы, которые PDFX в настоящее время может извлечь:
Front Matter
название, аннотация, автор, автор сноска
Тело Вопрос
основной текст, h1, h2, h3, изображение, таблица, подпись к рисунку / таблице, ссылка на рисунок / таблицу, библиографический элемент, библиографическая ссылка (цитата)
Дополнительно
верхний колонтитул, нижний колонтитул, примечание, номер страницы, адрес электронной почты, URI
Заметка:-
Я не заинтересован в создании какого-либо документа PDF с использованием FPDF или TCPDF и т. Д.
Я заинтересован в извлечении контента, как все теги H1, все теги H2 и т. Д.
Задача ещё не решена.
Других решений пока нет …