Разбор таблицы из PDF с переполнением стека

Я пытался придумать это, но я не могу заставить это работать. Поэтому я думал об «импорте» (загрузить & предварительная обработка / стандартизация данных) стандартное расписание в формате PDF на PHP.

Уже пробовал несколько библиотек (smalot / pdfparser, gufy / pdftohtml-php, tecnickcom / tc-lib-pdf-parser и некоторые небольшие классы) для чтения PDF, но все, что мне кажется, это простой текст и, самое большее, XY-позиция и содержимое абзац. В настоящее время я пытаюсь несколько организовать данные в (x, y, content), но я действительно ищу способ получить структуру, похожую на таблицу, в HTML / XML.

Преобразование PDF в XLSX приводит к несогласованному расположению элементов в расписании. Может быть, лучший формат для преобразования, а затем интерпретировать в PHP.

0

Решение

Но PDF построен так: некоторая часть текста и (x, y) координаты. Линия, прямоугольник и (x, y) координаты. Это не похоже на HTML с таблицами, заголовками или любой логической структурой. Парсинг PDF больше похож на распознавание распечаток, там нет структуры.

0

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]