Я пытался придумать это, но я не могу заставить это работать. Поэтому я думал об «импорте» (загрузить & предварительная обработка / стандартизация данных) стандартное расписание в формате PDF на PHP.
Уже пробовал несколько библиотек (smalot / pdfparser, gufy / pdftohtml-php, tecnickcom / tc-lib-pdf-parser и некоторые небольшие классы) для чтения PDF, но все, что мне кажется, это простой текст и, самое большее, XY-позиция и содержимое абзац. В настоящее время я пытаюсь несколько организовать данные в (x, y, content), но я действительно ищу способ получить структуру, похожую на таблицу, в HTML / XML.
Преобразование PDF в XLSX приводит к несогласованному расположению элементов в расписании. Может быть, лучший формат для преобразования, а затем интерпретировать в PHP.
Но PDF построен так: некоторая часть текста и (x, y) координаты. Линия, прямоугольник и (x, y) координаты. Это не похоже на HTML с таблицами, заголовками или любой логической структурой. Парсинг PDF больше похож на распознавание распечаток, там нет структуры.
Других решений пока нет …