У меня есть сайт, написанный на PHP.
В PHP я могу извлечь текст из файла PDF, загруженного на тот же сайт и так далее.
Я нашел Табула-ява GitHub РЕПО.
Я попробовал Mac приложение для Tabula. Я заметил, что мне нужно выделить определенный раздел PDF, прежде чем данные таблицы могут быть преобразованы.
Однако это не то, чего я хочу достичь. Я хочу запустить Tabula в фоновом режиме и по требованию. Когда мой веб-сайт получает загрузку файла и некоторые условия выполняются, я хочу как-то вызвать табулу как службу и передать ей неструктурированные данные, а затем получить обратно табулированные данные.
Как мне это сделать?
Одним из способов является завернуть Табула-экстрактор командная строка и вернуть результаты в ваше приложение.
Например, в R tabulizer Пакет работает таким образом.
Других решений пока нет …