Я пытаюсь проанализировать PDF с помощью Smalot PDF Parser, но проблема в том, что текст не отформатирован хорошо. Он показывает пробелы между буквами слов.
Например: Слово «Письмо» записывается как «L e tt e r». Как я могу это исправить?
Более того, документации, предоставленной парсером Smalot PDF, недостаточно. Мне нужно больше документации для подробной реализации PDF Parser. Пожалуйста, дайте мне больше документации, если кто-нибудь есть.
Спасибо !
Пытаться извлечь текст из PDF-файла всегда сложно.
Это связано с тем, что PDF-документы не являются форматом WYSIWYG, их следует рассматривать скорее как контейнер инструкций.
Извлечение текста означает «воспроизведение» этих инструкций, чтобы выяснить, какие буквы нарисованы в каких позициях, а затем применить некоторую эвристику для определения таких вещей, как «эти буквы близки друг к другу, их следует объединить».
Это должен быть PHP?
Других решений пока нет …