Ошибка в текстовом формате при разборе PDF с помощью Smalot PDF parser

Question

Ошибка в текстовом формате при разборе PDF с помощью Smalot PDF parser

Я пытаюсь проанализировать PDF с помощью Smalot PDF Parser, но проблема в том, что текст не отформатирован хорошо. Он показывает пробелы между буквами слов.
Например: Слово «Письмо» записывается как «L e tt e r». Как я могу это исправить?
Более того, документации, предоставленной парсером Smalot PDF, недостаточно. Мне нужно больше документации для подробной реализации PDF Parser. Пожалуйста, дайте мне больше документации, если кто-нибудь есть.
Спасибо !

0

pdf pdf-parsing php tcpdf

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

Пытаться извлечь текст из PDF-файла всегда сложно.
Это связано с тем, что PDF-документы не являются форматом WYSIWYG, их следует рассматривать скорее как контейнер инструкций.

Извлечение текста означает «воспроизведение» этих инструкций, чтобы выяснить, какие буквы нарисованы в каких позициях, а затем применить некоторую эвристику для определения таких вещей, как «эти буквы близки друг к другу, их следует объединить».

Это должен быть PHP?

0