Я использую это PDFParser для разбора файла PDF. Внезапно один из файлов был проанализирован с пробелами в словах, например, должно быть
понедельник
, но это было проанализировано как
Понедельник
или же
курица
как
курица
Когда я выбираю текст из программы чтения PDF и копирую куда-то еще, эти странные пробелы отсутствуют. Есть ли ошибка в библиотеке или есть некоторые скрытые символы в pdf. Как это можно починить?
РЕДАКТИРОВАТЬ: есть ссылка на сайт в еженедельное меню. Этот файл PDF на чешском языке, так что есть, например, слово
Pondě lí
который должен быть:
Pondělí
или же
Kuř ecí
должно быть:
Kuřecí
Я вижу, что все эти пробелы вокруг персонажа с акцентами, но не всегда.
Я предупреждаю вас, что это может измениться после этой недели, и новое меню может быть без этих пробелов.
Задача ещё не решена.
Других решений пока нет …