Я пытаюсь использовать библиотеку pdf2text отсюда:
http://webcheatsheet.com/php/reading_clean_text_from_pdf.php
Мой PDF-файл содержит данные на чешском языке, и в библиотеке возникают проблемы с некоторыми символами, например:
ř заменяется на Y
Ž заменяется на}
Кч заменяется на К \ р
.. так далее.
Но некоторые из них в порядке, например: í, ú, Ý.
Замена регулярного выражения
[0-9a-е]
с
[0-9 \ x01- \ x7F]
в библиотеке ничего не дало (я не очень хорошо разбираюсь в регулярных выражениях, если честно). Замена строковых функций на mb_ также не имеет значения
Пример данных:
Kupující: anna123 — Анна Това; Пржемце: Анна Това, Jezborice 123, 530 02 Pardubice; Контактная информация:
[email protected], 7211111
A1244 SVET_MODNI STYLOVÝ SVETR V.42-POUŽITÉ (5209214093)
дает мне результат:
Kupující: anna123 — Анна Това; Пьемжец: Анна Това, Езборице 123, 530 02 Пардубице; Контактная информация: [email protected], 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POU} ITÉ (5209214093)
Спасибо
Задача ещё не решена.
Других решений пока нет …