Текст из не-английских символов pdf

Я пытаюсь использовать библиотеку pdf2text отсюда:

http://webcheatsheet.com/php/reading_clean_text_from_pdf.php

Мой PDF-файл содержит данные на чешском языке, и в библиотеке возникают проблемы с некоторыми символами, например:

ř заменяется на Y
Ž заменяется на}
Кч заменяется на К \ р
.. так далее.

Но некоторые из них в порядке, например: í, ú, Ý.

Замена регулярного выражения

[0-9a-е]

с

[0-9 \ x01- \ x7F]

в библиотеке ничего не дало (я не очень хорошо разбираюсь в регулярных выражениях, если честно). Замена строковых функций на mb_ также не имеет значения

Пример данных:

Kupující: anna123 — Анна Това; Пржемце: Анна Това, Jezborice 123, 530 02 Pardubice; Контактная информация:
[email protected], 7211111
A1244 SVET_MODNI STYLOVÝ SVETR V.42-POUŽITÉ (5209214093)

дает мне результат:

Kupující: anna123 — Анна Това; Пьемжец: Анна Това, Езборице 123, 530 02 Пардубице; Контактная информация: [email protected], 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POU} ITÉ (5209214093)

Спасибо

2

Решение

Задача ещё не решена.

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]