У меня проблема при извлечении арабского текста из PDF.
я использую PdfToText библиотека
Текст появляется на этом рисунке (ΎϬϧϟυϔΣϟΦϳέΎΗ ΏϟΎρϟϡϳΩϘΗΝΫϭϣϧ ΩϳϘϟϡϗέ)
Как я могу решить это? Я старался
<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />
Английские буквы являются частью базового набора символов ASCII, поэтому вывод обычно не вызывает проблем, однако любые другие языки используют различные акценты или даже разные буквы, т.е. Арабский, азбука, греческий и т. Д. Используют буквы из базового набора.
Убедитесь, что все три источника используют одинаковую кодировку:
объявление 1
Проверьте ваш редактор, как он сохраняет сценарии PHP в файловой системе. Способ его настройки отличается от каждого редактора.
объявление 2
Использовать метатег HTML <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
объявление 3
определить кодировку для использования UTF-8
например: pdftotext -enc UTF-8 your.pdf
, Согласно документации класс PdfToText генерирует текст в кодировке UTF8.
Других решений пока нет …