странные слова появляются при извлечении арабского текста из pdf (PdfToText)

У меня проблема при извлечении арабского текста из PDF.
я использую PdfToText библиотека
Текст появляется на этом рисунке (΋ΎϬϧϟ΍υϔΣϟ΍ΦϳέΎΗ ΏϟΎρϟ΍ϡϳΩϘΗΝΫϭϣϧ ΩϳϘϟ΍ϡϗέ)
Как я могу решить это? Я старался

<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />

0

Решение

Английские буквы являются частью базового набора символов ASCII, поэтому вывод обычно не вызывает проблем, однако любые другие языки используют различные акценты или даже разные буквы, т.е. Арабский, азбука, греческий и т. Д. Используют буквы из базового набора.

Убедитесь, что все три источника используют одинаковую кодировку:

  1. все сценарии PHP, генерирующие вывод
  2. метатег HTML-кодировки
  3. выходной файл, а также

объявление 1
Проверьте ваш редактор, как он сохраняет сценарии PHP в файловой системе. Способ его настройки отличается от каждого редактора.

объявление 2
Использовать метатег HTML <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

объявление 3
определить кодировку для использования UTF-8 например: pdftotext -enc UTF-8 your.pdf, Согласно документации класс PdfToText генерирует текст в кодировке UTF8.

0

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]