странные слова появляются при извлечении арабского текста из pdf (PdfToText)

Question

странные слова появляются при извлечении арабского текста из pdf (PdfToText)

У меня проблема при извлечении арабского текста из PDF.
я использую PdfToText библиотека
Текст появляется на этом рисунке (΋ΎϬϧϟ΍υϔΣϟ΍ΦϳέΎΗ ΏϟΎρϟ΍ϡϳΩϘΗΝΫϭϣϧ ΩϳϘϟ΍ϡϗέ)
Как я могу решить это? Я старался

<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />

0

pdftotext php

Решение

Другие решения

Других решений пока нет …

Источник

По вопросам рекламы [email protected]

Accepted Answer

Английские буквы являются частью базового набора символов ASCII, поэтому вывод обычно не вызывает проблем, однако любые другие языки используют различные акценты или даже разные буквы, т.е. Арабский, азбука, греческий и т. Д. Используют буквы из базового набора.

Убедитесь, что все три источника используют одинаковую кодировку:

все сценарии PHP, генерирующие вывод
метатег HTML-кодировки
выходной файл, а также

объявление 1
Проверьте ваш редактор, как он сохраняет сценарии PHP в файловой системе. Способ его настройки отличается от каждого редактора.

объявление 2
Использовать метатег HTML <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

объявление 3
определить кодировку для использования UTF-8 например: pdftotext -enc UTF-8 your.pdf, Согласно документации класс PdfToText генерирует текст в кодировке UTF8.

0