я использую этот код для преобразования PDF в текст, он работает нормально, но не поддерживает шведский символ,
лайк:
correect swedish word = incorrect word
Förnamn = Fšrnamn,
Försäljningsdatum = FšrsŠljningsdatum,
varumärket = varumŠrket,
terförsäljaruppgifter = terfšrsŠljaruppgifter
код является:
<?php
require_once "pdf.pdf2text.inc";
$filename = "customerfile.pdf";
$pdf = new Pdf(urldecode($filename));
print utf8_decode($pdf->getText());//with utf-8
print $pdf->getText(); //without utf-8
?>
я добавил utf-8 закодированный / декодированный, но он не работает.
используя этот код
пожалуйста, помогите мне или предложите мне показать правильный текст (слова), используя этот код.
заранее спасибо.
iconv();
может быть возможность http://php.net/manual/fr/function.utf8-decode.php
$myUnicodeString = "Åäö";
как говорят некоторые комментарии
echo iconv("UTF-8", "ISO-8859-1", $myUnicodeString);UTF-8_decode();
недостаточно для обработки акцентов.
Согласно комментарию на Drupal.org от Saubhagya:
добавьте восьмеричные и юникодные эквиваленты нужных символов в массив $ _pdfDocToUni, строка 18, файл initialize.pdf2text.inc (помните, что восьмеричные должны быть в 3-х цифрах, как и в других записях массива).
Затем просто перейдите в строку 335 файла pdf2text.module и добавьте своего персонажа в том же формате, что и другие.
https://www.drupal.org/node/1079780
Не уверен насчет использования слова «просто», но это может помочь …
Похоже, это тот модуль, о котором он говорит, и в нем есть упомянутый массив — возможно, в вашей версии могут отсутствовать модули — кажется, их много в продаже.
http://cgit.drupalcode.org/pdf2text/tree/pdf2text.module?id=a15059bc1531aa336fef255397ba362c81c9fce5
Других решений пока нет …