Как расширить pdf2json (с помощью flexpaper), чтобы он мог распознавать новые / больше символов?

Я использую конвертер pdf2json от flexpaper (ссылка Вот), чтобы попытаться преобразовать файл PDF в JSON.
При преобразовании из PDF в вывод JSON он не распознает определенные символы, такие как длинный дефис ‘-‘. Он распознает нормальный дефис ‘-‘.

Я хочу расширить его, чтобы иметь возможность читать / распознавать эти дополнительные символы.

Я пытался вручную добавить значения в UnicodeCaseTableVector в файле UnicodeTypeTable.cc (добавлено значение 0x2013). Но это не похоже на работу.

Кроме того, в файле TextOutputDev.cc, где необходимо прочитать дефисы в конце строки, чтобы проверить, если предложение / слово в продолжение, код был следующим:

дефис = текст [len — 1] == (Unicode) ‘-‘;

но если я изменю его на (то есть это дефис, даже если это длинный символ дефиса ‘-‘):

дефис = (текст [len — 1] == (Unicode) ‘-‘ || (Unicode) ‘-‘);

ошибка: символ слишком велик для включения буквенного типа символа
дефис = (текст [len — 1] == ((Unicode) ‘-‘ || (Unicode) ‘-‘));

Как добавить этот символ в модуль pdf2json, чтобы он распознавался и отображался в выходных данных JSON?

0

Решение

Задача ещё не решена.

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]