Я использую конвертер pdf2json от flexpaper (ссылка Вот), чтобы попытаться преобразовать файл PDF в JSON.
При преобразовании из PDF в вывод JSON он не распознает определенные символы, такие как длинный дефис ‘-‘. Он распознает нормальный дефис ‘-‘.
Я хочу расширить его, чтобы иметь возможность читать / распознавать эти дополнительные символы.
Я пытался вручную добавить значения в UnicodeCaseTableVector в файле UnicodeTypeTable.cc (добавлено значение 0x2013). Но это не похоже на работу.
Кроме того, в файле TextOutputDev.cc, где необходимо прочитать дефисы в конце строки, чтобы проверить, если предложение / слово в продолжение, код был следующим:
дефис = текст [len — 1] == (Unicode) ‘-‘;
но если я изменю его на (то есть это дефис, даже если это длинный символ дефиса ‘-‘):
дефис = (текст [len — 1] == (Unicode) ‘-‘ || (Unicode) ‘-‘);
ошибка: символ слишком велик для включения буквенного типа символа
дефис = (текст [len — 1] == ((Unicode) ‘-‘ || (Unicode) ‘-‘));
Как добавить этот символ в модуль pdf2json, чтобы он распознавался и отображался в выходных данных JSON?
Задача ещё не решена.
Других решений пока нет …