После использования pdftotext в моем файле появляется поле с пробелами между символами; поле, которое имеет значение для имени человека.
Большинство записей в порядке, и кажется, что эта проблема обычно встречается в фамилии; хотя имена не отформатированы одинаково. Когда эта проблема возникает, она обычно использует заглавные буквы.
Каково наилучшее решение preg_match или regex для очистки этих имен? Допустимо отключение буквы буквой (например, если к фамилии добавляется начальная буква; возможно ли вообще это предотвратить программно?)
Пример возвращаемых значений:
R U S S E L L, Роберт Т Самуэль Д Е Н Н Я Е С Тимми O 'B R I E N
Я не уверен, но вы можете попробовать это:
$str = preg_replace("~[A-Z']\K ~", '', $str);
Для заглавных букв, за которыми следует пробел или конец строки, найдите это:
([A-Z])( |$)
…и заменить на:
$1
…который должен производить:
RUSSELL, Robert T
Samuel DENNIES
Timmy O' BRIEN