Как конвертировать байты (UTF-8) в Unicode в PHP?

Как я могу конвертировать

\xF0\x9F\x98\x83

в

\u1F603

в php?

PS: это Emoji -> ��, мне нужен Юникод, чтобы использовать Twemoji.

2

Решение

Интересно, что для PHP не так много. Кажется, есть многообещающий пост, но к сожалению принятый ответ дает неверные результаты в вашем случае.

Итак, вот пересмотренная версия Решение Адама переписан на PHP.

/**
* Translates a sequence of UTF-8 bytes to their equivalent unicode code points.
* Each code point is prefixed with "\u".
*
* @param string $utf8
*
* @return string
*/
function utf8_to_unicode($utf8) {
$i = 0;
$l = strlen($utf8);

$out = '';

while ($i < $l) {
if ((ord($utf8[$i]) & 0x80) === 0x00) {
// 0xxxxxxx
$n = ord($utf8[$i++]);
} elseif ((ord($utf8[$i]) & 0xE0) === 0xC0) {
// 110xxxxx 10xxxxxx
$n =
((ord($utf8[$i++]) & 0x1F) <<  6) |
((ord($utf8[$i++]) & 0x3F) <<  0)
;
} elseif ((ord($utf8[$i]) & 0xF0) === 0xE0) {
// 1110xxxx 10xxxxxx 10xxxxxx
$n =
((ord($utf8[$i++]) & 0x0F) << 12) |
((ord($utf8[$i++]) & 0x3F) <<  6) |
((ord($utf8[$i++]) & 0x3F) <<  0)
;
} elseif ((ord($utf8[$i]) & 0xF8) === 0xF0) {
// 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
$n =
((ord($utf8[$i++]) & 0x07) << 18) |
((ord($utf8[$i++]) & 0x3F) << 12) |
((ord($utf8[$i++]) & 0x3F) <<  6) |
((ord($utf8[$i++]) & 0x3F) <<  0)
;
} elseif ((ord($utf8[$i]) & 0xFC) === 0xF8) {
// 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
$n =
((ord($utf8[$i++]) & 0x03) << 24) |
((ord($utf8[$i++]) & 0x3F) << 18) |
((ord($utf8[$i++]) & 0x3F) << 12) |
((ord($utf8[$i++]) & 0x3F) <<  6) |
((ord($utf8[$i++]) & 0x3F) <<  0)
;
} elseif ((ord($utf8[$i]) & 0xFE) === 0xFC) {
// 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
$n =
((ord($utf8[$i++]) & 0x01) << 30) |
((ord($utf8[$i++]) & 0x3F) << 24) |
((ord($utf8[$i++]) & 0x3F) << 18) |
((ord($utf8[$i++]) & 0x3F) << 12) |
((ord($utf8[$i++]) & 0x3F) <<  6) |
((ord($utf8[$i++]) & 0x3F) <<  0)
;
} else {
throw new \Exception('Invalid utf-8 code point');
}

$n = strtoupper(dechex($n));
$pad = strlen($n) <= 4 ? strlen($n) + strlen($n) %2 : 0;
$n = str_pad($n, $pad, "0", STR_PAD_LEFT);

$out .= sprintf("\u%s", $n);
}

return $out;
}

И в твоем случае

php > var_dump(utf8_to_unicode("\xF0\x9F\x98\x83"));
string(7) "\u1F603"
2

Другие решения

Используйте комбинацию из:

  1. stripcslashes() преобразовать \xFF байт убегает.
    Это приведет к появлению строки UTF-8, потому что это, казалось бы, изначально.

  2. json_encode() преобразовать «��» обратно в \uFFFF Юникод побег.
    Если это то, что вы хотите в конечном итоге. (Недостаточно контекста в вашем вопросе, чтобы сказать.)

1

По вопросам рекламы [email protected]