Как преобразовать необработанные строки MBCS (SHIFT-JIS) из Windows в UTF-8 в Linux

Я пишу программу для Linux, которая должна взаимодействовать с существующей программой Windows. Я не могу изменить способ работы программы Windows, но я должен интегрироваться с существующими данными. Эта программа будет получать необработанные структуры данных через сетевой сокет TCP. К сожалению, программа windows встраивает необработанные многобайтовые символьные строки в структуры данных и не указывает, какая кодовая страница используется. Это работает нормально для английского языка, но с треском проваливается на нелатинских языках (например, на японском). В лучшем случае, я могу догадаться, что кодовая страница Windows использует. Если я бегу, а моя локаль установлена ​​на «ja» или «ja_JP», я должен предположить, что Windows-машина использует кодовую страницу «SHIFT-JS» … Ужасно, но это жизнь.

ВОПРОС:

Предполагая, что я правильно угадал на кодовой странице, как я могу преобразовать эти необработанные строки символов MBCS в строки UTF-8?

Вот пример необработанных данных:

Отправляемая строка: 私 の ク ラ ス へ よ う こ そ

Данные MBCS, полученные из окон (JP), (в байтах добавляется дополнительный «0x00» для обеспечения нулевого завершения):

char kanji_win_raw_bytes[] =  { 0x8E, 0x84, 0x82, 0xCC, 0x83, 0x4E, 0x83, 0x89, 0x83, 0x58, 0x82, 0xD6, 0x82, 0xE6, 0x82, 0xA4, 0x82, 0xB1, 0x82, 0xBB, 0x00, 0x00, 0x00 };

Насколько я могу судить, строка приходит с компьютера с Windows, использующего кодовую страницу SHIFT-JS. Я пробовал mbsrtowcs ():

const char *ptr = (char*)m_data;
// m_data contains the byte array of MBCS data
if ( m_data != NULL )
{
std::mbstate_t state = std::mbstate_t();

size_t bufflen = std::mbsrtowcs(NULL, &ptr, 0, &state);
if ( bufflen == (size_t)-1 )
{
std::cout << "ERROR! mbsrtowcs() " << strerror(errno) << std::endl;
std::cout << "Error at: " <<  (int32_t)( (char*)ptr - (char*)m_data ) << std::endl;
return;
}

std::vector<wchar_t> wstr(bufflen);
std::cout << "converting " << bufflen << " characters" << std::endl;
std::mbsrtowcs(&wstr[0], &ptr, wstr.size(), &state);
std::wcout << "Wide string: " << &wstr[0] << std::endl
<< "The length, including '\\0': " << wstr.size() << std::endl;
}

Вызов mbsrtowcs () завершается с ошибкой в ​​позиции «0» без преобразования символов.

Затем я попробовал библиотеки iconv, используя кодовую страницу SHIFT-JS:

bytes_converted = 0;
char input[4096] = {0};
char dst[4096] = {0};
char* src = input;
size_t dstlen = sizeof(dst);
size_t srclen = 0;
iconv_t conv = iconv_open("UTF-8", "SHIFT-JIS" );

// make a copy
memcpy( (void*)input, (void*)kanji_win_raw_bytes, sizeof(kanji_win_raw_bytes) );
srclen = sizeof(kanji_win_raw_bytes);

if ( conv != (iconv_t)-1 )
{
bytes_converted = iconv( conv, NULL, NULL, (char**)&dst, &dstlen );
if ( bytes_converted == (size_t) -1 )
{
std::cerr << "ERROR: initializing output buffer: (" << errno << ") " << strerror(errno) << std::endl;
}
bytes_converted = iconv(conv, (char**)&src, &srclen, (char**)&dst, &dstlen);
if ( bytes_converted == (size_t) - 1)
{
std::cerr << "ERROR in conversion: (" << errno << ") " << strerror(errno) << std::endl;
if ( errno == EINVAL )
{
std::cerr << "RESULT: iconv() converted " << bytes_converted << " bytes: [" << dst << "]" << std::endl;
}

}
else
{
std::cerr << "SUCCESS: iconv() converted " << bytes_converted << " bytes: [" << dst << "]" << std::endl;
}
iconv_close(conv);
}
else
{
std::cerr << "ERROR: iconv_open() failed: " << strerror(errno) << std::endl;
}

Iconv segfaults (coredumps) с использованием заданной (японской) строки. Я использовал iconv всего несколько раз, и я считаю, что фрагменты кода (скопированные из онлайн-примеров) верны и, похоже, работают нормально с латинскими языками, использующими аналогичную настройку, но с разными (например, немецкими / французскими) строками mbcs, поступающими с сервера Windows ,

Функции codecvt std :: wstring_convert, похоже, еще не реализованы в linux даже при компиляции с -std = c ++ 11, так что это не представляется возможным.

Заранее благодарим за любую помощь, которую вы можете предоставить.

— Редактировать —

С помощью «myk» я создал пример приложения, которое лучше показывает мою проблему. С его предложениями мне удалось обойти ошибку сегментации, однако строка Windows MBCS не может быть преобразована независимо от выбранной локали.

/**
* MBCS test
*/

#include <stdlib.h>
#include <unistd.h>
#include <stdint.h>
#include <stdio.h>
#include <sys/types.h>
#include <string.h>
#include <errno.h>

#include <clocale>
#include <string>
#include <iostream>// 私のクラスへようこそ   (welcome to my class)
const char* kanji_string = "私のクラスへようこそ";
// This is what raw UTF-8 should look like
uint8_t kanji_utf8_raw_bytes[] = { 0xE7, 0xA7, 0x81, 0xE3, 0x81, 0xAE, 0xE3, 0x82, 0xAF, 0xE3, 0x83, 0xA9, 0xE3, 0x82, 0xB9, 0xE3, 0x81, 0xB8, 0xE3, 0x82, 0x88, 0xE3, 0x81, 0x86, 0xE3, 0x81, 0x93, 0xE3, 0x81, 0x9D };

// This is Windows MBCS using the SHIFT-JS code page
uint8_t kanji_win_raw_bytes[] = { 0x8E, 0x84, 0x82, 0xCC, 0x83, 0x4E, 0x83, 0x89, 0x83, 0x58, 0x82, 0xD6, 0x82, 0xE6, 0x82, 0xA4, 0x82, 0xB1, 0x82, 0xBB, 0x00, 0x00, 0x00 };

int main( int argc, char **argv )
{
std::setlocale(LC_ALL, "en_US.utf8");

std::cout << "KANJI    String  [" << kanji_string << "]" << std::endl;
std::cout << "KANJI UTF-8 Raw  [" << kanji_utf8_raw_bytes << "]" << std::endl;

const char *data = (char*)kanji_win_raw_bytes;
std::mbstate_t state = std::mbstate_t();
size_t result = 0;

wchar_t* buffer = (wchar_t*)malloc( sizeof(wchar_t) * (strlen((char*)data) + 1) );

if ( buffer )
{
result = std::mbsrtowcs(buffer, &data, strlen(data), &state);
if ( result == (size_t)-1 )
{
std::cout << "ERROR! mbsrtowcs() " << strerror(errno) << std::endl;
std::cout << "Error at: " <<  (int32_t)( (char*)data - (char*)kanji_win_raw_bytes ) << std::endl;
}
else
{
std::wcout << "Wide string: [" << buffer << "] " << std::endl;
}
free( buffer );
}

return 0;
}

Примечание: это можно скомпилировать и запустить на Linux / Mac с помощью следующей команды:

g++ mbcs_test.cpp -o mbcs_test && ./mbcs_test

0

Решение

Для mbsrtowcs (), пара вещей:

1) звонок:

size_t bufflen = std::mbsrtowcs(NULL, &ptr, 0, &state);

должно быть что-то вроде:

size_t bufflen = std::mbsrtowcs(buffer, &ptr, strlen(m_data), &state);

предполагая, что вы объявили «буфер» с чем-то вроде:

wchar_t* buffer = (wchar_t*) malloc(sizeof(wchar_t) * (strlen(m_data) + 1));

Третий параметр в mbsrtowcs (), который вы устанавливаете в ноль, — это длина буфера результата, вероятно, поэтому 0 символов преобразуются.

2) Мой опыт показывает, что для работы mbsrtowcs () необходимо использовать setlocale (). Я не могу видеть из фрагмента кода, но предлагаю вам включить что-то вроде:

#include <clocale>

:

std::setlocale(LC_ALL, "en_US.utf8");
2

Другие решения


По вопросам рекламы [email protected]