file io — Как читать символы WCP-1252 в C ++?

Я немного погуглил, но не смог найти четкого ответа (возможно, не используя правильную терминологию?)

В любом случае, у меня есть несколько текстовых файлов в формате ANSI (WCP-1252), символы которых я хочу обработать в программе на C ++, но дело в том, что я не знаю, как хранить 2-байтовые символы, которые соответствуют десятичным кодам 128 через на 255. Просто чтобы быть уверенным, хотя, я попробовал следующий код:

ifstream infile("textfile.txt");
char c;
infile>>c;                           //also tried infile.get(c);
cout<<c;

Неудивительно, что 1-байтовый символ не смог сохранить какой-либо символ из расширенного набора после 0x7F (я думаю, что он просто отображал символ ASCII, соответствующий значению первого байта, и отбрасывал второй или наоборот).

0

Решение

WCP-1252 представлен в 8-битном формате, но некоторые символы не являются частью ASCII. Я предлагаю вам написать таблицу преобразования из WCP-1252 в wchar_t. Читайте char за char и конвертируйте в wchar_t.
Вы можете написать карту< uint8_t, wchar_t>. Например:

wchar_t WCP1252Towc( char ch )
{
static map< char, wchar_t > table
{

{0x30, L'0' },
{0x31, L'1' },
// ..
{0x39, L'9'},

{0x40, L'A'},
// ...
{0x5A, L'Z'},

{0x61, L'a'},
// ...
{0x7A, L'z'},

// ...
};

return table[ ch ];
};

wstring WCP1252sTowcs( string str )
{
const auto len = str.size();
wstring res( len, L'\0' );

for( size_t i = 0; i < len; ++i )
res[ i ] = WCP1252Towc( str[ i ] );

return res;
}

ifstream infile("textfile.txt");
string line; getline( infile, line );
auto unicode = WCP1252sTowcs( line );
wcout << unicode;
0

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]