mime — PHP Mailparse подавляет не-ascii символы

Я использую Mailparse для анализа и хранения электронной почты в базе данных MySQL. Письма отправляются напрямую в PHP-скрипт. Более 99% писем в систему анализируются правильно. Однако я заметил, что некоторые электронные письма усекаются. Проблема, похоже, заключается в символах Юникода между заголовком и телом сообщения …

Delivered-To: [email protected]
Received: by 10.152.1.193 with SMTP id 1csp311490lao;
Mon, 20 Oct 2014 05:33:31 -0700 (PDT)
Return-Path: <[email protected]>
Received: from vps4596.inmotionhosting.com (vps4596.inmotionhosting.com. [74.124.217.238])
by mx.google.com with ESMTPS id fb7si7786786pab.30.2014.10.20.05.33.30
for <[email protected]>
(version=TLSv1 cipher=RC4-SHA bits=128/128);
Mon, 20 Oct 2014 05:33:30 -0700 (PDT)
Message-ID: <14FBD481E1074C79A706F0C071746F3D@acerDator>
From: =?utf-8?Q?Annelen_geretschl=C3=A4ger?= <[email protected]>
To: "neokio" <[email protected]>
References: <CAEMnOreG=99=qx-ONib=g+3mCQnUHC2kgdu2uBdSav5WP303BA@mail.gmail.com>
In-Reply-To: <CAEMnOreG=99=qx-ONib=g+3mCQnUHC2kgdu2uBdSav5WP303BA@mail.gmail.com>
Subject: This message will be broken
Date: Mon, 20 Oct 2014 14:33:24 +0200
MIME-Version: 1.0
Content-Type: multipart/alternative;
boundary="----=_NextPart_000_0018_01CFEC72.CE424470"X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
X-Mailer: Microsoft Windows Live Mail 14.0.8117.416
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8117.416
X-Source:
X-Source-Args:
X-Source-Dir:

Det här är ett flerdelat meddelande i MIME-format.

------=_NextPart_000_0018_01CFEC72.CE424470
Content-Type: text/plain;
charset="utf-8"Content-Transfer-Encoding: quoted-printable

This is a test ... the above "Det här är" chunk will be cut off at "Det h", and nothing else will arrive.

------=_NextPart_000_0018_01CFEC72.CE424470

Вышеупомянутое будет обрезано сразу после заголовков, и все, что прибывает, является «Det h». Так или иначе, не-ascii символы (ü) заставляют mailparse задыхаться, когда они находятся вне заголовков или составных оболочек. Это может быть 5-летняя шведская версия Microsoft Windows Live Mail, которую использует клиент, испортить заголовки и тому подобное, но это не оправдание, мне нужно иметь возможность получить ее.

Я бегу PHP 5.4.30, который имеет default_charset = "utf-8" в php.ini. Но я заметил, что phpinfo() имел mailparse.def_charset = "us-ascii" по умолчанию, хотя в php.ini для него не было конфига. После добавления строки и установки ее в «utf8», phpinfo() показал utf-8 правильно. Однако ошибка сохраняется. У меня нет идей.

Любые предложения о том, как бороться с этой ошибкой?

2

Решение

Просто идея, которую я упомянул в комментариях … Эта часть связана с разделом сообщения. Если по какой-либо причине декодирование завершается неудачно, содержимое возвращается «как есть». Вы можете попытаться расшифровать его на основе $headers['transfer-encoding']; или оставьте это нетронутым. $email является полным источником сообщений с заголовками. $section данные получены mailparse_msg_get_part (руководство, примеры, Google)

$headers = mailparse_msg_get_part_data($section);
$content = '';

set_error_handler(function() use(&$content, $headers, $email){
$start   = $headers['starting-pos-body'];
$end     = $headers['ending-pos-body'];
$content = substr($email, $start, $end - $start);
});

ob_start();
mailparse_msg_extract_part($section, $email);
$body = ob_get_clean();

restore_error_handler();

if (!empty($content)) $body = $content;

Результат (после некоторых манипуляций я оставляю только те заголовки, которые мне действительно нужны)

["charset"]=>
string(5) "utf-8"["content-charset"]=>
string(5) "utf-8"["content-type"]=>
string(10) "text/plain"["content"]=>
string(108) "This is a test ... the above "Det här är" chunk will be cut off at "Det h", and nothing else will arrive. "
3

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]