Итак, у меня есть десятки HTML-файлов, полных исходного кода веб-сайта, которые мне нужно почистить, чтобы найти имена и адреса электронной почты.
В коде сотни строк, которые выглядят так:
<ul class="specialfaa-results">
<li >
<div class="summary-heading">
<h3 class="adviser-name">Mr Joe Bloggs </h3><p class="distance">0.1mi</p>
<div class="clearboth"></div>
<p class="adviser-company mod-content">Joe Bloggs Company Ltd</p>
</div>
<div class="full-profile mg-tp-10" style="display:none; margin-left:3px;">
<div class="mod-content">
<div class="fl-lf yui3-u-1-3">
<div class="yui3-u adv-item adv-map">
<a href="#mapcontainer" class="showGoogle" lng="-1.9111053" lat="52.4771906" title="Business">
</a>
</div>
</div>
<div class="fl-lf yui3-u-2-5">
<div class="yui3-u adv-item adv-email">
<a href="mailto:[email protected]">mailto:[email protected]</a>
</div>
<div class="yui3-u adv-item adv-webpage">
<a href="http://www.joebloggs.co.uk"
Я думаю, что мне нужно изолировать имена и адреса электронной почты, используя Python или, возможно, Excel. Я намерен, наконец, включить эти имена и адреса электронной почты в документ Excel с заголовками «Имя» («Joe Bloggs») и «Адрес электронной почты» ([email protected]). Какой код или процесс я должен использовать, чтобы получить их?
Спасибо, парни! Довольно новый для такого рода вещей и сайта, поэтому любая помощь будет принята с благодарностью.
Хью.
Попробуйте извлечь письмо с помощью регулярных выражений
Других решений пока нет …