Мне нужно очистить десятки сохраненных HTML-документов для имен и адресов электронной почты

Итак, у меня есть десятки HTML-файлов, полных исходного кода веб-сайта, которые мне нужно почистить, чтобы найти имена и адреса электронной почты.

В коде сотни строк, которые выглядят так:

              <ul class="specialfaa-results">

<li >
<div class="summary-heading">
<h3 class="adviser-name">Mr Joe Bloggs </h3><p class="distance">0.1mi</p>
<div class="clearboth"></div>
<p class="adviser-company mod-content">Joe Bloggs Company Ltd</p>
</div>


<div class="full-profile mg-tp-10" style="display:none; margin-left:3px;">
<div class="mod-content">

<div class="fl-lf yui3-u-1-3">
<div class="yui3-u adv-item adv-map">
<a href="#mapcontainer" class="showGoogle" lng="-1.9111053" lat="52.4771906" title="Business">

</a>
</div>
</div>

<div class="fl-lf yui3-u-2-5">
<div class="yui3-u adv-item adv-email">
<a href="mailto:[email protected]">mailto:[email protected]</a>
</div>
<div class="yui3-u adv-item adv-webpage">
<a href="http://www.joebloggs.co.uk"

Я думаю, что мне нужно изолировать имена и адреса электронной почты, используя Python или, возможно, Excel. Я намерен, наконец, включить эти имена и адреса электронной почты в документ Excel с заголовками «Имя» («Joe Bloggs») и «Адрес электронной почты» ([email protected]). Какой код или процесс я должен использовать, чтобы получить их?

Спасибо, парни! Довольно новый для такого рода вещей и сайта, поэтому любая помощь будет принята с благодарностью.

Хью.

-3

Решение

Попробуйте извлечь письмо с помощью регулярных выражений

Извлечение писем из HTML с помощью регулярных выражений

https://gist.github.com/dideler/5219706

0

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]