Можно ли получить только некоторые данные из PDF-документа?
Что я хочу сделать подробно, так это экспортировать некоторые данные из рекламной бумаги (в формате pdf) и автоматически получать все продукты и их цены через PHP.
Будет ли это возможно?
Я уже пробовал, читая PDF-файлы напрямую через PHP, но возвращенные данные полностью запутались.
Я также пытался преобразовать PDF в HTML-код, но генерируемый HTML-код содержит гораздо больше, чем просто название продукта и цены. Кроме того, стилизация и размер текста совсем не согласованы, поэтому очень трудно проверить, является ли это «некоторым описанием текста» или «названием продукта».
Вот пример некоторого HTML-кода, сгенерированного из файла PDF:
// Product name 1
<div style="position:absolute;top:250;left:39"><span class="ft2">MGP CD’en 2015 </span></div>
// Product name 1 end
// Price 1
<div style="position:absolute;top:260;left:39"><span class="ft5">139,-</span></div>
// Price 1 end
<div style="position:absolute;top:71;left:124"><span class="ft8">NYHED</span></div>
// Product name 2
<div style="position:absolute;top:375;left:614"><span class="ft9"> vores </span></div>
<div style="position:absolute;top:397;left:614"><span class="ft9">kyllingeinderfilet </span></div>
// Product name 2 end
<div style="position:absolute;top:422;left:614"><span class="ft3">650 g.</span></div>
<div style="position:absolute;top:437;left:614"><span class="ft7">Pr. kg 69,23</span></div>
<div style="position:absolute;top:447;left:614"><span class="ft10">Frit valg</span></div>
// Price 2
<div style="position:absolute;top:464;left:614"><span class="ft11">4</span></div>
<div style="position:absolute;top:464;left:679"><span class="ft11">5</span></div>
<div style="position:absolute;top:464;left:743"><span class="ft11">,-</span></div>
// Price 2 end
<div style="position:absolute;top:250;left:274"><span class="ft12">ÅBENT ALLE DAGE 8.21</span>
Приведенный выше PDF-файл можно посмотреть в Интернете по адресу (код выше — страница справа):
http://www.foetex.dk/ugenstilbud/Pages/Aktuel-tilbudsavis.aspx
Я надеюсь, что кто-то может дать несколько хороших советов о том, как обойти эту проблему.
Кроме того, кто-нибудь знает отличный конвертер «PDF в HTML»? Приведенный выше HTML-код генерируется с помощью бесплатного онлайн-инструмента.
Любая помощь будет оценена.
Задача ещё не решена.
Других решений пока нет …