Каким образом можно извлечь закладки из PDF-файла в PHP с помощью Smalot / PDFParser?

Question

Каким образом можно извлечь закладки из PDF-файла в PHP с помощью Smalot / PDFParser?

Прямо сейчас я работаю с PHP и Laravel. Моя цель — извлечь максимально возможную информацию из загруженного файла PDF (используя форму и метод POST), такую как метаданные (автор, заголовок и т. Д.), Первая страница (обложка), содержимое каждой страницы и доступные главы ( из закладок).

В настоящее время я использую PDF Parser от smalot Вот но документация охватывает только некоторые основные примеры того, что я уже получил из файла PDF.

Вопрос: Моя текущая проблема заключается в извлечении этих закладок, чтобы выполнить требования главы. Кто-нибудь знает, как извлечь этот тип контента с помощью этого конкретного парсера?

Мой код на данный момент выглядит так:

<table>
<?php
$details  = $PDFfile->getDetails();
// Loop over each property to extract values (string or array).
foreach ($details as $property => $value) {
if (is_array($value)) {
$value = implode(', ', $value);
}
echo '<tr>';
echo '<td><b>'.$property . '</b></td><td>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</td><td>' . $value . "</td>";
echo '</tr>';
}
?>
</table>

Обратите внимание, что это создает только вывод, который выглядит так:

[Producer] => dvips + GNU Ghostscript 7.05
[Creator] => LaTeX with hyperref package
[Title] =>
[Subject] =>
[Author] =>
[Keywords] =>
[Pages] => 11

0

laravel parsing pdf pdf-parsing php

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

У меня нет опыта работы со Smalot, но у меня есть опыт извлечения информации из закладок PDF. Итак, глядя на раздел 12.3.3 PDF ссылка и документацию по smalot, я бы начал с Document getDictionary () и получил из этого словаря запись «Outlines», а затем прошел по дереву, просматривая записи First, Next, Title, Last и Count.

0