парсинг — создание оглавления из Markdown в стеке переполнения

Я хотел бы создать оглавление из Markdown.
Например в stackedit.io https://stackedit.io/editor#table-of-contents когда вы вставляете:

[TOC]

Есть ли способ создать это из уценки?

Например. если у вас есть:

## header 1
## header 2

ToC должен быть:

<ol>
<li><a href="#header1">Header 1</a></li>
<li><a href="#header2">Header 2</a></li>
</ol>

Должен ли я создать свой собственный анализатор уценки, чтобы получить ToC?

11

Решение

Ниже приводится функция, которая выполняет основную работу: она возвращает список найденных заголовков в формате JSON, каждый со своим уровнем и текстом.
Этот элемент JSON может в дальнейшем использоваться для генерации необходимой структуры HTML или чего-либо еще.

Схематически это работает так:

  1. Получить файл уценки в виде строки и нормализовать разрывы строк только \n (это важно для шага № 3 ниже)
  2. Примените простое регулярное выражение /^(?:=|-|#).*$/m с PREG_OFFSET_CAPTURE: так соответствует всем строкам, которые либо:
    • являются «подстилающими» <h1> (когда «=») или <h2> (когда «-«) заголовки
    • названия сами по себе (начинающиеся с «#»)
  3. Итерация совпавших строк:
    • для «underliners» посмотрите исходный файл предыдущей строки, расположенный как строка между текущим смещением строки и предыдущим переводом строки; затем получить уровень от типа подчеркивания и текст из предыдущей строки
    • в противном случае просто получите уровень и текст из самой текущей строки

Вот функция:

function markdown_toc($file_path) {
$file = file_get_contents($file_path);

// ensure using only "\n" as line-break
$source = str_replace(["\r\n", "\r"], "\n", $file);

// look for markdown TOC items
preg_match_all(
'/^(?:=|-|#).*$/m',
$source,
$matches,
PREG_PATTERN_ORDER | PREG_OFFSET_CAPTURE
);

// preprocess: iterate matched lines to create an array of items
// where each item is an array(level, text)
$file_size = strlen($source);
foreach ($matches[0] as $item) {
$found_mark = substr($item[0], 0, 1);
if ($found_mark == '#') {
// text is the found item
$item_text = $item[0];
$item_level = strrpos($item_text, '#') + 1;
$item_text = substr($item_text, $item_level);
} else {
// text is the previous line (empty if <hr>)
$item_offset = $item[1];
$prev_line_offset = strrpos($source, "\n", -($file_size - $item_offset + 2));
$item_text =
substr($source, $prev_line_offset, $item_offset - $prev_line_offset - 1);
$item_text = trim($item_text);
$item_level = $found_mark == '=' ? 1 : 2;
}
if (!trim($item_text) OR strpos($item_text, '|') !== FALSE) {
// item is an horizontal separator or a table header, don't mind
continue;
}
$raw_toc[] = ['level' => $item_level, 'text' => trim($item_text)];
}

// create a JSON list (the easiest way to generate HTML structure is using JS)
return json_encode($raw_toc);
}

Вот результат, который он возвращает из домашняя страница предоставленной вами ссылки:

[
{"level":1,"text":"Welcome to StackEdit!"},
{"level":2,"text":"Documents"},
{"level":4,"text":"<\/i> Create a document"},
{"level":4,"text":"<\/i> Switch to another document"},
{"level":4,"text":"<\/i> Rename a document"},
{"level":4,"text":"<\/i> Delete a document"},
{"level":4,"text":"<\/i> Export a document"},
{"level":2,"text":"Synchronization"},
{"level":4,"text":"<\/i> Open a document"},
{"level":4,"text":"<\/i> Save a document"},
{"level":4,"text":"<\/i> Synchronize a document"},
{"level":4,"text":"<\/i> Manage document synchronization"},
{"level":2,"text":"Publication"},
{"level":4,"text":"<\/i> Publish a document"},
{"level":2,"text":"- Markdown, to publish the Markdown text on a website that can interpret it (**GitHub** for instance),"},
{"level":2,"text":"- HTML, to publish the document converted into HTML (on a blog for example),"},
{"level":4,"text":"<\/i> Update a publication"},
{"level":4,"text":"<\/i> Manage document publication"},
{"level":2,"text":"Markdown Extra"},
{"level":3,"text":"Tables"},
{"level":3,"text":"Definition Lists"},
{"level":3,"text":"Fenced code blocks"},
{"level":3,"text":"Footnotes"},
{"level":3,"text":"SmartyPants"},
{"level":3,"text":"Table of contents"},
{"level":3,"text":"MathJax"},
{"level":3,"text":"UML diagrams"},
{"level":3,"text":"Support StackEdit"}
]
6

Другие решения

Добавление оглавления не является частью обычного синтаксиса уценки или недоступно (пока) во многих больших парсерах уценки.

Однако я добавил автоматическое создание оглавления в мой анализатор уценки:
https://github.com/PeterWaher/IoTGateway/tree/master/Content/Waher.Content.Markdown

Он работает через подключаемый интерфейс для включения мультимедиа с использованием того же синтаксиса, что и при вставке изображений. Мультимедийный модуль выбирается на основе оценок, рассчитанных по предоставленному URL. Это позволяет вам включать видео, аудио, клипы YouTube и т. Д. Также позволяет вставлять оглавление. Ты просто пишешь ![Table of Contents](ToC),

0

По вопросам рекламы [email protected]