Нужно исправить это регулярное выражение, которое извлекает атрибуты html в массив для меня функцией preg_mach_all в php:
(\S+)=["']?((?:.(?!["']?\s+(?:\S+)=|[>"']))+.)["']?
Пример атрибутов:
style="width: 462px;" src=".......=" data-filename="Screenshot from 2016-02-09 21:54:47.png"
рабочий пример в finddle: https://regex101.com/r/QE9XGD/1
из-за знака равенства в конце src
атрибут, я получил неправильный массив:
Array
(
[0] => Array
(
[0] => style="width: 462px;"[1] => src=".......=" data-filename=")
[1] => Array
(
[0] => style
[1] => src=".......
)
[2] => Array
(
[0] => width: 462px;
[1] => data-filename=
)
)
правильный массив должен быть таким:
Array
(
[0] => Array
(
[0] => style="width: 462px;"[1] => src=".......="[2] => data-filename="Screenshot from 2016-02-09 1:54:47.png")
[1] => Array
(
[0] => style
[1] => src
[2] => data-filename
)
[2] => Array
(
[0] => width: 462px;
[1] => .......=
[2] => Screenshot from 2016-02-09 1:54:47.png
)
)
Как исправить это регулярное выражение, чтобы получить правильный ответ?
Помните, что я использую это регулярное выражение не только для извлечения атрибутов изображения, это универсальное регулярное выражение для всех типов HTML-тегов
(\S+?)=["']?((?:.(?!["']?\s+(?:\S+)=|[>"']))+.)["']?
Изменение заключается в оценке имени атрибута ленивый, так что ест только пока не найдет =
,
Рабочий пример на regex101
При этом я вполне уверен, что это регулярное выражение может быть сокращено.
([^\s=]+)=('?)("?)([^>"']*)\2\3
это, наверное, лучший вариант:
Это займет около 2% времени ленивой оценки и будет выполнять как одиночные, так и двойные кавычки. Большое изменение здесь — группы захвата, которые вы хотите — 1-й и 4-й. Насколько я знаю, это будет работать на любом HTML Кроме: tag='"value'
Других решений пока нет …