Заменить все относительные URL-адреса абсолютными URL-адресами

Я видел несколько ответов (например, этот), но у меня есть более сложные сценарии, которые я не знаю, как объяснить.

По сути, у меня есть полные документы HTML. Мне нужно заменить каждый относительный URL с абсолютными URL.

Элементы из потенциального HTML выглядят следующим образом, могут быть и другие случаи:

<img src="/relative/url/img.jpg" />
<form action="/">
<form action="/contact-us/">
<a href='/relative/url/'>Note the Single Quote</a>
<img src="//example.com/protocol-relative-img.jpg" />

Желаемый результат будет:

// "//example.com/" is ideal, but "http(s)://example.com/" are acceptable

<img src="//example.com/relative/url/img.jpg" />
<form action="//example.com/">
<form action="//example.com/contact-us/">
<a href='//example.com/relative/url/'>Note the Single Quote</a>
<img src="//example.com/protocol-relative-img.jpg" /> <!-- Unmodified -->

Я не хочу заменять относительные URL протокола, так как они уже функционируют как абсолютные URL. Я придумал какой-то код, который работает, но мне интересно, смогу ли я его немного почистить, так как очень повторы.

Но я должен учитывать значения атрибутов в одинарных и двойных кавычках для src, href, а также action (я пропускаю какие-либо атрибуты, которые могут иметь относительные URL-адреса?), одновременно избегая протоколов относительных URL-адресов.

Вот что у меня так далеко:

// Make URL replacement protocol relative to not break insecure/secure links
$url = str_replace( array( 'http://', 'https://' ), '//', $url );

// Temporarily Modify Protocol-Relative URLS
$str = str_replace( 'src="//', 'src="::TEMP_REPLACE::', $str );
$str = str_replace( "src='//", "src='::TEMP_REPLACE::", $str );
$str = str_replace( 'href="//', 'href="::TEMP_REPLACE::', $str );
$str = str_replace( "href='//", "href='::TEMP_REPLACE::", $str );
$str = str_replace( 'action="//', 'action="::TEMP_REPLACE::', $str );
$str = str_replace( "action='//", "action='::TEMP_REPLACE::", $str );

// Replace all other Relative URLS
$str = str_replace( 'src="/', 'src="'. $url .'/', $str );
$str = str_replace( "src='/", "src='". $url ."/", $str );
$str = str_replace( 'href="/', 'href="'. $url .'/', $str );
$str = str_replace( "href='/", "href='". $url ."/", $str );
$str = str_replace( 'action="/', 'action="'. $url .'/', $str );
$str = str_replace( "action='/", "action='". $url ."/", $str );

// Change Protocol Relative URLs back
$str = str_replace( 'src="::TEMP_REPLACE::', 'src="//', $str );
$str = str_replace( "src='::TEMP_REPLACE::", "src='//", $str );
$str = str_replace( 'href="::TEMP_REPLACE::', 'href="//', $str );
$str = str_replace( "href='::TEMP_REPLACE::", "href='//", $str );
$str = str_replace( 'action="::TEMP_REPLACE::', 'action="//', $str );
$str = str_replace( "action='::TEMP_REPLACE::", "action='//", $str );

Я имею в виду, это работает, но это uuugly, и я думал, что, возможно, есть лучший способ сделать это.

1

Решение

Если я вас правильно понимаю, у вас есть базовая ценность, и вы хотите применить ее только к относительным путям.

Образец Демо

Код: (демонстрация)

$html=<<<HTML
<img src="/relative/url/img.jpg" />
<form action="/">
<a href='/relative/url/'>Note the Single Quote</a>
<img src="//site.com/protocol-relative-img.jpg" />
HTML;

$base='https://example.com';

echo preg_replace('~(?:src|action|href)=[\'"]\K/(?!/)[^\'"]*~',"$base$0",$html);

Выход:

<img src="https://example.com/relative/url/img.jpg" />
<form action="https://example.com/">
<a href='https://example.com/relative/url/'>Note the Single Quote</a>
<img src="//site.com/protocol-relative-img.jpg" />

Разбивка паттернов:

~                      #Pattern delimiter
(?:src|action|href)    #Match: src or action or href
=                      #Match equal sign
[\'"]                  #Match single or double quote
\K                     #Restart fullstring match (discard previously matched characters
/                      #Match slash
(?!/)                  #Negative lookahead (zero-length assertion): must not be a slash immediately after first matched slash
[^\'"]*                #Match zero or more non-single/double quote characters
~                      #Pattern delimiter
1

Другие решения

Я думаю, что <base> Элемент это то, что вы ищете …

https://developer.mozilla.org/en-US/docs/Web/HTML/Element/base

<base> это пустой элемент, который входит в <head>, С помощью <base href="https://example.com/path/" /> скажет все относительные URL в документе для ссылки https://example.com/path/ вместо родительского URL

3

По вопросам рекламы ammmcru@yandex.ru
Adblock
detector