RegExp: сопоставить все ссылки, кроме ссылок YouTube с видео

RegExp я построил до сих пор:

(?(DEFINE)
# URL
(?<proto> (https?:)?\/\/)
(?<port> :[0-9]{2,5})
(?<tld> (?:com|net|info|biz|us|org))
(?<path> (\/([a-z0-9+%-]\.?)+)*\/?)
(?<query> \?[a-z+&$_.-][a-z0-9;:@&%=+\/.-]*)
(?<hash> \#[a-z_.-][a-z0-9+$%_.-]*)
(?<subdomain> ([a-z0-9\-\.]+)\.)

# Exceptions
(?<yt_domain> (www\.)?(youtube\.com|youtu\.be)\/)
(?<yt_hash> ([\w-]{10,12})+)
(?<yt_video> \g<proto>?\g<yt_domain>+(watch)?(\/embed\/|\?v=)+\g<yt_hash>+)
)

# Capture
((?!\g<yt_video>+.*)
(\g<proto>?
\g<subdomain>
\g<tld>
\g<port>?
\g<path>?
\g<query>?
\g<hash>?
))

Мне удалось захватить ссылки в любом формате, но по какой-то причине мой негативный взгляд (см. \g<yt_video>) не исключает ссылки на видео YouTube из списка матчей.

Линии, которые должны быть частично или полностью согласованы:

Http: www.google.com/
HTTP // www.google.com /
http://www.google.com/
: //www.google.com/
www.google.com/
www.google.com:8000
www.google.com/?key=value
github.io
www.google.com/abc/def/ijk#123
www.google.com/abc/def/ijk?v=123123123
www.google.com/abc/def/watch?v=1231231231
https://www.youtube.com/channel/UCgeu2xe0XRscaKyvBt3WgmQ
http://www.google.com/?key=value
http://www.youtube.com/

Тем не менее, он должен пропустить (не совпадают строки), которые содержат идентификатор видео YouTube):

http://www.youtube.com/watch?v=B5Gj78s6H7w&Функция = youtu.be
https://www.youtube.com/embed/y19EaW2X7ac
music.youtube.com/embed/y19EaW2X7ac
https://www.youtube.com/watch?v=B5Gj78s6H7w&Функция = youtu.be
https://www.youtube.com/watch?feature=youtu.be&v = B5Gj78s6H7w
https://www.youtu.be/B5Gj78s6H7w&Функция = youtu.be
https://www.youtu.be/B5Gj78s6H7w

Заранее спасибо за помощь или любой намек, почему отрицательный взгляд не отменяет строк.

2

Решение

После некоторого возни с этим, как вы диагностируете НЕ YouTube
Функция состоит в том, чтобы закомментировать оставшуюся часть и посмотреть, что соответствует.

То, что вы должны понимать об утверждениях, — это все, что они говорят
двигатель в том, что в текущей позиции не может быть вещь впереди этого.
Все, что он делает, это продвигает позицию на 1 и пробует снова.
Делает это, пока не доберется до позиции, где утверждение проходит.

Так как у вас нет якорей, он сопоставляет части строки с чем-то другим.

Итак, вы должны пройти этот фрагмент текста, чтобы избежать его частей.

Есть несколько способов обойти это, но, безусловно, самый простой — это соответствовать
(*SKIP) (*FAIL) мимо него.
Двигатель на самом деле не соответствует ему, но он ставит текущую позицию сразу после него
и пытается снова.

Я избавился (или преобразовал в кластеры) ненужные группы захвата.
Добавлен пропуск / сбой, превращение вашего TLD в троичное дерево и форматирование для
чтение целей.

Получить RegexFormat 8 который делает это для вас и имеет
встроенный движок для тестирования регулярных выражений.

Обратите внимание, что это (?: [\w-]{10,12} )+ имеет гранулярность 10-12 символов за раз. В то время как [\w-]{10,} будет соответствовать> 10 символов. Это в <yt_hash> функция. И называя это этим (?&yt_hash)+, квантификатор является избыточным / бесполезным.

Так как теперь он успешно пропускает некоторые вызовы (?&yt_video) .*
вам придется исследовать части этой функции, чтобы понять, почему
соответствовать, и, следовательно, ПРОПУСКАТЬ другие.

Здесь это сжато

https://regex101.com/r/pOq3Hc/1

/(?i)(?(DEFINE)(?<proto>(?:https?:)?\/\/)(?<port>:[0-9]{2,5})(?<tld>(?:a(?:[cd]|e(?:ro)?|[fgil-oqr]|s(?:ia)?|[tuwxz])|b(?:[abd-h]|iz?|[jl-oq-tvwyz])|c(?:at?|[cdf-ik-n]|o(?:m|op)?|[ru-z])|d[ejkmoz]|e[ceghr-u]|f[i-kmor]|g[abd-il-np-uwy]|h[kmnrtu]|i(?:[delm]|n(?:fo|t)?|[oq-t])|j(?:[em]|o(?:bs)?|p)|k[eg-imnprwyz]|l[a-cikr-vy]|m(?:[ac-hk]|lc?|[mn]|o(?:bi)?|[p-t]|u(?:seum)?|[v-z])|n(?:a(?:me)?|c|et?|[fgilopruz])|o(?:m|rg)|p(?:[ae-hk-n]|ost|ro?|[stwy])|qa|r[eosuw]|s(?:[a-eg-or]|t(?:udio)?|[uvx-z])|t(?:[cd]|el|[f-hj-p]|r(?:avel)?|[tvwz])|u[agkmsyz]|v[aceginu]|w[fs]|y[et]|z[amw]))(?<path>(\/(?:[a-z0-9+%-]\.?)+)*\/?)(?<query>\?[a-z+&$_.-][a-z0-9;:@&%=+\/.-]*)(?<hash>\#[a-z_.-][a-z0-9+$%_.-]*)(?<subdomain>[a-z0-9\-\.]+\.)(?<yt_domain>(?:www\.)?(?:youtube\.com|youtu\.be)\/)(?<yt_hash>(?:[\w-]{10,12})+)(?<yt_video>(?&proto)?(?&yt_domain)+(?:watch)?(?:\/embed\/|\?v=)+(?&yt_hash)+))((?&yt_video).*(*SKIP)(*FAIL)|(?&proto)?(?&subdomain)(?&tld)(?&port)?(?&path)?(?&query)?(?&hash)?)/

И расширен

 (?i)
(?(DEFINE)
# URL
(?<proto>                                          # (1 start)
(?: https?: )?
//
)                                                  # (1 end)
(?<port> : [0-9]{2,5} )                            # (2)
(?<tld>                                            # (3 start)
(?:
a
(?:
[cd]
|  e
(?: ro )?
|  [fgil-oqr]
|  s
(?: ia )?
|  [tuwxz]
)
|  b
(?: [abd-h] | iz? | [jl-oq-tvwyz] )
|  c
(?:
at?
|  [cdf-ik-n]
|  o
(?: m | op )?
|  [ru-z]
)
|  d [ejkmoz]
|  e [ceghr-u]
|  f [i-kmor]
|  g [abd-il-np-uwy]
|  h [kmnrtu]
|  i
(?:
[delm]
|  n
(?: fo | t )?
|  [oq-t]
)
|  j
(?:
[em]
|  o
(?: bs )?
|  p
)
|  k [eg-imnprwyz]
|  l [a-cikr-vy]
|  m
(?:
[ac-hk]
|  lc?
|  [mn]
|  o
(?: bi )?
|  [p-t]
|  u
(?: seum )?
|  [v-z]
)
|  n
(?:
a
(?: me )?
|  c
|  et?
|  [fgilopruz]
)
|  o
(?: m | rg )
|  p
(?: [ae-hk-n] | ost | ro? | [stwy] )
|  qa
|  r [eosuw]
|  s
(?:
[a-eg-or]
|  t
(?: udio )?
|  [uvx-z]
)
|  t
(?:
[cd]
|  el
|  [f-hj-p]
|  r
(?: avel )?
|  [tvwz]
)
|  u [agkmsyz]
|  v [aceginu]
|  w [fs]
|  y [et]
|  z [amw]
)

)                                                  # (3 end)
(?<path>                                           # (4 start)
(                                                  # (5 start)
/
(?: [a-z0-9+%-] \.? )+
)*                                                 # (5 end)
/?
)                                                  # (4 end)
(?<query> \? [a-z+&$_.-] [a-z0-9;:@&%=+/.-]* )     # (6)
(?<hash> \# [a-z_.-] [a-z0-9+$%_.-]* )             # (7)
(?<subdomain>                                      # (8 start)
[a-z0-9\-\.]+
\.
)                                                  # (8 end)

# Exceptions
(?<yt_domain>                                      # (9 start)
(?: www\. )?
(?: youtube\.com | youtu\.be )
/
)                                                  # (9 end)
(?<yt_hash>                                        # (10 start)
(?: [\w-]{10,12} )+
)                                                  # (10 end)
(?<yt_video>                                       # (11 start)
(?&proto)? (?&yt_domain)+
(?: watch )?
(?: /embed/ | \?v= )+
(?&yt_hash)+
)                                                  # (11 end)
)

# Capture
(                                                  # (12 start)
(?&yt_video) .*
(*SKIP) (*FAIL)
|
(?&proto)?
(?&subdomain)
(?&tld)
(?&port)?
(?&path)?
(?&query)?
(?&hash)?
)                                                  # (12 end)
1

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]