Expressões regulares para trabalhar com HTML

Reuni algumas expressões regulares úteis para trabalhar com HTML.

Encontra comentários HTML

<!--[\s\S]*?--[ \t\n\r]*>
Testar

Captura o atributo href de links

href[\s]*=[\s]*"[^\n"]*"
Testar

Encontra todos os atributos de uma tag. Ex: src, name, value.

(?:[\w]*) *= *"(?:(?:(?:(?:(?:\\\W)*\\\W)*[^"]*)\\\W)*[^"]*")
Testar

Encontra tags <h1> até <h6>

<h([1-6])>([^<]*)</h([1-6])>
Testar

Encontra tags <a> válidas

^<a[^>]*([^"]*)[^>]*>([ 0-9a-zA-Z]+)</a>$
Testar

Encontra todas as URL's de um texto

(http://|https://)([a-zA-Z0-9]+\.[a-zA-Z0-9\-]+|[a-zA-Z0-9\-]+)\.[a-zA-Z\.]{2,6}(/[a-zA-Z0-9\.\?=/#%&\+-]+|/|)
Testar

Encontra todas as imagens

<[iI][mM][gG][a-zA-Z0-9\s=".]*((src)=\s*(?:"([^"]*)"|'[^']*'))[a-zA-Z0-9\s=".]*/*>(?:</[iI][mM][gG]>)*
Testar

Encontra tudo que está entre as tags especificadas. Mais tags podem ser adicionadas

<(script|style)[^>]*?>(?:.|\n)*?</\s*\1\s*>
Testar

Útil para remover tags HTML

<[^>]*>
Testar

Encontra extensões de arquivos

\.([A-Za-z0-9]{2,5}($|\b\?))
Testar

Se alguém tiver sugestões para mais expressões regulares, comente ou entre em contato.

Abraço e até a próxima!

1 comentário para “Expressões regulares para trabalhar com HTML”

  1. Rodrigo disse:

    tópico muito útil, gostei muito das expressões pré compiladas! obrigado!

Comente você também

* Copie este código:

* Cole ou digite o código aqui:

Google