Docs executáveis de JavaScript: Regex

Q: Como criar uma regex em JavaScript?

Tem dois jeitos. A forma literal usa barras: /hello/i. Já o construtor recebe uma string: new RegExp('hello', 'i'). Use a literal quando o padrão é fixo e o construtor quando precisar montar o padrão a partir de uma variável em tempo de execução.

Q: Qual a diferença entre test, match e exec em regex no JavaScript?

regex.test(str) devolve um booleano - é o mais rápido quando você só quer saber se existe correspondência. str.match(regex) retorna um array com as correspondências (ou null). Já regex.exec(str) devolve uma correspondência por vez, com os grupos de captura, e, com a flag g, guarda a posição entre chamadas via lastIndex.

Q: Como substituir todas as ocorrências com regex em JavaScript?

Use a flag g: str.replace(/foo/g, 'bar'). Sem o g, só a primeira ocorrência é trocada. Também dá pra chamar str.replaceAll(/foo/g, 'bar') - mas atenção: o replaceAll com regex exige a flag g, caso contrário ele lança um erro.

Q: O que são grupos de captura na regex do JavaScript?

Parênteses dentro do padrão criam grupos de captura que guardam o que foi correspondido. /(\d{4})-(\d{2})/.exec('2024-11') retorna um array em que o índice 1 é '2024' e o índice 2 é '11'. Dá pra nomear os grupos com (? \d{4}) e acessar via match.groups.year.

Uma Regex é um Padrão para Encontrar Texto

Expressões regulares descrevem formatos de strings: "quatro dígitos", "uma palavra seguida de vírgula", "qualquer coisa parecida com um e-mail". O JavaScript oferece duas formas de criar uma regex:

const literal = /hello/i;
const built = new RegExp("hello", "i");

console.log(literal.test("Hello, world"));
console.log(built.test("HELLO"));

A forma literal - com barras em volta do padrão e as flags logo depois da barra final - é o que você vai usar na maior parte do tempo. Deixe o new RegExp(...) para quando o próprio padrão for dinâmico, tipo quando você precisa montá-lo a partir da entrada do usuário ou de uma variável.

O i no final é uma flag. Ele indica que a busca ignora maiúsculas e minúsculas. Já já a gente fala mais sobre flags.

test: a string bate com o padrão?

A pergunta mais simples que dá para fazer a uma regex em JavaScript é: "essa string contém alguma ocorrência do padrão?". É aí que entra o test:

const hasDigit = /\d/;

console.log(hasDigit.test("abc123"));
console.log(hasDigit.test("abcdef"));
console.log(hasDigit.test(""));

\d significa "qualquer dígito". O test devolve true ou false, e mais nada. Quando você só precisa de uma resposta do tipo sim ou não - validar um campo, filtrar um array - o test é a ferramenta certa.

match: extraindo o texto que casou

Quando o que você quer é o próprio texto que deu match, use o método match da string:

const text = "Pedido #4521 enviado em 2024-11-03";

console.log(text.match(/\d+/));
console.log(text.match(/\d+/g));

Sem a flag g, o match devolve um array com a primeira correspondência mais alguns metadados (index, input). Já com a flag g, ele retorna todas as ocorrências num array simples de strings. Quando nada bate com o padrão, o retorno é null - e não um array vazio -, então vale a pena se proteger contra isso:

const result = "no numbers here".match(/\d+/);
console.log(result ?? "sem correspondência");

Flags mudam o comportamento do pattern

As flags vêm depois da barra final e ajustam como o match acontece. As que você mais vai usar no dia a dia:

g - global, encontra todas as ocorrências em vez de parar na primeira.
i - ignora maiúsculas e minúsculas.
m - multilinha, faz ^ e $ casarem com início e fim de cada linha, e não só da string inteira.
s - dotall, permite que . também case com quebras de linha.
u - modo unicode, essencial para muitos emojis e caracteres fora do ASCII.

const poem = "Roses are red\nViolets are blue";

console.log(poem.match(/^\w+/));
console.log(poem.match(/^\w+/gm));

Sem o m, o ^ só casa com o início absoluto da string. Já com o m, ele passa a casar com o início de cada linha, então tanto Roses quanto Violets são capturados.

Classes de caracteres e quantificadores

Esses são os blocos básicos que formam a maioria das expressões regulares:

\d dígito, \w caractere de palavra (letra, dígito ou underscore), \s espaço em branco.
[abc] um dos caracteres a, b ou c. [^abc] qualquer coisa menos esses. [a-z] define um intervalo.
. qualquer caractere, exceto quebra de linha.
* zero ou mais, + um ou mais, ? zero ou um.
{3} exatamente três, {2,5} entre dois e cinco, {2,} dois ou mais.
^ início, $ fim.

Juntando tudo:

const patterns = {
  phone: /^\d{3}-\d{3}-\d{4}$/,
  hex: /^#[0-9a-f]{6}$/i,
  word: /\b\w+\b/g,
};

console.log(patterns.phone.test("415-555-0132"));
console.log(patterns.hex.test("#1a2B3c"));
console.log("hello, regex world".match(patterns.word));

\b é a borda de palavra - aquela linha invisível entre um caractere de palavra e um que não é. Serve bastante quando você quer casar a palavra inteira, sem pegar pedaços.

Grupos de captura: guardando partes do match

Os parênteses criam um grupo que captura o que foi encontrado ali dentro. Tanto exec quanto match devolvem essas capturas junto com o match principal:

const date = /(\d{4})-(\d{2})-(\d{2})/;
const result = "today is 2024-11-03".match(date);

console.log(result[0]);
console.log(result[1]);
console.log(result[2]);
console.log(result[3]);

O índice 0 guarda o match completo, e cada grupo ocupa uma posição própria depois dele. Ficar contando grupos pela posição vira uma dor de cabeça quando você tem mais de dois, então dê nomes a eles:

const date = /(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/;
const { groups } = "today is 2024-11-03".match(date);

console.log(groups.year, groups.month, groups.day);

Grupos nomeados deixam o código mais legível na hora de usar e continuam funcionando mesmo se você reorganizar o padrão.

replace: reescrevendo o texto encontrado

O replace recebe um padrão e uma substituição. Essa substituição pode ser tanto uma string quanto uma função:

const text = "Contact: alice@example.com or bob@example.com";

console.log(text.replace(/@example\.com/, "@acme.io"));
console.log(text.replace(/@example\.com/g, "@acme.io"));

Sem a flag g, só a primeira ocorrência é substituída. Um erro clássico é esquecer dessa flag e ficar se perguntando por que o segundo e-mail continua errado.

A string de substituição aceita retrovisores (back-references). Use $1, $2 e assim por diante para se referir aos grupos de captura; para grupos nomeados, use $<nome>:

const date = /(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/;

console.log("2024-11-03".replace(date, "$<day>/$<month>/$<year>"));

Para casos mais elaborados do que uma simples troca, passe uma função. Ela recebe o match e os grupos de captura como argumentos:

const prices = "Apples $3, Pears $5, Plums $2";

const doubled = prices.replace(/\$(\d+)/g, (_, n) => `$${Number(n) * 2}`);
console.log(doubled);

O underscore representa o match completo (que não precisamos aqui); n é o primeiro grupo de captura. Esse padrão - regex combinada com função substituta - resolve a maior parte das manipulações de texto do dia a dia.

matchAll: cada ocorrência com seus grupos de captura

O String.prototype.matchAll devolve um iterador com todos os matches junto com seus grupos de captura - algo que o match com a flag g sozinho não consegue entregar:

const text = "alice@acme.io and bob@example.com";
const email = /(?<user>\w+)@(?<domain>[\w.]+)/g;

for (const m of text.matchAll(email)) {
  console.log(m.groups.user, "em", m.groups.domain);
}

matchAll só funciona com a flag g. Sem ela, você toma um TypeError na cara. Se precisar acessar os resultados por índice em vez de iterar, use o spread para jogar tudo num array ([...text.matchAll(email)]).

Escapando caracteres especiais

Caracteres como . * + ? ( ) [ ] { } | \ ^ $ têm significado especial dentro de uma expressão regular. Para casar com eles de forma literal, basta escapar com uma contrabarra:

const withDot = /example\.com/;
const withoutDot = /example.com/;

console.log(withDot.test("example.com"));
console.log(withDot.test("examplexcom"));
console.log(withoutDot.test("examplexcom"));

A versão sem escape casa com examplexcom, porque o . significa "qualquer caractere". Esse tipo de bug é comum - e passa despercebido. Se uma regex estiver casando demais, o primeiro suspeito é um . sem escape.

Quando você monta um padrão a partir de entrada do usuário, é obrigatório fazer o escape, senão o usuário pode injetar sintaxe de regex:

function escape(str) {
  return str.replace(/[.*+?^${}()|[\]\\]/g, "\\$&");
}

const userInput = "3.14";
const safe = new RegExp(escape(userInput));
console.log(safe.test("pi is 3.14"));
console.log(safe.test("pi is 3x14"));

$& na string de substituição é um atalho que significa "a correspondência inteira".

Lookahead e lookbehind

Às vezes você quer casar um trecho de texto só quando ele vier seguido (ou precedido) de alguma coisa - sem incluir essa coisa no match. É exatamente isso que os lookarounds fazem:

const prices = "items cost 10 USD, 25 EUR, 7 GBP";

console.log(prices.match(/\d+(?= USD)/));
console.log(prices.match(/(?<=\$)\d+/));

(?= ...) lookahead positivo: "seguido por".
(?<= ...) lookbehind positivo: "precedido por".
(?! ...) e (?<! ...) são as versões negativas.

Os lookarounds não consomem caracteres, ou seja, o trecho que você está "olhando" continua disponível para a próxima parte do padrão.

Uma palavrinha sobre validação de e-mail

Esse tema aparece com frequência: "me passa uma regex pra validar e-mail". A resposta sincera é: não faça isso. A gramática real de e-mails é bem complicada, e qualquer regex curta o suficiente para ser lida vai estar errada em algum aspecto. Para validação de formulário, um padrão pragmático já resolve:

const emailish = /^[^\s@]+@[^\s@]+\.[^\s@]+$/;

console.log(emailish.test("alice@acme.io"));
console.log(emailish.test("not an email"));
console.log(emailish.test("a@b"));

Leia assim: "alguns caracteres que não são espaço em branco nem @, um @, mais caracteres do mesmo tipo, um ponto, mais caracteres do mesmo tipo." Isso já pega os erros de digitação mais óbvios sem tentar bancar o RFC 5322. Para validação de verdade, mande um e-mail de confirmação.

Armadilhas comuns

Algumas pegadinhas que vale a pena gravar:

Esquecer a flag g no replace ou no matchAll. Você acaba pegando só a primeira ocorrência - ou toma um TypeError na cara.
lastIndex com estado em regex global. Uma regex com a flag g ou y guarda onde parou entre as chamadas de test/exec. Não reutilize a mesma instância em strings diferentes - crie uma nova ou use matchAll.
Pontos e barras sem escape em padrões dinâmicos. Sempre escape a entrada do usuário antes de jogar dentro de new RegExp(...).
Backtracking catastrófico. Quantificadores aninhados tipo (a+)+ em entradas maliciosas conseguem travar a aba inteira. Se uma regex parece lenta, simplifique.

A seguir: datas e horários

Regex cuida do formato do texto; mas dados reais também vêm com timestamps que precisam ser parseados, formatados e manipulados em cálculos. A próxima página mostra Date, Intl.DateTimeFormat e o modelo mental que evita dor de cabeça com fuso horário.

Perguntas frequentes

Como criar uma regex em JavaScript?

Tem dois jeitos. A forma literal usa barras: /hello/i. Já o construtor recebe uma string: new RegExp('hello', 'i'). Use a literal quando o padrão é fixo e o construtor quando precisar montar o padrão a partir de uma variável em tempo de execução.

Qual a diferença entre test, match e exec em regex no JavaScript?

regex.test(str) devolve um booleano - é o mais rápido quando você só quer saber se existe correspondência. str.match(regex) retorna um array com as correspondências (ou null). Já regex.exec(str) devolve uma correspondência por vez, com os grupos de captura, e, com a flag g, guarda a posição entre chamadas via lastIndex.

Como substituir todas as ocorrências com regex em JavaScript?

Use a flag g: str.replace(/foo/g, 'bar'). Sem o g, só a primeira ocorrência é trocada. Também dá pra chamar str.replaceAll(/foo/g, 'bar') - mas atenção: o replaceAll com regex exige a flag g, caso contrário ele lança um erro.

O que são grupos de captura na regex do JavaScript?

Parênteses dentro do padrão criam grupos de captura que guardam o que foi correspondido. /(\d{4})-(\d{2})/.exec('2024-11') retorna um array em que o índice 1 é '2024' e o índice 2 é '11'. Dá pra nomear os grupos com (?<year>\d{4}) e acessar via match.groups.year.

Conceitos relacionados

Experimente uma ferramenta relacionada

Ferramentas gratuitas do navegador que colocam este conceito em prática.

Regex TesterTest regular expressions with animated match highlighting.

Regex em JavaScript: test, match, replace e grupos