Detectar Gêneros de Nomes
Motor de busca semântica que utiliza o Censo IBGE 2022 para identificar o gênero de nomes próprios. Suporta nomes compostos como 'João Silva' e variações ortográficas.
Introdução
O Gender Detect é uma solução técnica projetada para classificar nomes próprios por gênero usando dados estatísticos. Ele combina busca de alto desempenho com correspondência difusa de strings para garantir precisão mesmo com variações ou erros de digitação.
Este motor é otimizado para primeiros nomes e lida com variações através de ponderação semântica.
Como nomes têm forte carga cultural e o gênero é uma questão pessoal, enfatizamos que os resultados retornados por esta API são suposições estatísticas (o "gênero mais provável" de acordo com o censo), e não fatos absolutos.
Exemplos de Busca
Veja abaixo como o motor lida com diferentes formatos de entrada e variações ortográficas:
João
Silva
→
João
O sistema identifica automaticamente o prenome principal.
adrianoo
→
Adriano
A busca difusa (fuzzy) corrige variações comuns de grafia.
Referência da API
A funcionalidade principal é exposta através de um endpoint RESTful.
Detectar Gênero
GET https://gender.linketrack.com/v1/gender
Realiza uma busca por um nome específico.
Para uma documentação interativa e testes diretos, você pode acessar nosso Swagger UI.
| Parâmetro | Tipo | Descrição |
|---|---|---|
name |
String | O nome ou nome completo a ser analisado (Obrigatório). |
curl -X 'GET' \
'https://gender.linketrack.com/v1/gender?name=Douglas' \
-H 'accept: application/json'
Fontes de Dados
Nossa inteligência é alimentada pelo conjunto de dados do Censo IBGE 2022. Este dataset contém dados de ranking e frequência para milhões de cidadãos brasileiros, fornecendo uma base estatística robusta.
Os dados são armazenados em um mecanismo SQLite otimizado para permitir buscas em sub-milisegundos.
Lógica de Probabilidade
A probabilidade é calculada com base na distribuição de frequência de um nome entre os diferentes gêneros encontrados no censo.
A fórmula aplicada é:
P(Gênero) = (Freq_Predominante / Total_Freq) * 100
Onde:
- Freq_Predominante: Número de ocorrências do gênero mais frequente para aquele nome.
- Total_Freq: Soma das ocorrências em todos os gêneros associados ao nome.
Busca Aproximada (Fuzzy)
Quando uma correspondência exata não é encontrada, o mecanismo
utiliza o RapidFuzz com o pontuador WRatio.
- Limiar: Apenas candidatos com índice de
similaridade
≥ 80%são considerados. - Normalização: Nomes são normalizados para letras minúsculas e caracteres especiais são removidos antes da busca.