Regras contra spam em português

Conjunto de regras (desatualizado) para SpamAssassin para detectar mensagens de spam em português

Em 2003 lancei as primeiras regras para detectar mensagens indesejadas em português para o SpamAssassin. As regras acabaram sendo incorporadas em algumas distribuições Linux. Tentei atualizar o projeto em 2006, mas por pura falta de tempo o projeto acabou não tendo mais atualização.

Enquanto estava montando este novo site pessoal, percebi ainda muitos acessos em busca das antigas regras. Assim, decidi manter aqui os arquivos originais para que possam ser baixados, mesmo sem nenhuma atualização desde 2003.

Montar essas regras significa ser um pouco criativo no conjunto de expressões regulares (regular expressions ou, simplesmente, RegExp) para colocar uma nota no match de cada regra. Assim, a notas de match somadas classifica a mensagem como spam (cada sysadmin define sua nota de corte).

Este projeto foi uma ótima forma de aprender expressões regulares e recomendo para quem quer aprender mais sobre expressões regulares. Acredito que hoje existam coisas mais avançadas de machine learning para classificar mensagens como spam ou não.

Encontrei também algumas pessoas organizaram o projeto como este repositório e outros.

Baixar as regras aqui: br_rules.cf