unhtml - remoção da marcação html de um arquivo
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 25 de abril de 2017
A Dicas-L e os outros sites que mantenho são criados a partir de textos formatados com a sintaxe do programa txt2tags, de autoria do Aurélio Jargas. O programa é facílimo de usar e muito poderoso. Como às vezes eu recebo colaborações para a Dicas-L em arquivos html, eu preciso primeiro remover esta marcação para então aplicar a formtação txt2tags.
Para remover a marcação html, eu uso o programa unhtml, de autoria de Kevin Swan.
Seu uso é bastante simples, basta fornecer o nome do arquivo html e direcionar a saida padrão (stdout) para um arquivo:
unhtml arquivo.html > arquivo.txt
Para instalar em sistemas Debian GNU/Linux e derivados, digite:
sudo apt-get install unhtml