Какая команда более надежна для скриптового преобразования кодировки текста?

В настоящее время я использую файл, но я хотел бы убедиться, прежде чем запускать его во всех моих текстовых файлах.

0
Freedo 21 Апр 2020 в 13:02

2 ответа

Лучший ответ

file лучше в двоичных файлах, uchardet лучше в текстовых файлах. Например файл не знает Windows-1250.

1
bu5hman 21 Апр 2020 в 18:25
Но откуда вы знаете, что ucharde лучше для текстовых файлов? Для меня они, кажется, всегда дают разные результаты ... файл часто думает, что это iso-8859-1, а uchardet думает, что это windows-1252.
 – 
Freedo
25 Апр 2020 в 09:17
Я смотрел файл db: есть только правила для юникода.
 – 
Polluks
26 Апр 2020 в 18:24

file — хороший инструмент для определить, или, скорее, угадать кодировку.

Вы можете использовать iconv для изменения кодировки. Полный ответ.

iconv -f ISO-8859-15 -t UTF-8 < input.txt > output.txt
1
limakzi 21 Апр 2020 в 13:48