文字コード

[Linux] ファイルの行数や文字数をカウントする – wc

ファイルの文字数や行数を簡単にカウントできるのがwcコマンドです。
恐らく「Word Count」の略称で、ワールドカップでもトイレでもありませんw

以下のように調査したいファイルのパスを渡すと、ファイルの行数、単語数、バイト数を表示してくれます。

$ wc Linux*.md
      45      86    2384 Linuxの使い方.md
     392    1223   12589 Linuxコマンド.md
      17      17     343 Linux上のアカウント.md
     454    1326   15316 total

注意点として、ファイルの文字コードはUTF-8、改行コードをLFにしておくと安全に(正しく)集計が行えます。

続きを読む

[Linux] 文字コードを変換する

Linux上で文字コードを変換するコマンドといえば、nkficonvの2つ。よく忘れるので備忘録がてらオプションと使い方をメモしておきます。

nkf

実行例1 – 出力する文字コードを指定

入力側の文字コードは自動で判定してくれますので、出力側の文字コードをオプションで指定します。

$ nkf -s foo.txt > foo_sjis.txt
$ cat foo.txt | nkf -s > foo_sjis.txt

続きを読む

[Linux] 文字コードを調べる

指定したテキストファイルの文字コードをLinuxではnkfコマンド、またはfileコマンドで確認することができます。

$ nkf --guess foo.txt
UTF-8 (LF)
$ file foo.txt 
foo.txt: UTF-8 Unicode text

よく忘れるのでメモ。
iconvは変換だけで表示はしてくれないみたいですね。

続きを読む

文字列を文字コードへ変換する – Perl

「文字」を文字コードへ変換するにはord関数を用いれば良いが、「文字列」の場合はどうすれば良いのだろうか?ord関数の使い方を工夫してやれば良い。

単純に1byteずつ置換してやれば良い。この置換時にord関数を用いることになる。
続きを読む