情報とは何か。なぜビットでなくバイトか
クロード・シャノンの定義
コンピューターが取り扱う情報の、最小単位をビットという。
『bit(ビット)』とは、binary digit(2進数)の略。
この言葉自体は1943年に、統計学者のジョン・W・テューキーが論文に初めて使ったのが広まったのだとされている。
情報理論においては、ビットでなく『シャノン』が使われる場合もある。
シャノンというのは、アメリカの数学者の名前でもある。
その人、クロード・シャノン(1916〜2001)は、コンピューターが取り扱う情報という概念を、明確に定義した人とされている。
彼の定義によると、情報とは「変化するパターンの中から選択できるもの」。
例えば、「今日の晩御飯」というのは、晩御飯のメニューが確定的に決まった一種(例えば必ずカレーであるとか)でないならば、情報という訳である。
情報の定義に、選択が必要であるなら、最小の選択こそ、最小の情報と言えよう。
最小の選択とは、つまり、「yesかno」というような2択である。
「コンピューターの構成の基礎知識」1と0の極限を目指す機械
1バイトは8ビット
コンピューターのひとつの『素子』は、電圧がかかってるか、かかってないかの2択の状態を取れる。
「電磁気学」最初の場の理論。電気と磁気の関係
その2択をいくつも組み合わせる事で、情報を複雑化、あるいは複雑な情報を取り扱う。
普通は、0or1とされるが、この0と1に様々な2択情報を当てはめる。
ビットとは、そうした最小情報の事である。
ただし、普通、コンピューターで扱うデータ量は、バイト(byte)という単位で表される。
1バイトは8ビットである。
byteは、物を噛りとったまとまりというイメージから、bite(噛む)をもじった造語とされる。
1バイトは、00000000から11111111までの256パターンの変化を表現出来る量。
なぜデータ量をバイトで表すのかというと、基本的にメモリーが、バイト単位で情報を区切り、記憶しているからとされる。
情報の符号化。あらゆる情報の数値コード化
文字コードの文字化けはなぜ起こるのか
コンピューターは計算機であるから当たり前だが、コンピューターが扱うどんな情報も、その内部においては数値化して扱っている。
情報の数値への置き換えを『符号化(encoding)』と言う。
そして、数値に置き換えられた情報を『コード』と言う。
特に、文字で数値を表したものを『文字コード(Character code)』。
色を数値で表したものを『色コード(Color code)』と言う
ここで、厄介な問題が、ある情報のコードは、なんでもよいという訳である。
例えば「あ」という字の文字コードは「01」でもよいし、「001110」でもいい。
しかし、あらゆるコンピューター、ソフトウェアが好き勝手に文字コードを決めてたら、当然それらのコンピューター同士、ソフトウェア同士でコードをやり取りした時に、文字がおかしくなる。
「ブラウザ」WEB表示の仕組み。レンダリングはいかにして行われるか?
実際にそうゆう事は起こる。
それが『文字化け』と呼ばれる現象である。
そこで、なるべく文字化けが起こらないよう、ある程度、標準の文字コードというのが定められている。
固定長符号、可変調符号のメリット、デメリット
ある情報を符号化する場合、主に二通りの方法があるとされる。
例えば恒星、惑星、準惑星、小惑星を符号化するとする。
「太陽と太陽系の惑星」特徴。現象。地球との関わり。生命体の可能性
ひとつの方法が、恒星=00、惑星=01、準惑星=10、小惑星=11というように、 同じだけの数のビットを当てはめる、『固定長符号(Fixed codeword length coding)』
もうひとつの方法が、恒星=1、惑星=10、準惑星=100、小惑星=1000というように、情報ごとにビット数の長さを変える『可変長符号(variable-length code)』。
一般に、可変長符号の方が、 処理が面倒とされているが、しかし、こちらは情報ごとのビットサイズが異なるため、頻繁に使う情報を少ないビットにすることにより、情報全体のサイズを下げることが可能。
なぜASCIIコードの削除、無効文字は1111111なのか
1963年に、『ANSI(米国規格協会)』により制定された『ASCII(アスキー)コード』は、標準文字コード体系の元祖ともされる。
基本的にASCIIコードは、1文字を7ビットで表す。
7ビットは、0000000〜1111111までの128通りの数値であり、ASCIIコードは、その128通りを、アルファベットの、大文字、小文字、十進法表記に必要な数字(1〜9)、記号に割り当てている。
文字削除、あるいは無効文字は1111111であるが、実はこれには事情がある。(空白は0100000)
ASCIIコードが考案された時代には、情報を記録するのに、USBやディスクなんて使われておらず、紙のカードやテープが使われていた。
そして、1ビットを紙に穴が空いてるか、空いてないかで表していたのである。
つまり、●(穴有り)と○(穴無し)の、●が1、○が0であった。
しかし、紙の穴は、一度開けてしまったら、そう簡単に修復、やり直しが効かない。
そこで、ミスった穴を開けてしまった場合に、そもそも文字を無効化出来るように、●●●●●●●(全穴有り)が、無効文字となったのである。
英語vs日本語
ASCIIコードはもともと英語向けである。
7ビットでなく、8ビットならば256通りある。
そこで、256の内の、最初の128を、標準のASCIIコードと共通にして、残りの128で、各国の文字を割り当てるコード体系がある。
日本語の場合、ひらがな、カタカナだけならともかく漢字も含める場合は、16ビットの『シフトJISコード』や『Unicode(ユニコード)』のようなコード体系も利用される。
日本語がコンピューター上で扱う言語として、いかに向いていないのかがよくわかる話である。
アナログ、デジタルとは何か
メロディのサンプリング
コンピューターの扱う情報は情報は『デジタル』である。
デジタルの対義語は『アナログ』。
デジタルは「不連続的」、アナログは「連続的」なものを表す。
例えば、音楽の音色は、一般的にはアナログ情報とされている。(ただし、ピアノなどもデジタル楽器とされる場合もある)
一定の数値とした音を、短い間隔で次々発生させ、擬似的に滑らかなメロディ(旋律)を流す訳である。
よくサンプリングと言われるが、これは「その時点での数値を読み取ること」である。
ビットレートは高い方がよいか
mp3などの音楽ファイル(音楽データ)には、『ビットレート』というものが設定されており、普通は、このビットレートの数値が高い方が、良い音質とされる。
ビットレートは、『ビット速度(bit rate)とも言い、つまりは単位時間あたりに転送、または処理されるビット数。
音楽としては、1秒間ごとの音のデータサイズとも言える。
音学ファイルのビットレートには、たいていキロビット毎秒(kbps。キロ・ビット・パー・セコンド)を使う。
例えば320kbpsなら、毎秒320000ビットのデータ量を意味している。
一般的には、120kbps以上のファイルでないと、音質ははっきり悪いと言われている。
しかし、オーディオ機器の性能や、スピーカーやイヤホン、それに、ファイル圧縮の際に削られる音(普通は人の耳には聞こえないか、聞こえにくい音)の影響もあるので、一概に、ビットレート=音質ではない。
けど、少なくともビットレートが高い音楽データの方が、録音時の音楽に近い事は確かである。
(注釈)結局、音楽ファイルのkbpsはどのくらいがよいのか
自称、音楽大好きな私は、基本的に音楽ファイルは192kbpsにしてます。
違いがわかるかどうかは気にした事ないけど、本当は320kbpsがよいと思ってます(下げるのは簡単だけど、上げるのは難しいからというのもあります)
まあ、192kbpsは、大量の音楽データを保持しておく上での妥協であります。
ロック以外のジャンルの音楽のおすすめアーティスト25選
ラブソング、恋愛以外のおすすめ名曲、歌詞がいい邦楽アーティスト16選
情報の科学、哲学
情報と宇宙論。量子化された世界
20世紀になってから、物質やエネルギーは、時には空間までもが、我々の理解する上で、量子化されてしまったとされている。
「ループ量子重力理論とは何か」無に浮かぶ空間原子。量子化された時空
例えば、密閉された空間におけるエネルギーの変化の計算式を矛盾なく解釈するには、エネルギーには最小の量、つまりビットがあると考えないと、おかしくなるのである。
「量子論」波動で揺らぐ現実。プランクからシュレーディンガーへ
1ビット、最小の量とは何かを考える時。
この宇宙が、まるでコンピューターのプログラムのようである世界観が、嫌でも思い浮かんでくる。
「宇宙プログラム説」量子コンピュータのシミュレーションの可能性
ブラックホール情報パラドックスは、1ビットの情報をブラックホールに投げ込んだ時に、どのような変化が宇宙に起こるか、という疑問が、発端となって考え出された、とされている。
「ブラックホール」時間と空間の限界。最も観測不可能な天体の謎
「ホログラフィック原理」わかりやすく奇妙な宇宙理論
ようするに、この世界はデジタルだったみたいである。
倫理性の問題。恐ろしき正しさ
そんな事は、我々の鈍い感覚ではわかりようがないのだから、と言ってしまえば、それまでなのだけど、もしこの宇宙の情報がデジタル式ならば、我々は、合理的な判断を行える。
というか、確実に合理的な判断を行える。
それは残酷な話かもしれない。
例えば、母と姉が危機に直面していて、どちらかひとりしか助けられないとしよう。
この場合、母と姉、どちらを選ぶべきか。
仮に姉を選んだ人がいたとして、その人に、「では母より姉の方が大事だったのか?」と聞いたら、「そんなの決められない」と答えるかもしれない。
つまり、その人の理屈としてはおそらく、ふたりとも助けられないよりは、ひとりは助かった方が絶対いい。
だから、とにかく、適当にひとりは助けた。
という事であろう。
しかし、宇宙の全ての情報がデジタル式であるというのなら、例えば相手への愛とか友情とか全てが、明確に数値化出来る事を意味する。
母と姉でなく、大切さ95の母と、大切さ96の姉なら、我々はどちらを取るべきなのか。
そんなのに、正しい選択があるというのか。
正直、わからない。