您現在的位置是:首頁 > 垂釣

坤鵬論:錯了!資訊熵≠資訊量 輕鬆讀懂什麼是資訊熵

  • 由 坤鵬論 發表于 垂釣
  • 2021-08-11
簡介這條訊息的資訊熵就是1位元,也就是隻要再輸入1位元資訊,就可以消除不確定性,達到100%確定

補墒怎麼讀

資訊理論的“資訊”不是你說了什麼,而是你能說什麼。

——坤鵬論

坤鵬論:錯了!資訊熵≠資訊量 輕鬆讀懂什麼是資訊熵

整個五一,坤鵬論都在捯飭資訊熵。

為什麼?

本以為自己已經懂了,結果在寫成文字時,卻發現,原來自己對它的認知有諸多瑕疵。

一邊學習、一邊思考、一邊寫,結果文章改了又改,寫下的文字好幾萬,但其中又大部分被直接刪除掉了。

不過,蒼天不負有心人,終於將資訊熵給搞得比較清爽了。

這就是寫作的妙處,它同實踐一起,共同構築成學習最強大的利器。

一、資訊熵≠資訊量

話說,一天早上,你的兩位重要客戶,分別給發來訊息:

客戶1:不後睞厚上,宮天歐睛以在,貨見同一鎖要,飛面恥李來米滅或。

客戶2:五一佳節,我公司休息五天,如有急事給我打電話,祝節日快樂。

請問,你認為哪條訊息的資訊量更大?

許多人會說,當然是第二條,因為第一條是什麼玩意兒,亂碼嗎?不是人話呀!

但是,第二條只是你認為相對第一條更有意義,只是因為你看得懂,而並非資訊量更大。

並且,第二條還有不少多餘的字,即使把它們去掉,留下空白,你也能猜到它們是什麼。

比如:五一佳__,我__司休__五__ ,如有__事給我打____ ,祝節__快__。

你只要稍稍琢磨,就能將這些空缺補全。

所以,這段話是可壓縮的。

但是,我告訴你,第一條其實是密語,裡面藏著一個驚天寶藏的大秘密。

那麼,你連一個字都不敢去掉。

每個字你都認識,但每個字都是神秘,每個字都是不確定的。

再讓我們看看第二條訊息,其中有些字雖然不是多餘的,但我們猜也能猜個八九不離十,比如:

“如有急事給我打____”

漢語中以打字開頭的常用三字動詞並不多,放到這裡可能也就“打電話”、“打招呼”等幾種情況了。

我告訴你那兩個字是“電話”,你肯定不會感到驚訝,所以“電話”提供的資訊很少。

所以,夏農說:

資訊,是能夠用來消除不確定性的東西。

逆夏農定義的定義更香、更容易理解:資訊,是確定性的增加。

那麼,什麼是不確定性?

不確定性用數學語言可稱之為機率。

只要機率不是100%都是不確定性。

消除不確定性的過程就是將某件事的從某個機率變成1。

夏農認為,這個機率變化的過程,就需要輸入資訊來改變。

那麼,到底要輸入多少資訊呢?

那就要看某件事有多麼不確定性,也就是還需要輸入的資訊量和它的機率相關。

於是,資訊量與機率發生了關係。

夏農的貢獻就在於,他給出了計算不確定性的量化公式,就像前面所說,科技的第一步就是要能量化。

正如我們想要衡量某個物體的質量引入了克這個單位、我們想衡量時間,我們設計一秒鐘這麼長。

夏農想要量化一條訊息中可帶有的資訊量大小,提出了資訊熵,並給出了單位——位元。

不過,要特別特別注意的是,資訊熵雖然可以告訴我們可輸入的資訊量。

但它並不直接等於資訊量,嚴格意義上講,

資訊熵≠資訊量

坤鵬論發現,就像錯誤地認為“熵=混亂”一樣,太多人認為“資訊熵=資訊量”,於是也就錯上加錯,知識完全混亂。

坤鵬論:錯了!資訊熵≠資訊量 輕鬆讀懂什麼是資訊熵

二、熱力學的熵和資訊理論的熵

好了,理解了上面部分,也就有了資訊熵的定義。

但是,還是讓我們讀一讀嚴謹的定義以及它的數學公式。

統計力學中,熵度量的是一個物理系統的微觀態的不確定程度,也就是處於所有可能微觀態中的一種的機率。

這些可能微觀態的出現機率不一定相等,所以統計力學的公式是:

坤鵬論:錯了!資訊熵≠資訊量 輕鬆讀懂什麼是資訊熵

在資訊理論中,熵度量的是一條資訊的不確定程度,即身為信源發出的所有可能資訊中的一條資訊的機率。

這些可能資訊的出現機率不一定相等,所以夏農的公式是:

坤鵬論:錯了!資訊熵≠資訊量 輕鬆讀懂什麼是資訊熵

兩個公式幾乎一模一樣,這並不是巧合。

大自然對相似問題本就給出了相似答案。

熱力學的熵,講的是系統的混亂程度,資訊熵也是如此,越是看上去雜亂無章的訊息,資訊熵越高。

事實上,這是同一個問題,熱力學中,要想減少系統的熵,就要從外部輸入可用能量。

在資訊理論中,一條外部輸入的、確定的資訊會減少系統內由所有可能資訊組成的集合的熵。

熱力學的熵和資訊理論的熵,它們也有不同之處。

傳統熱力學中,熵被定義為對系統的宏觀測定,並沒有涉及機率分佈,而機率分佈是資訊熵的核心定義。

坤鵬論:錯了!資訊熵≠資訊量 輕鬆讀懂什麼是資訊熵

上面的文字,估計很難讀懂,我們簡化理解一下。

熱力學的熵,代表著系統的無序、混亂程度。

混亂程度越大,熵越大。

資訊熵,代表著事件的不確定性程度。

不確定性程度越大,資訊熵越大。

讓我們用幾十年來最流行的資訊熵的通俗例子解釋一下。

假設有一個完美公正的硬幣,每次丟擲正面朝上的機率都是1/2。

如果你告訴我這一次拋硬幣的結果是正面朝上,這個訊息的不確定性程度就是:

-log(1/2)=1

log是以2為底的對數,這是初中數學學的。

如果你不會,可以搜尋“Log2線上計算器”,只要輸入機率就能算出結果。

這條訊息的資訊熵就是1位元,也就是隻要再輸入1位元資訊,就可以消除不確定性,達到100%確定。

讓我們再假設有一個不完美、不公正的硬幣,它出現正面的機率高於反面的機率。

比如:反面的機率是30%,那麼,出現正面的機率是70%,資訊熵為:

-[0。3×log(0。3)+0。7×log(0。7)]=-[0。3×-1。74+0。7×-0。51]=0。88位元

因此,資訊熵與我們肉眼見到的訊息長度沒有必然關係。

它描述的是這段訊息中字元的不確定性(不可預測性)。

所以,一段訊息中出現的各種字元越雜亂無章,越具有多樣性,資訊熵就越高。

比如:acbfacbfopacbacbf和acbfehijkl。

前者重複的字母多,雖然一共17個字母,其實只有6個不同的字母,它的資訊熵為:

-log(1/6)=2。6位元

後者雖然一共只有10個字母,但是,10個字母各個不同,它的資訊熵為:

-log(1/10)=3。3位元

當然,真實世界裡,英文有26個字母,再加上一個空格,它也算字元,一共27個,如果它們是等機率被使用,每個字母平均的資訊熵=-log(1/27)=4。75位元。

不過,實際使用中,英語字母的使用頻率是不一樣的。

有些字母會明顯高於其他字母,這就是典型的冪律分佈,到語言這個領域就叫Zipf定律。

Zipf定律表明,在英語單詞中,只有極少數的詞被經常使用,而絕大多數詞很少被使用。

實際上,包括漢語在內的許多國家的語言都有這樣的特點。

比如:H,它的出現機率是5。9%,它的資訊熵=-log(0。059)=4。083141位元。

再比如:Z,它的出現機率只有0。07%,它的資訊熵=-log(0。0007)=10。480357位元。

坤鵬論:錯了!資訊熵≠資訊量 輕鬆讀懂什麼是資訊熵

三、這些資訊熵的要點總結請牢記

從上面的例項我們可以得出以下結論:

第一

,資訊熵與機率是相反的,是你增我減、此消彼長的關係。

某件事出現得越多,不確定性越小,因此,可以輸入的資訊量就越少;

某件事出現得越少,不確定性越高,因此,可以輸入的資訊量就越多。

第二

,資訊熵,度量的是出人意料的程度。

比如:你說,巴西獲得了世界盃冠軍,機率很高,沒什麼出人意料的。

但是,你說,中國獲得了世界盃冠軍,機率極低,太出人意料了,可以輸入的資訊量太大了。

再比如:太陽從東方升起,機率=1,資訊熵為0,不出人意料,沒有需要消除的不確定性。

還記得本文開頭說的那條客戶資訊嗎?

現在假設它是一條驚天密語。

除了裡面的逗號是重複符號外,其他字元沒有重複。

因此,它的資訊熵非常高。

要想破解它,也就是使其變得100%確定,就需要輸入其資訊熵數值的資訊。

不管是你自己想破頭並不斷試,亦或者求教人,都等於要向它再輸入資訊。

也就是,從開始每個字都是不確定性,到最終知道密語講的是什麼,都是不斷注入新資訊的功勞。

所以,資訊熵告訴我們,一條訊息裡面有多少位元的不確定性,要想清除這些不確定性,就得輸入相應多少位元的資訊。

第三

,不是你說了什麼,而是你能說什麼。

坤鵬論查了一下資料發現上一篇有些錯誤,這裡一併更正一起。

1948年,夏農的論文《通訊的一個數學理論》(注意標題用的是a,而不後來的the)分成兩部分,分別在7月和10月的《貝爾系統技術雜誌》刊登。

1949年,夏農才和沃倫·韋弗合著了《通訊的數學理論》,其中包含夏農的論文《通訊的一個數學理論》以及沃倫·韋弗為非專業人士寫的介紹通訊理論的內容。

韋弗特別指出:

資訊理論中的“資訊”這個詞不是指“你說了什麼”,而是指“你能夠說什麼”。

那麼,資訊理論中的資訊量也就是——你能夠說多少,你能有多少選擇。

我們一起來品一品,簡單講就是,這裡的“資訊”不是已經說過的,而是還能夠說的。

因此:

資訊熵,是一個從“不知道”變成“知道”的差值。

資訊熵越高,能傳輸越多的資訊;

資訊熵越低,能傳輸的資訊越少。

比如:字元長度相等的兩段內容。

如果一段可以被高度壓縮,說明它的重複字元多,也就是機率高,所以熵低。

如果另一段幾乎無法壓縮,說明它的重複字元少,也就是機率低,所以熵高。

第四

、資訊熵,是透過只允許回答是或否的問題,來猜出一條未知資訊時所需問問題的平均數目。

第五

,夏農總結的資訊熵三特質:

單調性

:即發生機率越高的事件,其所攜帶的資訊熵越低。

非負性

:即資訊熵不能為負,任何事的不確定性程度最低只能為0。

累加性

:即多隨機事件同時發生存在的總不確定性的量度,是可以表示為各事件不確定性的量度的和。

好,今天先講這麼多,後面我們再接再厲。

本文由“坤鵬論”原創,轉載請保留本資訊

請您關注本百家號,坤鵬論自2016年初成立至今,創始人為封立鵬、滕大鵬,是包括百度百家、頭條、雪球、搜狐、網易、新浪等多家著名網站或自媒體平臺的特約專家或特約專欄作者,目前已累計發表原創文章與問答6000餘篇。

Top