資訊是個很抽象的概念。人們常常說資訊很多,或資訊較少,但卻很難說清楚資訊到底有多少。例如一本五十萬字的中文書到底有多少資訊量。
直到1948年,香農提出了「資訊熵」的概念,才解決了資訊的量化度量問題。資訊熵這個詞是C. E.香農從熱力學中藉用過來的。熱力學中的熱熵是表示分子狀態混亂程度的物理量。香農用資訊熵的概念來描述信源的不確定度。 (推薦學習:PHP影片教學)
資訊理論之父克勞德·艾爾伍德·香農第一次用數學語言闡明了機率與資訊冗餘度的關係。
資訊理論之父C. E. Shannon 在1948 年發表的論文「通訊的數學理論( A Mathematical Theory of Communication )」中指出,任何資訊都存在冗餘,冗餘大小與資訊中每個符號(數字、字母或單字)的出現機率或不確定性有關。
Shannon 借鑒了熱力學的概念,把資訊中排除了冗餘後的平均資訊量稱為“資訊熵”,並給出了計算資訊熵的數學表達式。
訊息意義
現代定義
#訊息是物質、能量、資訊及其屬性的標示。 【逆維納資訊定義】
資訊是確定性的增加。 【逆香農資訊定義】
資訊是事物現象及其屬性標識的集合。 【2002年】
最初定義
資訊理論的始祖之一Claude E. Shannon把資訊(熵)定義為離散隨機事件的出現機率。
所謂資訊熵,是一個數學上頗為抽象的概念,在這裡不妨把資訊熵理解成某種特定資訊的出現機率。而資訊熵和熱力學熵是緊密相關的。根據Charles H. Bennett對Maxwell's Demon的重新解釋,對資訊的銷毀是一個不可逆過程,所以銷毀資訊是符合熱力學第二定律的。而產生訊息,則是為系統引入負(熱力學)熵的過程。所以資訊熵的符號與熱力學熵應該是相反的。
一般而言,當一種資訊出現機率更高的時候,表示它被傳播得更廣泛,或者說,被引用的程度更高。我們可以認為,從資訊傳播的角度來看,資訊熵可以表示資訊的價值。這樣子我們就有一個衡量資訊價值高低的標準,可以做出更多關於知識流通問題的推論。
計算公式
H(x) = E[I(xi)] = E[ log(2,1/P(xi)) ] = -∑ P(xi)log(2,P(xi)) (i=1,2,..n)
其中,x表示隨機變量,與之相對應的是所有可能輸出的集合,定義為符號集,隨機變數的輸出以x表示。 P(x)表示輸出機率函數。變數的不確定性越大,熵也就越大,把它搞清楚所需的資訊量也就越大.
更多PHP相關技術文章,請訪問PHP圖文教程欄位進行學習!
以上是資訊熵的計算公式的詳細內容。更多資訊請關注PHP中文網其他相關文章!