跳转到内容

夏農–菲諾–以利亞碼

维基百科，自由的百科全书

在消息理論中，夏農–菲諾–以利亞碼是算術編碼的先導，其機率被用於決定碼字。

演算法描述

給定一離散隨機變數 X ，令 $p(x)$ 為 X=x 發生之機率。

定義

{\bar {F}}(x)=\sum _{x_{i}<x}p(x_{i})+{\frac {1}{2}}p(x)

演算法如下：

對每個 X 中的 x，

令 Z 為

{\bar {F}}(x)

之二次展開

令 x 之編碼長度

L(x)=\left\lceil \log _{2}{\frac {1}{p(x)}}\right\rceil +1

選定 x 之編碼，

code(x)

為

L(x)

在 Z 之小數點後之第一個最高有效位。

舉例

令 X = {A, B, C, D} ，其發生機率分別為 p = {1/3, 1/4, 1/6, 1/4} 。

對於 A

{\bar {F}}(A)={\frac {1}{2}}p(A)={\frac {1}{2}}\cdot {\frac {1}{3}}=0.1666...

在二進位中， Z(A) = 0.0010101010...

L(A) =

\left\lceil \log _{2}{\frac {1}{\frac {1}{3}}}\right\rceil +1

= 3

code(A) 為 001

對於 B

{\bar {F}}(B)=p(A)+{\frac {1}{2}}p(B)={\frac {1}{3}}+{\frac {1}{2}}\cdot {\frac {1}{4}}=0.4583333...

在二進位中， Z(B) = 0.01110101010101...

L(B) =

\left\lceil \log _{2}{\frac {1}{\frac {1}{4}}}\right\rceil +1

= 3

code(B) 為 011

對於 C

{\bar {F}}(C)=p(A)+p(B)+{\frac {1}{2}}p(C)={\frac {1}{3}}+{\frac {1}{4}}+{\frac {1}{2}}\cdot {\frac {1}{6}}=0.66666...

在二進位中， Z(C) = 0.101010101010...

L(C) =

\left\lceil \log _{2}{\frac {1}{\frac {1}{6}}}\right\rceil +1

= 4

code(C) 為 1010

對於 D

{\bar {F}}(D)=p(A)+p(B)+p(C)+{\frac {1}{2}}p(D)={\frac {1}{3}}+{\frac {1}{4}}+{\frac {1}{6}}+{\frac {1}{2}}\cdot {\frac {1}{4}}=0.875

在二進位中， Z(D) = 0.111

L(D) =

\left\lceil \log _{2}{\frac {1}{\frac {1}{4}}}\right\rceil +1

= 3

code(D) 為 111

演算法分析

前綴碼

夏農–菲諾–以利亞碼之輸出為二進位前綴碼，因此可被直接解碼。

令 bcode(x) 為二進位表示法最左側加入小數點而成之小數。舉例而言， code(C)=1010 ，則 bcode(C) = 0.1010 。對所有 x ，如果沒有任何 y 存在使得

bcode(x)\leq bcode(y)<bcode(x)+2^{-L(x)}

則所有的碼可構成前綴碼。

此性質可透過比較 F 和 X 之累積分布函数，以圖表示出：

由 L 之定義可得

2^{-L(x)}\leq {\frac {1}{2}}p(x)

並且由於 code(y) 是由 F(y) 從 L(y) 之後的位元截短而得，故

{\bar {F}}(y)-bcode(y)\leq 2^{-L(y)}

因此 bcode(y) 必不比 CDF(x) 小。

上圖說明了 $bcode(y)-bcode(x)>p(x)\geq 2^{-L(x)}$ ，因此前綴碼定理成立。

編碼長度

此碼之平均長度為 $LC(X)=\sum _{x\epsilon X}p(x)L(x)=\sum _{x\epsilon X}p(x)(\left\lceil \log _{2}{\frac {1}{p(x)}}\right\rceil +1)$ 。
因隨機變數 X 之熵 H(X) 滿足

H(X)+1\leq LC(X)<H(X)+2

夏農–菲諾–以利亞碼之長度約比代編碼資料之熵長約一到二額外位元，故甚少被實用。

參考書目

T. M. Cover and Joy A. Thomas (2006). Elements of information theory (2nd ed.). John Wiley and Sons. pp. 127–128.

数据压缩方法

理论

无损数据压缩

熵編碼	算术编码非对称数字系统编码（英语：Asymmetric numeral systems）格倫布編碼霍夫曼编码适应性范型改进區間編碼香农编码香农-范诺编码香農-范諾-埃利西斯編碼 Tunstall编码（英语：Tunstall coding）一元编码（英语：Unary coding）通用編碼（英语：Universal code (data compression)）指數格倫布編碼斐波那契編碼以利亞伽瑪編碼萊文斯坦編碼（英语：Levenshtein coding）

字典編碼（英语：Dictionary coder）	字节对编码 LZ77 / LZ78 842（英语：842 (compression algorithm)） Brotli Deflate LZ4 LZFSE LZJB（英语：LZJB） LZMA LZO LZRW（英语：LZRW） LZS（英语：Lempel–Ziv–Stac） LZSS LZW LZWL（英语：LZWL） LZX Snappy Zstandard

其他	BWT CTW（英语：CTW）差分编码 DMC 差分脉冲编码调制无损离散余弦变换 MTF PAQ（英语：PAQ） PPM（英语：Prediction by partial matching） RLE

有损数据压缩

变换编码	DCT MDCT DST FFT 小波变换多贝西 DWT SPIHT（英语：Set partitioning in hierarchical trees）

预测编码	DPCM ADPCM（英语：Adaptive differential pulse-code modulation） LPC ACELP（英语：Algebraic code-excited linear prediction） CELP LAR（英语：Log area ratio） LSP WLPC（英语：Warped linear predictive coding）运动运动补偿运动预测运动矢量心理声学

概念	码率平均码率恒定码率可变码率压扩（英语：Companding）卷积动态范围延迟（英语：Latency (audio)）采样采样定理音质语音编码子带编码

编解码组件	A-law（英语：A-law） μ-law（英语：μ-law） DPCM ADPCM（英语：Adaptive differential pulse-code modulation） DM FT FFT LPC ACELP（英语：Algebraic code-excited linear prediction） CELP LAR（英语：Log area ratio） LSP WLPC（英语：Warped linear predictive coding） CELP MDCT 心理聲學模型

概念	色度抽样编码树单元色彩空間壓縮失真图像分辨率宏块像素峰值信噪比量化标准测试图像

方法	DCT Deflate 分形压缩 K-L变换 LP（英语：Pyramid (image processing)） RLE 小波变换多贝西 DWT SPIHT（英语：Set partitioning in hierarchical trees）

概念	码率平均码率恒定码率可变码率显示分辨率帧（英语：Film frame）帧率帧类型隔行扫描視訊特性視訊質量

编解码组件	DCT DPCM 去区块滤波器重叠变换（英语：Lapped transform）运动运动补偿运动预测运动矢量量化

另见压缩格式和数据压缩软件

取自“https://zh.wikipedia.org/w/index.php?title=夏農–菲諾–以利亞碼&oldid=57635257”

分类：