图像质量评价指标可以分为两类:使用真实图像 (full-reference) 和不使用真实图像 (no-reference)
在 NeRF 系列文章中常用的三种评价指标分别是
- 峰值信噪比 (Peak Signal to Noise Ratio, PSNR)
- 结构相似性指数 (Structural Similarity Index Measure, SSIM)
- 学习感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS)
下文将介绍上述三种评价指标
峰值信噪比 (PSNR $\uparrow$)
峰值信噪比是 no-reference 的质量评估指标,使用以下公式进行评估
$$ \begin{equation} PSNR(I) = 10 \cdot \log_{10} \left(\frac{MAX(I)^2}{MSE(I)} \right) \end{equation} $$
其中,$MAX(I)$ 为图片可能的最大像素值,通常,像素值由 $b$ 位二进制表示时,$MAX(I) = 2^b - 1$ ,如 $b = 8, MAX(I) = 2^8 - 1 = 255$
$MSE(I)$ 代表所有像素方差之和的平均数,即对于给定的大小为 $n \times m$ 的清洁图像 $P$ 和噪声图像 $K$ ,$MSE(I) = \dfrac{1}{nm} \cdot \sum_{i=1}^{n} \sum_{j=1}^{m} [P(i, j) - K(i, j)]^2$
上面是针对灰度图像的计算方法,如果是彩色图像,通常有三种方法来计算。
- 分别计算 RGB 三个通道的 PSNR,然后取平均值。
- 计算 RGB 三通道的 $MSE$ ,然后再除以 3 。
- 将图片转化为 YCbCr 格式,然后只计算 Y 分量也就是亮度分量的 PSNR。
PSNR 在信号处理领域的诸多方面均有广泛使用
结构相似性指数 (SSIM $\uparrow$)
结构相似性指数[1]是一个 full-reference 的质量评估指标,对于其计算的每一块,使用以下公式计算 SSIM
$$ \begin{equation} SSIM(x, y) = \frac{(2 \mu_x \mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} \end{equation} $$
其中,$\mu_x$ 为 $x$ 的均值,$\sigma_x^2$ 为 $x$ 的方差 ($\mu_y, \sigma_y^2$ 同理),$C_i = (K_iL)^2$ 作为常数避免出现除 $0$ 的情况,$L$ 为像素值的范围(对于 8 位二进制表示的像素为 $L = 255$),$K_1 = 0.01 , K_2 = 0.03$ 为原作者选择的预定义常数
每次计算时,都从图像中取出一个 $n \times n$ 的窗口计算 SSIM,不断滑动窗口进行计算,最后取平均值作为全局 SSIM
原文[1]中给出了另一个更为常用的 SSIM 计算方式,此处不做展开
学习感知图像块相似度 (LPIPS $\downarrow$)
学习感知图像块相似度也是一个 full-reference 的质量评估指标