2024-08-06
24T2
00

目录

Question 1
Question 2
Question 3
Question 4
Question 5
Question 6
Question 7
Question 8
Question 9
Question 10
Question 11
Question 12
Question 13
Question 14
Question 15
Question 16
Question 17
Question 18
Question 19
Question 20
Question 21
Question 22
Question 23
Question 24
Question 25

COMP9517 – Computer Vision

FINAL EXAM SAMPLE – Term 2 2024

With my own solution (might be incorrect)

Question 1

Question

Which one of the following statements about colour spaces is incorrect?

  • A. The R, G, and B channels of the RGB colour space are often correlated.
  • B. The H and the S channel of the HSV colour space are confounded.
  • C. The Y channel of the YCbCr colour space represents the brightness.
  • D. The a* channel of the L*a*b* colour space is the green-blue component.

本题旨在考察色彩空间的相关知识点,主要内容在Week 1 Image Formation中。

A选项中,RGB的三个通道都是强相关的(strongly correlated),因此为正确。

B选项中,HSV的三个通道具有混淆性(confound),因此为正确。

C选项中,Y指Luminance,即亮度,因此为正确。

D选项中,L*同样是亮度轴,而非颜色轴。并且,该色彩空间只有红绿轴a*和黄蓝轴b*,不存在绿蓝轴。因此为错误。

最终选项:D。

Question 2

Question

Which one of the following statements about intensity transformations is incorrect?

  • A. Contrast stretching linearly maps intensities between two values to the full output range.
  • B. Log transformation maps a narrow range of high intensities to a wider range of output values.
  • C. Power transformation can map intensities similar to log and inverse log transformations.
  • D. Piecewise linear transformations can achieve contrast stretching and intensity slicing.

本题旨在考察图像处理的相关知识点,主要内容在COMP9517 Week 1 Image Processing Basics中。

A选项中,对比度拉伸允许设置最低值和最高值。输入强度在最低值和最高值中间的像素,其输出强度将会线性地从最低值成长为最高值。因此为正确。

B选项中,Log变换通常用于将输入的低灰度值的窄范围映射到输出值的较宽范围,而选项表述的则是高灰度值的窄范围映射,因此为错误。

C选项中,幂变换通常被视为Log变换的逆过程,因此为正确。

D选项中,分段线性变换可以理解为更加灵活的线性变换。强度切片的作用则是突出显示特定范围的灰度级,因此也可以用分段线性变换表示。因此为正确。

最终选项:B。

Question 3

Question

What is the effect of the following 2D convolution kernel on an image?

0 1 0
1 -4 1
0 1 0
  • A. It approximates the sum of first-order derivatives in 𝑥 and 𝑦.
  • B. It approximates the sum of second-order derivatives in 𝑥 and 𝑦.
  • C. It approximates the product of first-order derivatives in 𝑥 and 𝑦.
  • D. It approximates the product of second-order derivatives in 𝑥 and 𝑦.

本题旨在考察拉普拉斯核计算的相关知识点,主要内容在COMP9517 Week 2 Image Processing Part 1中。

拉普拉斯核的计算方法是计算x方向和y方向的二阶导数,并之后进行相加。

最终选项:B。

Question 4

Question

Which one of the following statements on image filtering is incorrect?

  • A. Median filtering reduces noise in images.
  • B. Low-pass filtering results in blurry images.
  • C. High-pass filtering smooths fine details in images.
  • D. Notch filtering removes specific image frequencies.

本题旨在考察滤波器的相关知识点,主要内容在COMP9517 Week 2 Image Processing Part 1中。

A选项中,中值滤波通常是计算邻域内所有像素的中值,让所有像素都看着更像它们的邻居,因此可以用于消除孤立的像素波峰(比如椒盐噪声)。因此为正确。

B选项中,需要先解释一下什么叫低通滤波(low-pass filtering)。它主要用于去除图像中的高频噪声和细节,从而使图像变得更平滑。高频成分通常对应图像中的边缘和细小的细节,而低频成分对应较大的均匀区域。通过应用低通滤波器,可以达到模糊图像、去噪等效果。 它的应用有均值滤波、高斯滤波等。因此为正确。

C选项中,需要先解释一下什么叫高通滤波(high-pass filtering)。高通滤波实际上与低通滤波相反,它主要用于突出显示细节边缘,主要的应用是锐化、增强细节等。它的应用有拉普拉斯滤波。但C选项的表述是将细节变得平滑,这显然是错误的。

D选项中,需要先解释一下什么叫陷波滤波(Norch filtering)。陷波滤波是一种特殊类型的滤波器,用于抑制特定频率或频率范围内的信号,同时允许其他频率通过。这在去除特定的周期性噪声或干扰时特别有用。因此为正确。

最终选项:C。

Question 5

Question

Which one of the following statements about feature descriptors is incorrect?

  • A. Haralick features are derived from gray-level co-occurrence matrices.
  • B. SIFT achieves rotation invariance by computing gradient histograms at multiple scales.
  • C. LBP describes local image texture and can be multiresolution and rotation-invariant.
  • D. Colour moments have lower representation capability than the colour histogram.

本题旨在考察纹理特征的相关知识点,主要内容在COMP9517 Week 3 Feature Representation Part 1中。

A选项中,Haralick纹理特征的计算步骤的第一步就是构建灰度共生矩阵(gray-level co-occurrence matrix),因此为正确。

B选项中,尺度不变特征变换实现旋转不变性的手段不是多尺度构建直方图,而是通过基于关键点周围的局部图像梯度方向和幅度为每个关键点分配一个方向。因此为错误。

C选项中,局部二值模式是用于描述局部图像纹理特征的,并且具有多分辨率性和旋转不变性,因此为正确。

D选项中,颜色矩表示颜色分布,可以得到一个只有9个元素的特征向量(对于RGB图像,每个通道3个元素)。这种方法的表示能力比颜色直方图低,但计算和存储更加高效。因此为正确。

最终选项:B。

Question 6

Question

Given the image below showing the result of a segmentation of various objects and the desired classification of these objects. The two different colours (red and green) indicate the two different classes which the objects are to be assigned to.

A straightforward way to perform classification is by computing the value of a quantitative shape measure for each object and then thresholding those values. Suppose we compute the circularity and the eccentricity. Which of these two measures can be used to produce the shown classification?

image.png

  • A. Only circularity
  • B. Only eccentricity
  • C. Both circularity and eccentricity
  • D. Neither circularity nor eccentricity

本题旨在考察形状特征的相关知识点,主要内容在COMP9517 Week 3 Feature Representation Part 2中。

圆形度(circularity)描述物体的面积乘以 4π 后与其周长的平方的比值。用于描述一个对象接近圆形的程度,所以红色对象会有较高的圆形度,而绿色对象的圆形度较低。

偏心率(eccentricity)为次轴长度与主轴之比。是用于描述一个对象的细长程度,细长的对象会有较高的偏心率,而接近圆形的对象偏心率较低。

值得注意的是,物体的主轴和次轴的定义为:主轴是沿物体质量(或面积)分布最广的方向,次轴是垂直于主轴并且沿物体质量分布最紧凑的方向。对于右上角的绿色环形细长形状而言,尽管该物体的主轴和次轴长度几乎相同,但实际上该物体非常细长,远非圆形。这意味着仅凭主轴和次轴的长度来判断形状可能是不准确的。

而对于圆形度来说,我们只需要设置阈值,即可将其分类为红色斑点和绿色长条。

最终选项:A。

此外,还有另外两个描述特征的单位。

紧致度 (Compactness):描述物体的面积与具有相同周长的圆的面积的比值。紧致度可以用于评估一个形状在给定周长下的紧密程度,即形状的面积在其周长范围内的利用效率。更紧密的形状意味着其面积分布得更紧凑。

延伸度 (Elongation):描述物体的包围盒(即最小外接矩形)的长度和宽度的比值,用于衡量物体的细长程度。

Question 7

Question

Which one of the following statements is correct for random forest classifiers?

  • A. Increasing the correlation between the individual trees decreases the random forest classification error rate.
  • B. Reducing the number of selected features at each node increases the correlation between the individual trees.
  • C. Reducing the number of selected features at each node increases the strength of the individual trees.
  • D. Increasing the strength of the individual trees decreases the random forest classification error rate.

本题旨在考察随机森林分类的相关知识点,主要内容在COMP9517 Week 4 Pattern Recognition Part 1中。

A选项中,相关性增加会增加森林的错误率,无相关的树更能带来更好的泛化能力,因此为错误。

B选项中,减少每个节点的特征选择(即 mm)会导致树之间相关性减少,因此为错误。

C选项中,减少每个节点的特征选择(即 mm)会导致树的强度减少,因此为错误。

D选项中,增强个别树的强度可以降低森林的错误率,因此为正确。

最终选项:D。

Question 8

Question

Which one of the following statements is correct for pattern recognition?

  • A. Pattern recognition is defined as the process of model training on a training dataset and then testing on an independent test set.
  • B. The dimension of feature vectors should be smaller than the number of training samples in order to avoid the overfitting problem.
  • C. The simple kNN classifier needs homogeneous feature types and scales so that the classification performance can be better.
  • D. SVM is a powerful classifier that can separate classes even when the feature space exhibits significant overlaps between classes.

本题旨在考察模式识别的相关知识点,主要内容在COMP9517 Week 4 Pattern Recognition Part 1COMP9517 Week 4 Pattern Recognition Part 2中。

A选项中,这只是模式识别过程的一部分。模式识别包括更多的步骤,如数据预处理、特征提取、模型选择、模型训练、模型验证和模型测试,这种定义不完全,因此为错误。

B选项中,高维度数据确实容易导致过拟合,但并非绝对要求特征向量的维度必须小于训练样本的数量,因此为错误。

C选项中,KNN要求输入的特征具有相似的性质和尺度,否则需要进行标准化处理,因此为正确。

D选项中,当不同类别之间有大量重叠时,SVM的分类效果可能不佳,因此为错误。

Question 9

Question

Given the following binary image after segmentation.

image.png

To automatically identify the objects (in white) in this image we can use the connected components labelling algorithm. How many separate objects will this algorithm find here if it uses 4-connectivity?

  • A. 4
  • B. 5
  • C. 6
  • D. 7

本题旨在考察图像分割的相关知识点,主要内容在COMP9517 Week 5 Image Segmentation Part 1中。

4-连通,用于判断如果上下左右四个方向有相同的块,则分为同类。在这个图中,除了左下角的细长块以外,其他的百块都可以用4-连通相连,因此它们就有4块。

单独看左下角的细长块,它的右上角的单独的像素在上下左右不存在其他白块,因此它单独成为一个区域;最下方的像素也一样,它也单独成为一个区域;其他的白块构成另一个区域。也就是说,左下角的细长块可以被分割为3个块。

4+3=7

最终答案:D。

Question 10

Question

Given a binary input image 𝐼 to which we apply the following algorithm:

  • Step 1: Create a copy 𝐶 of input image 𝐼.
  • Step 2: Copy the boundary pixels of 𝐶 into new image 𝐵.
  • Step 3: Compute the reconstruction 𝑅 of 𝐶 from 𝐵.
  • Step 4: Compute output 𝑂 by subtracting 𝑅 from 𝐼.

What does the output image 𝑂 contain?

  • A. The same objects as the input image whatever the input.
  • B. The same objects as the input image but with holes filled.
  • C. The same objects as the input image except the boundary objects.
  • D. The same objects as the input image but with touching objects separated.

本题旨在考察图像分割的相关知识点,主要内容在COMP9517 Week 5 Image Segmentation Part 1中。

第一步:创建副本C。该操作没有进行任何处理与变化。

第二步:将副本C中的边界像素都复制进新图像B中。此时B中仅含有边界像素。

第三步:使用B中的边界像素,重建图像C,生成重建图像R。在形态学重构中,重构通常意味着从种子图像(在这里是 B)开始,通过膨胀操作填充。由于这里B中仅含有边界像素,因此它仅能膨胀出边界物体(boudary objects)。

第四步:使用原图I减去重构图像R,生成输出图像O。由于重构图像R中仅含有边界物体,因此输出图像O最后的结果就是原图,但少了边界物体。

最终选项:C。

Question 11

Question

Which one of the following lines describes the purpose of convolutional layers in CNNs?

  • A. Reducing the size of the feature maps.
  • B. Calculating the dot product of the input and kernels.
  • C. Applying a nonlinear activation function.
  • D. Making the network learn faster.

本题旨在考察CNN卷积层的相关知识点,主要内容在COMP9517 Week 7 Deep Learning Part 1-1中。

A选项中,减少特征图的大小一般是池化层的作用。因此为错误。

B选项中,卷积层可以背用于计算输入和kernel的点积。因此为正确。

C选项中,非线性激活函数是在卷积层之后启用的。因此为错误。

D选项中,加速学习与卷积层不相关。因此为错误。

最终选项:B。

Question 12

Question

Which one of the following lines describes the purpose of transfer learning?

  • A. Training a model from scratch for each new task.
  • B. Using a pretrained model and fine-tuning it for a new task.
  • C. Converting image data to text data to facilitate learning.
  • D. Combining multiple models into a single model for better performance.

本题旨在考察迁移学习的相关知识点,主要内容在COMP9517 Week 7 Deep Learning Part 1-1中。

Transfer learning aims to leverage the learned knowledge from a resource-rich domain/task to help learning a task with not sufficient training data.

A选项中,这是正常训练的传统做法,较为耗时,迁移学习是为了解决这个问题而出现的,因此为错误。

B选项中,这是迁移学习的定义,使用与训练好的模型去适应一个新的任务以减少重新训练的消耗,因此为正确。

C选项中,这与迁移学习无关,迁移学习主要涉及使用预训练模型而不是数据类型转换,因此为错误。

D选项中,这是集成学习(Ensemble Learning)的概念,而不是迁移学习的定义,因此为错误。

最终选项:B。

Question 13

Question

Which one of the following lines best describes the key benefit of CNNs over traditional ANNs for image classification?

  • A. CNNs are computationally less expensive.
  • B. CNNs automatically learn hierarchical features.
  • C. CNNs require fewer network layers.
  • D. CNNs can learn nonlinear mappings.

本题旨在考察CNN的相关知识点,主要内容在COMP9517 Week 7 Deep Learning Part 1-1中。

CNNs will try to learn low-level features such as edges and lines in early layers, then parts of objects and then high-level representation of an object in subsequent layers.

A选项中,CNN在处理高分辨率图像或者深层网络时,一样会进行大量的计算。因此为错误。

B选项中,CNN可以学习低层级特征,并在高层级表现出来。因此为正确。

C选项中,CNN一样可以有很多层,以达到更好的学习目的。因此为错误。

D选项中,ANN一样可以学习非线性映射。因此为错误。

最终选项:B。

Question 14

Question

Which one of the following networks is most suited for image segmentation tasks?

  • A. Multilayer perceptron (MLP)
  • B. Fully convolutional network (FCN)
  • C. Region proposal network (RPN)
  • D. Recurrent neural network (RNN)

本题旨在考察图像分割的相关知识点,主要内容在COMP9517 Week 8 Deep Learning Part 2-2中。

A选项中,MLP通常用于结构化数据或简单的分类任务,不适合处理复杂的图像分割任务。因此为错误。

B选项中,FCN可以用于图像分割,因此为正确。

C选项中,RPN主要用于目标检测任务,生成候选区域框,但不是直接用于图像分割。因此为错误。

D选项中,RNN主要用于处理序列数据,如时间序列或文本数据,不适合用于静态图像的分割任务。因此为错误。

最终选项:B。

Question 15

Question

Which one of the following statements about motion analysis is incorrect?

  • A. Detection of moving objects by subtraction of successive images in a video works best if the background is constant.
  • B. Sparse motion estimation in a video can be done by template matching and minimising the mutual information measure.
  • C. Dense motion estimation using optical flow assumes that each small neighbourhood remains constant over time.
  • D. Optical flow provides an equation for each pixel but requires further constraints to solve the equation uniquely.

本题旨在考察运动估计的相关知识点,主要内容在COMP9517 Week 9 Motion Estimation中。

A选项中,如果背景保持不变,帧差法确实能有效检测运动物体。因此为正确。

B选项中,稀疏运动估计通常使用模板匹配。最小化互信息测度更多用于图像配准,而不直接应用于稀疏运动估计。因此为错误。

C选项中,光流法假设每个小邻域在短时间内保持不变,以便计算运动场。因此为正确。

D选项中,光流法为每个像素提供一个方程,但不具有唯一解。需要额外的约束(如平滑约束)来唯一地求解方程。因此为正确。

最终选项:B。

Question 16

Question

Which one of the following statements about object tracking is incorrect?

  • A. The particle filtering method assumes that the dynamics model and the measurement model can be parameterized.
  • B. The hidden Markov model assumes that the measurements depend only on the current state of the objects.
  • C. The prediction step of Bayesian inference assumes that the current state of the objects depends only on the previous state.
  • D. The Kalman filtering method assumes that the dynamics and measurement noise are additive Gaussian.

本题旨在考察对象跟踪的相关知识点,主要内容在COMP9517 Week 9 Object Tracking中。

A选项中,粒子滤波实际上是用于处理非参数化或非线性、非高斯模型的。它不假定动态模型和测量模型可以被参数化。相反,它通过一组粒子(样本)来表示概率分布。因此为错误。

B选项中,隐马尔可夫模型(HMM)假设观测值(测量)仅依赖于当前的隐状态。因此为正确。

C选项中,在贝叶斯推断中的预测步骤假设当前状态只依赖于前一个状态,这是一阶马尔可夫假设。因此为正确。

D选项中,卡尔曼滤波假设动态噪声和测量噪声都是加性高斯噪声。因此为正确。

最终选项:A。

Question 17

Question

In many image processing operations, the image must be expanded a little bit to solve the boundary problem. Which one of the following types of expansion is implicitly used by the Fourier transform?

  • A. Padding
  • B. Clamping
  • C. Wrapping
  • D. Mirroring

本题旨在考察边界问题的相关知识点,主要内容在COMP9517 Week 2 Image Processing Part 1中。

A选项中,填充指所有图像边界外添加额外的像素值,通常是零填充,以便在处理时避免边界问题。不是傅立叶变换隐式使用的方法。因此为错误。

B选项中,限制指无限重复所有边界像素值,具有较好的边界行为,但没有理论基础。不是傅立叶变换隐式使用的方法。因此为错误。

C选项中,环绕指从对侧复制像素值,在傅立叶变换中隐式使用。因此为正确。

D选项中,镜像指在边界上反射像素值,它具有平滑、对称、周期性、没有边界伪影的特点。不是傅立叶变换隐式使用的方法。因此为错误。

最终选项:C。

Question 18

Question

Which one of the following equations concerning convolution (*) of two images (𝑓 and 𝑔) is correct?

  • A. fg=(gf)1f*g=(g*f)^{-1}
  • B. f(g+h)=(fg)+(fh)f*(g+h)=(f*g)+(f*h)
  • C. a(fg)=(af)(ag)a \cdot (f*g) = (a \cdot f) * (a \cdot g)
  • D. fg=f^g^f*g = \hat f * \hat g

A选项中,卷积运算允许交换律,即:fg=gff*g=g*f,但是交换不涉及逆运算。因此为错误。

B选项中,卷积运算允许分配律。这意味着卷积运算可以分配到函数的和上。因此为正确。

C选项中,卷积运算不允许标量乘积在卷积中分配,因为卷积的定义不允许直接分配标量到两个函数中。因此为错误。

D选项中,卷积在频域中等同于点乘,即:(fg)^=f^g^\hat {(f*g)}=\hat f * \hat g。因此为错误。

最终选项: B。

Question 19

Question

Suppose we have the following grayscale input image 𝐼 (shown on the left) and we would like to have a binary output image 𝑂 (as shown on the right) containing the edges of the objects in the input. Also suppose that the only image processing operations available for this are intensity thresholding, dilation and erosion (binary and grayscale), and image subtraction. Which one of the following algorithms will not produce the desired output?

image.png

  • A. Thresholding (result = 𝑇), then erosion (result = 𝐸), then subtraction (result = 𝐸 − 𝑇).
  • B. Erosion (result = 𝐸), then subtraction (result = 𝐼 − 𝐸), then thresholding (result = 𝑇).
  • C. Thresholding (result = 𝑇), then dilation (result = 𝐷), then subtraction (result = 𝐷 − 𝑇).
  • D. Dilation (result = 𝐷), then subtraction (result = 𝐷 − 𝐼), then thresholding (result = 𝑇).

在解答之前,需要先明确使用的操作:

  • 强度阈值 Intensity Thresholding:生成灰度图像的二值图像,将低于阈值的值在输出中设为黑色,,将等于或高于阈值的值在输出中设为白色。
  • 腐蚀 Erosion:去除对象的边界像素,使对象变得更小。这种操作可以用来去除图像中的噪声、分离连接在一起的对象,或突出显示对象的结构。
  • 膨胀 Dilation:增加对象的边界,使对象变得更大。它可以填补图像中的小孔,连接断开的部分,或突出显示对象的形状。

A选项中,强度阈值提取出黑白分明的图像T,之后使用腐蚀得到圆圈更小的E,这些都没问题,但最后应当使用T - E才能得到甜甜圈图像。因此为错误。

B选项中,使用腐蚀得到圆圈更小的E,使用I - E得到甜甜圈,最终使用强度阈值黑白分明。因此为正确。

C选项中,强度阈值提取出黑白分明的图像T,之后使用膨胀得到圆圈更大的D,最终使用D - T得到甜甜圈。因此为正确。

D选项中,使用膨胀得到圆圈更大的D,使用D - I得到甜甜圈,最终使用强度阈值黑白分明。因此为正确。

最终选项:A。

Question 20

Question

Given the image below containing about two dozen algae (the bright spots) which we would like to segment using an automatic thresholding method. Which one of the following automatic thresholding methods will give the best segmentation result here?

image.png

  • A. Mean thresholding
  • B. IsoData thresholding
  • C. Otsu thresholding
  • D. Triangle thresholding

本图中,图像中有明显的亮点(藻类)与较暗的背景之间的对比。由于亮点面积非常小,因此直方图大部份集中在黑色区域,构成单峰图像。我们要考虑处理单峰图像最好的方法。

image.png

A选项中,均值阈值法使用图像的全局均值作为阈值。不使用均值的原因,主要在于它一定会出现单峰右侧的黑色也被识别为白色亮点的情况。不适配。

B选项中,IsoData反复计算新的阈值,直到两个类别(背景和前景)的均值不再显著变化。适用于双峰图像。不适配。

C选项中,大津法自动选择阈值以最大化类间方差(或最小化类内方差)。特别适合于双峰图像(前景和背景有明显区别)。不适配。

D选项中,适用于直方图具有单个峰值并且具有长尾分布的图像。通过绘制直方图并找到直方图形状的三角形顶点来确定阈值。适配。

最终选项:D。

Question 21

Question

Which one of the following statements about data augmentation for image classification using CNNs is correct?

  • A. Augmentation increases the number of parameters in the model.
  • B. Augmentation reduces the size of the dataset to speed up training.
  • C. Augmentation generates new training data by transforming the existing data.
  • D. Augmentation reduces the depth of the network for better performance.

A选项中,数据增强不会增加模型的参数。它只是通过变换现有数据来生成更多的训练样本。因此为错误。

B选项中,数据增强实际上增加了有效的数据集大小,而不是减少它。虽然这可能会增加训练时间,但其目的是提高模型的泛化能力。因此为错误。

C选项中,数据增强通过对现有的训练样本进行各种变换(如旋转、翻转、缩放、平移等)来生成新的训练数据,从而增加数据集的多样性,提高模型的鲁棒性和泛化能力。因此为正确。

D选项中,数据增强与网络的深度无关。它不会改变网络的结构或深度,而是通过增加数据的多样性来改善模型的性能。因此为错误。

最终选项:C。

Question 22

Question

Which one of the following statements about image segmentation methods is incorrect?

  • A. Thresholding based on pixel intensity yields poor results if the regions to be segmented have overlapping intensity distributions.
  • B. Level-set segmentation uses an object boundary representation that makes it hard to deal with topological changes.
  • C. Region splitting techniques aim to optimize some metric of intra-region similarity and inter-region dissimilarity.
  • D. Watershed segmentation often results in over-segmentation because image regions may contain multiple local minima.

A选项中,如果区域具有足够不同的强度分布,则阈值分割方法是合适的。一旦它出现重叠强度分布,效果就会变差,因为它无法区分重叠部分。因此为正确。

B选项中,水平集分割方法在图像分割和对象检测中具有广泛应用,尤其适用于处理复杂形状和拓扑变化的场景。通过迭代优化过程,水平集方法能够实现精确而稳定的分割结果。因此为错误。

C选项中,区域分割技术旨在优化区域内部的相似性和区域之间的差异性,以实现更好的分割效果。因此为正确。

D选项中,分水岭分割经常会导致过度分割,因为图像区域中可能包含多个局部极小值,导致每个局部极小值形成一个独立的区域。因此为正确。

最终选项:B。

Question 23

Question

Suppose we have a 2D image that is very noisy and we want to smooth it by filtering with a uniform kernel of size 5×5 voxels. Let 𝑆 be the total number of floating-point operations required per pixel to perform the operation when using a dimensionally separated implementation of the filter. And let 𝑁 be the total number of floating-point operations required per pixel to perform the operation when using a dimensionally nonseparated implementation of the filter.

What is the ratio 𝑆/𝑁 (as a percentage rounded to one decimal)?

  • A. 36.7%
  • B. 40.0%
  • C. 58.8%
  • D. 66.7%

好的,下面详细说明一下非分离实现和分离实现的过程。

非分离实现(直接卷积)

在非分离实现中,我们直接将一个 5×55 \times 5 的卷积核应用于图像的每个像素。这种方法需要对每个像素进行 5×55 \times 5 的卷积操作。

  1. 定义卷积核

    K=[k1,1k1,2k1,3k1,4k1,5k2,1k2,2k2,3k2,4k2,5k3,1k3,2k3,3k3,4k3,5k4,1k4,2k4,3k4,4k4,5k5,1k5,2k5,3k5,4k5,5]K = \begin{bmatrix} k_{1,1} & k_{1,2} & k_{1,3} & k_{1,4} & k_{1,5} \\ k_{2,1} & k_{2,2} & k_{2,3} & k_{2,4} & k_{2,5} \\ k_{3,1} & k_{3,2} & k_{3,3} & k_{3,4} & k_{3,5} \\ k_{4,1} & k_{4,2} & k_{4,3} & k_{4,4} & k_{4,5} \\ k_{5,1} & k_{5,2} & k_{5,3} & k_{5,4} & k_{5,5} \end{bmatrix}

    对于均匀核,所有元素都是相同的。

  2. 应用卷积核

    对于图像中的每个像素 (i,j)(i, j),计算输出像素值 O(i,j)O(i, j)

    O(i,j)=m=22n=22I(i+m,j+n)K(m+3,n+3)O(i, j) = \sum_{m=-2}^{2} \sum_{n=-2}^{2} I(i+m, j+n) \cdot K(m+3, n+3)

    这里的 I(i+m,j+n)I(i+m, j+n) 是图像中的像素值, K(m+3,n+3)K(m+3, n+3) 是卷积核中的值。这个过程需要 25 次乘法和 24 次加法,总共 49 次浮点运算。

分离实现(分离卷积)

在分离实现中,我们将 5×55 \times 5 的卷积核分解为一个 1×51 \times 5 的行核和一个 5×15 \times 1 的列核。这样,卷积操作分成两步:首先对每一行应用 1×51 \times 5 的核,然后对每一列应用 5×15 \times 1 的核。

  1. 分解卷积核

    Krow=[k1k2k3k4k5]K_{\text{row}} = \begin{bmatrix} k_1 & k_2 & k_3 & k_4 & k_5 \end{bmatrix}
    Kcol=[k1k2k3k4k5]K_{\text{col}} = \begin{bmatrix} k_1 \\ k_2 \\ k_3 \\ k_4 \\ k_5 \end{bmatrix}
  2. 行卷积

    对于图像中的每个像素 (i,j)(i, j),先应用行核:

    Irow(i,j)=n=22I(i,j+n)Krow(n+3)I_{\text{row}}(i, j) = \sum_{n=-2}^{2} I(i, j+n) \cdot K_{\text{row}}(n+3)

    这需要 5 次乘法和 4 次加法,总共 9 次浮点运算。

  3. 列卷积

    对于行卷积的结果,再应用列核:

    O(i,j)=m=22Irow(i+m,j)Kcol(m+3)O(i, j) = \sum_{m=-2}^{2} I_{\text{row}}(i+m, j) \cdot K_{\text{col}}(m+3)

    这也需要 5 次乘法和 4 次加法,总共 9 次浮点运算。

总结计算量

  • 非分离实现: 每个像素需要 25 次乘法和 24 次加法,总共 49 次浮点运算。
  • 分离实现: 每个像素需要 9 次行卷积运算和 9 次列卷积运算,总共 18 次浮点运算。
SN=18490.36736.7%\frac{S}{N} = \frac{18}{49} \approx 0.367 \approx 36.7\%

最终选项:A。

Question 24

Question

Given the following 2D convolution kernel:

1 0 -1
2 0 -2
1 0 -1

Which one of the following correctly describes the effect of this kernel when applied to an image?

  • A. Smoothing in 𝑥 and first-order differentiation in 𝑦.
  • B. Smoothing in 𝑥 and second-order differentiation in 𝑦.
  • C. First-order differentiation in 𝑥 and smoothing in 𝑦.
  • D. Second-order differentiation in 𝑥 and smoothing in 𝑦.

这是个典型的Sobel核。可以参考可分离滤波器核 Separable Filter Kernel

注意:Sobel核和Prewitt的区别在于前者通常在中间的行或列具有更大的权重,因此对噪声更有抑制效果。Prewitt只是个简单的微分算子。

这个核心作为一个二维卷积可以分解为两个一维卷积:

水平核(行核): Kx=[101]K_x = \begin{bmatrix} 1 & 0 & -1 \end{bmatrix}

垂直核(列核): Ky=[121]K_y = \begin{bmatrix} 1 \\ 2 \\ 1 \end{bmatrix}

计算外积: K=[121][101]=[101202101] K = \begin{bmatrix} 1 \\ 2 \\ 1 \end{bmatrix} \cdot \begin{bmatrix} 1 & 0 & -1 \end{bmatrix} = \begin{bmatrix} 1 & 0 & -1 \\ 2 & 0 & -2 \\ 1 & 0 & -1 \end{bmatrix}

对于水平核,本质上是在检测图像中水平方向上的边缘。具体来说,它对每个像素及其左右邻域进行操作,计算它们的差值。核的左右两侧的正负值(1和-1)会计算相邻像素值的差异,从而检测出水平方向的变化。这个核可以看作是图像在水平方向上的一阶微分算子。它会突出图像中的水平梯度或边缘区域,因为边缘区域会有显著的灰度变化。

对于垂直核,本质上是对垂直方向的像素值进行加权平均,从而对图像进行平滑处理。它在垂直方向上给予中间像素更大的权重,而邻近像素较小的权重。这种加权方式可以减小噪声对边缘检测的影响。这种加权求和方式能够更好地保留垂直方向上的图像特征,同时对噪声具有一定的抑制作用。

最终选项:C。

Question 25

Question

Given the following input image 𝐼 (on the left) and output image 𝑂 (on the right):

image.png

Image 𝑂 is the result of processing image 𝐼 using a point operator. Which one of the following mapping functions (red curves) from intensities in 𝐼 to intensities in 𝑂 was used by the point operator? For reference, in each graphic, the histogram of the image 𝐼 is shown in blue.

image.png

观察直方图,其作为双峰图像,左右两个波峰分别代表了背景的深色和细胞的亮色。

首先可以注意到,背景的黑色是被几乎完全抹去的,也就是说不存在北京干扰的情况,因此可以排除C选项。

之后,注意到细胞的圆形区域是残缺的,即并不是所有的亮色都被包含在内,因此可以排除A选项。

最后,由于图像仅显示出黑白二色的二值化结果,而没有灰度的线性变化,因此可以判断这是一个阈值判定,而非线性变化判定,因此排除D。

最终选项:B。

本文作者:Jeff Wu

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!