DarkNet 시리즈 - Im2col
im2col
- 이미지를 columns으로 변환해주는 것을 말합니다.
im2col_get_pixel
1
2
3
4
5
6
7
8
9
10
float im2col_get_pixel(float *im, int height, int width, int channels,
int row, int col, int channel, int pad)
{
row -= pad;
col -= pad;
if (row < 0 || col < 0 ||
row >= height || col >= width) return 0;
return im[col + width*(row + height*channel)];
}
함수 이름: im2col_get_pixel
입력:
- im: 이미지 데이터를 가리키는 포인터(float *)
- height: 이미지 높이(int)
- width: 이미지 너비(int)
- channels: 이미지 채널 수(int)
- row: 픽셀의 세로 위치(int)
- col: 픽셀의 가로 위치(int)
- channel: 픽셀이 위치한 채널(int)
- pad: 패딩 크기(int)
동작:
- 입력으로 주어진 위치(row, col, channel)에 해당하는 픽셀 값을 반환한다.
- 단, 패딩(pad)이 적용되어 있는 경우, 패딩 크기만큼 위치를 조정하여 이미지 데이터를 가져온다.
- 만약 가져올 데이터가 이미지의 범위를 벗어나는 경우, 0을 반환한다.
설명:
- 이미지 데이터를 2차원 배열 형태로 변환하는 im2col 연산에서, 주어진 위치에 대응하는 데이터를 가져오기 위해 사용된다.
- 이 함수는 해당 위치(row, col, channel)에서의 값을 가져오는 역할을 한다.
- 이미지 데이터는 1차원 배열로 저장되어 있기 때문에, row, col, channel 정보를 이용하여 인덱스를 계산하여 값을 가져온다.
- 단, 패딩이 적용된 경우, row와 col에서 패딩의 크기(pad)를 뺀 값을 사용하여 인덱스를 계산한다.
im2col_cpu
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
//From Berkeley Vision's Caffe!
//https://github.com/BVLC/caffe/blob/master/LICENSE
void im2col_cpu(float* data_im,
int channels, int height, int width,
int ksize, int stride, int pad, float* data_col)
{
int c,h,w;
int height_col = (height + 2*pad - ksize) / stride + 1;
int width_col = (width + 2*pad - ksize) / stride + 1;
int channels_col = channels * ksize * ksize;
for (c = 0; c < channels_col; ++c) {
int w_offset = c % ksize;
int h_offset = (c / ksize) % ksize;
int c_im = c / ksize / ksize;
for (h = 0; h < height_col; ++h) {
for (w = 0; w < width_col; ++w) {
int im_row = h_offset + h * stride;
int im_col = w_offset + w * stride;
int col_index = (c * height_col + h) * width_col + w;
data_col[col_index] = im2col_get_pixel(data_im, height, width, channels,
im_row, im_col, c_im, pad);
}
}
}
}
함수 이름: im2col_cpu
입력:
- data_im: float 포인터, 입력 이미지 데이터 포인터
- channels: int, 입력 이미지 채널 수
- height: int, 입력 이미지 높이
- width: int, 입력 이미지 너비
- ksize: int, 필터(커널) 크기
- stride: int, 스트라이드 크기
- pad: int, 패딩 크기
- data_col: float 포인터, 변환된 이미지 데이터 포인터
동작:
- 입력 이미지를 필터 크기, 스트라이드, 패딩 정보를 기반으로 im2col 방식으로 변환하여 data_col에 저장하는 함수입니다.
- Caffe라는 머신러닝 프레임워크에서 가져온 코드로, 입력 이미지의 각 채널에서 필터의 크기만큼 움직여가며 슬라이딩 윈도우를 만들고, 윈도우 내의 값을 일렬로 늘어놓은 다음, data_col에 저장합니다.
설명:
- height_col: int, im2col 변환 후 출력 이미지 높이
- width_col: int, im2col 변환 후 출력 이미지 너비
- channels_col: int, im2col 변환 후 출력 이미지 채널 수
- c: int, channels_col 내 현재 채널 인덱스
- w_offset: int, 현재 채널에서 필터의 너비 오프셋
- h_offset: int, 현재 채널에서 필터의 높이 오프셋
- c_im: int, 현재 채널에서 입력 이미지 채널 인덱스
- h: int, 출력 이미지의 현재 높이 인덱스
- w: int, 출력 이미지의 현재 너비 인덱스
- im_row: int, 입력 이미지 내 현재 위치의 높이 인덱스
- im_col: int, 입력 이미지 내 현재 위치의 너비 인덱스
- col_index: int, 출력 이미지 내 현재 위치의 인덱스
- im2col_get_pixel: im2col 변환시 현재 위치에서의 픽셀 값을 가져오는 함수
This post is licensed under CC BY 4.0 by the author.