DarkNet 시리즈 - Local Layer
local_layer
local_out_height
1
2
3
4
5
6
7
int local_out_height(local_layer l)
{
int h = l.h;
if (!l.pad) h -= l.size;
else h -= 1;
return h/l.stride + 1;
}
함수 이름: local_out_height
입력:
- local_layer l: 로컬 레이어 구조체
동작:
- 입력으로 받은 로컬 레이어의 높이(height)에 대한 출력 높이(output height)를 계산한다.
- 패딩(padding)이 적용되어 있지 않은 경우 필터(filter) 크기(size)만큼 높이를 줄이고, 패딩이 적용된 경우 높이에서 1만큼 빼준다.
- 그리고 나서 출력 높이를 계산하기 위해 stride로 나누고 1을 더해준다.
설명:
- 이 함수는 로컬 레이어의 출력 높이를 계산하는 함수로, 필터와 입력 데이터의 크기, 스트라이드 등의 정보를 이용해 계산한다.
- 이 계산은 로컬 레이어의 순전파(forward propagation) 단계에서 필요하며, 출력 높이를 계산하는 것은 출력 데이터의 크기를 결정하는 중요한 요소 중 하나이다.
local_out_width
1
2
3
4
5
6
7
int local_out_width(local_layer l)
{
int w = l.w;
if (!l.pad) w -= l.size;
else w -= 1;
return w/l.stride + 1;
}
함수 이름: local_out_width
입력:
- local_layer l (로컬 레이어 구조체)
동작:
- 로컬 레이어의 출력 너비를 계산하여 반환합니다.
설명:
- 입력 이미지에 대해 로컬 필터링을 수행한 후 출력 이미지의 너비를 계산합니다.
- 너비는 패딩이 적용된 경우 입력 너비에서 필터 크기를 뺀 값에 1을 더한 후, 스트라이드로 나누어 계산됩니다.
forward_local_layer
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
void forward_local_layer(const local_layer l, network net)
{
int out_h = local_out_height(l);
int out_w = local_out_width(l);
int i, j;
int locations = out_h * out_w;
for(i = 0; i < l.batch; ++i){
copy_cpu(l.outputs, l.biases, 1, l.output + i*l.outputs, 1);
}
for(i = 0; i < l.batch; ++i){
float *input = net.input + i*l.w*l.h*l.c;
im2col_cpu(input, l.c, l.h, l.w,
l.size, l.stride, l.pad, net.workspace);
float *output = l.output + i*l.outputs;
for(j = 0; j < locations; ++j){
float *a = l.weights + j*l.size*l.size*l.c*l.n;
float *b = net.workspace + j;
float *c = output + j;
int m = l.n;
int n = 1;
int k = l.size*l.size*l.c;
gemm(0,0,m,n,k,1,a,k,b,locations,1,c,locations);
}
}
activate_array(l.output, l.outputs*l.batch, l.activation);
}
함수 이름: forward_local_layer
입력:
- const local_layer l
- network net
동작:
- 로컬 레이어의 순전파 연산을 수행합니다.
- 입력 데이터를 im2col 방식으로 전처리하고, 커널과의 행렬곱을 계산하여 출력값을 얻습니다.
- 마지막으로 활성화 함수를 적용합니다.
설명:
- l: 로컬 레이어의 정보를 담고 있는 구조체
- net: 네트워크 정보를 담고 있는 구조체
- out_h: 출력값의 높이
- out_w: 출력값의 너비
- locations: 출력값의 전체 크기
- biases: 로컬 레이어의 편향값
- input: 네트워크의 입력 데이터
- output: 로컬 레이어의 출력값
- weights: 로컬 레이어의 가중치값
- a: 커널과 입력값을 행렬곱하기 위한 배열
- b: im2col 방식으로 전처리된 입력값
- c: 출력값을 저장하기 위한 배열
- m, n, k: 행렬곱을 위한 매개변수
- activate_array: 활성화 함수를 적용하는 함수
backward_local_layer
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
void backward_local_layer(local_layer l, network net)
{
int i, j;
int locations = l.out_w*l.out_h;
gradient_array(l.output, l.outputs*l.batch, l.activation, l.delta);
for(i = 0; i < l.batch; ++i){
axpy_cpu(l.outputs, 1, l.delta + i*l.outputs, 1, l.bias_updates, 1);
}
for(i = 0; i < l.batch; ++i){
float *input = net.input + i*l.w*l.h*l.c;
im2col_cpu(input, l.c, l.h, l.w,
l.size, l.stride, l.pad, net.workspace);
for(j = 0; j < locations; ++j){
float *a = l.delta + i*l.outputs + j;
float *b = net.workspace + j;
float *c = l.weight_updates + j*l.size*l.size*l.c*l.n;
int m = l.n;
int n = l.size*l.size*l.c;
int k = 1;
gemm(0,1,m,n,k,1,a,locations,b,locations,1,c,n);
}
if(net.delta){
for(j = 0; j < locations; ++j){
float *a = l.weights + j*l.size*l.size*l.c*l.n;
float *b = l.delta + i*l.outputs + j;
float *c = net.workspace + j;
int m = l.size*l.size*l.c;
int n = 1;
int k = l.n;
gemm(1,0,m,n,k,1,a,m,b,locations,0,c,locations);
}
col2im_cpu(net.workspace, l.c, l.h, l.w, l.size, l.stride, l.pad, net.delta+i*l.c*l.h*l.w);
}
}
}
함수 이름: backward_local_layer
입력:
- local_layer 구조체 l
- network 구조체 net
동작:
- local_layer를 역전파하는 함수입니다.
- 출력값에 대한 델타를 계산하고, 바이어스 업데이트 및 가중치 업데이트를 수행합니다.
- 이후 입력값에 대한 델타를 계산합니다.
설명:
- l.delta: 출력값의 델타를 저장하는 배열
- l.bias_updates: 바이어스 업데이트를 저장하는 배열
- l.weight_updates: 가중치 업데이트를 저장하는 배열
- net.workspace: im2col 연산의 결과를 저장하는 배열
- net.delta: 이전 레이어의 델타를 저장하는 배열
- 출력값에 대한 델타를 계산합니다.
- 모든 배치에 대해 바이어스 업데이트를 수행합니다.
- 모든 배치에 대해 im2col 연산을 수행합니다.
- 모든 배치 및 위치에 대해 가중치 업데이트를 수행합니다.
- 이전 레이어의 델타를 계산하고 net.delta 배열에 저장합니다.
update_local_layer
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
void update_local_layer(local_layer l, update_args a)
{
float learning_rate = a.learning_rate*l.learning_rate_scale;
float momentum = a.momentum;
float decay = a.decay;
int batch = a.batch;
int locations = l.out_w*l.out_h;
int size = l.size*l.size*l.c*l.n*locations;
axpy_cpu(l.outputs, learning_rate/batch, l.bias_updates, 1, l.biases, 1);
scal_cpu(l.outputs, momentum, l.bias_updates, 1);
axpy_cpu(size, -decay*batch, l.weights, 1, l.weight_updates, 1);
axpy_cpu(size, learning_rate/batch, l.weight_updates, 1, l.weights, 1);
scal_cpu(size, momentum, l.weight_updates, 1);
}
함수 이름: update_local_layer
입력:
- local_layer l: 로컬 레이어 객체
- update_args a: 업데이트 인자 객체
동작:
- 로컬 레이어의 가중치와 편향을 업데이트하는 함수입니다.
- 업데이트는 경사 하강법을 사용하여 수행됩니다.
- 편향은 배치 크기로 나눈 학습률과 모멘텀을 사용하여 업데이트하고, 가중치는 학습률과 가중치 감쇠, 모멘텀을 사용하여 업데이트합니다.
설명:
- local_layer: 로컬 레이어 객체로, 로컬 레이어의 출력, 가중치, 편향 등의 정보를 저장합니다.
- update_args: 업데이트 인자 객체로, 학습률, 모멘텀, 가중치 감쇠, 배치 크기 등의 업데이트에 필요한 정보를 저장합니다.
- axpy_cpu(): 벡터 덧셈과 스칼라 곱을 수행하는 함수입니다.
- scal_cpu(): 벡터를 스칼라로 곱하는 함수입니다.
make_local_layer
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
local_layer make_local_layer(int batch, int h, int w, int c, int n, int size, int stride, int pad, ACTIVATION activation)
{
int i;
local_layer l = {0};
l.type = LOCAL;
l.h = h;
l.w = w;
l.c = c;
l.n = n;
l.batch = batch;
l.stride = stride;
l.size = size;
l.pad = pad;
int out_h = local_out_height(l);
int out_w = local_out_width(l);
int locations = out_h*out_w;
l.out_h = out_h;
l.out_w = out_w;
l.out_c = n;
l.outputs = l.out_h * l.out_w * l.out_c;
l.inputs = l.w * l.h * l.c;
l.weights = calloc(c*n*size*size*locations, sizeof(float));
l.weight_updates = calloc(c*n*size*size*locations, sizeof(float));
l.biases = calloc(l.outputs, sizeof(float));
l.bias_updates = calloc(l.outputs, sizeof(float));
// float scale = 1./sqrt(size*size*c);
float scale = sqrt(2./(size*size*c));
for(i = 0; i < c*n*size*size; ++i) l.weights[i] = scale*rand_uniform(-1,1);
l.output = calloc(l.batch*out_h * out_w * n, sizeof(float));
l.delta = calloc(l.batch*out_h * out_w * n, sizeof(float));
l.workspace_size = out_h*out_w*size*size*c;
l.forward = forward_local_layer;
l.backward = backward_local_layer;
l.update = update_local_layer;
l.activation = activation;
fprintf(stderr, "Local Layer: %d x %d x %d image, %d filters -> %d x %d x %d image\n", h,w,c,n, out_h, out_w, n);
return l;
}
함수 이름: make_local_layer
입력:
- int batch: 배치 크기
- int h: 입력 이미지 높이
- int w: 입력 이미지 너비
- int c: 입력 이미지 채널 수
- int n: 필터 수
- int size: 필터 크기
- int stride: 스트라이드
- int pad: 패딩
- ACTIVATION activation: 활성화 함수
동작:
- 로컬 레이어를 생성하고 초기화한 후 반환한다.
설명:
- 로컬 레이어를 초기화하기 위해 필요한 파라미터를 입력으로 받는다.
- 로컬 레이어의 출력 크기와 필요한 메모리를 계산한다.
- 로컬 레이어의 가중치, 편향, 출력, 델타, 가중치 업데이트, 편향 업데이트 등을 저장할 메모리를 할당한다.
- 가중치는 sqrt(2./(size_size_c))로 스케일링된 값으로 초기화하며, 편향은 0으로 초기화한다.
- 로컬 레이어의 forward, backward, update 함수를 설정한다.
- 초기화된 로컬 레이어를 반환한다.
This post is licensed under CC BY 4.0 by the author.