반응형
Recent Posts
Notice
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 큐
- 코딩테스트 준비
- easy 딥러닝
- 99클럽
- 99항해
- til
- 항해99
- softeer
- 활성화 함수
- 해시
- 알고리즘
- 백준 2309
- 스택
- 기능개발
- 딥러닝
- 백준
- dfs
- 개발자 취업
- Python
- 개발자취업
- 코딩테스트준비
- 프로그래머스
- BFS
- 파이썬
- 구현
- python 2309
- 혁펜하임
- BOJ
- boj 2309
- leetcode
Archives
- Today
- Total
동까의 코딩
Easy! 딥러닝 chapter 3 본문
반응형
MLP와 활성화 함수: 비선형성의 중요성과 학습 과정
인공 신경망은 웨이트를 곱하고 바이어스를 더한 후 활성화 함수를 적용하여 정보를 처리합니다. 대표적인 예가 다층 퍼셉트론(MLP, Multi-Layer Perceptron)으로, 여러 층의 뉴런들이 연결되어 복잡한 함수 근사를 수행합니다.
1. 다층 퍼셉트론 (MLP)
동작 원리:
각 뉴런은 다음의 과정을 거칩니다.- 웨이트 곱셈: 입력값에 각기 다른 웨이트를 곱합니다.
- 바이어스 더하기: 계산된 값에 바이어스를 더하여 조정합니다.
- 활성화 함수 적용: 결과 값을 활성화 함수를 통과시켜 다음 층으로 전달할 출력을 생성합니다.
구성:
- 입력 레이어: 외부 데이터를 받아들이는 층.
- 은닉 레이어: 중간에서 데이터의 특징을 추출하는 층.
- 출력 레이어: 최종 결과를 내는 층.
2. 활성화 함수와 비선형성의 중요성
비선형 활성화 함수
- 필요성:
- 비선형 함수를 사용해야 신경망이 깊어질수록 단순 선형 변환 이상의 복잡한 함수 근사가 가능합니다.
- 예를 들어, 100층의 네트워크에서 99개의 비선형 활성화와 1개의 선형 활성화만 있어도 충분한 비선형성을 확보할 수 있습니다.
- MobileNetV2에서는 비선형 활성화의 효과를 극대화하여 정보 손실을 최소화하는 아이디어를 도입했습니다.
활성화 함수 종류
ReLU (Rectified Linear Unit)
- 정의: 양수는 그대로, 음수는 0으로 변환합니다.
- 장점: 계산이 간단하며, 깊은 네트워크에서 효과적입니다.
- 단점: 일부 층에서 노드 수가 줄어들면 차원 축소로 인한 정보 손실이 발생할 수 있습니다.
선형 활성화 함수
- 특징:
- 추가적인 복잡도가 없고, 입력 정보를 그대로 보존합니다.
- 용도:
- 정보 손실 없이 데이터를 전달하고자 할 때 사용됩니다.
- 특징:
비선형 활성화 함수
- 특징:
- 더 복잡한 함수 표현이 가능하지만, 예를 들어 ReLU와 같이 일부 정보(음수 부분)를 차단해 잠재적인 정보 손실이 발생할 수 있습니다.
- 특징:
노드 수 변화와 정보 손실
- 노드 수 감소:
- 차원 축소로 인해 일부 정보가 압축되면서 손실될 수 있습니다.
- 노드 수 증가:
- 정보 손실은 발생하지 않지만, 새로운 정보가 생성되지는 않습니다.
3. 인공 신경망의 학습 과정
인공 신경망은 다음의 단계로 학습을 진행합니다:
순전파 (Forward Propagation)
- 입력 처리:
입력 데이터를 받아 각 노드에서 웨이트 곱셈, 바이어스 추가, 활성화 함수를 통해 출력값을 계산합니다. - 중간 결과 저장:
계산된 값들을 저장하여, 역전파 시에 사용합니다.
역전파 (Backpropagation)
- 그래디언트 계산:
출력층부터 시작해, 저장된 중간 값들을 활용하여 각 파라미터(웨이트와 바이어스)에 대한 그래디언트를 계산합니다. - 오차 전파:
계산된 그래디언트를 이용해 각 층으로 오차를 역방향으로 전달합니다.
최적화 (Optimization)
- 파라미터 업데이트:
SGD, Adam 등과 같은 최적화 알고리즘을 사용해, 계산된 그래디언트 방향으로 파라미터를 업데이트합니다. - 목표:
손실 함수(Loss Function)의 값을 최소화하여, 모델의 예측 정확도를 높입니다.
이 과정은 손실 값이 충분히 낮아지거나 더 이상 개선되지 않을 때까지 반복됩니다.
결론
MLP는 웨이트, 바이어스, 그리고 활성화 함수의 결합으로 입력 데이터를 처리하고 복잡한 패턴을 학습합니다.
비선형 활성화 함수는 네트워크가 복잡한 함수를 모델링할 수 있도록 도와주며, 적절한 활성화 함수 선택과 노드 구성은 정보 손실을 최소화하는 데 중요합니다.
또한, 순전파, 역전파, 최적화의 반복 과정을 통해 신경망은 점차적으로 학습되어 최적의 성능을 달성합니다.
이와 같은 기본 개념들을 이해하는 것은 딥러닝 모델의 설계와 학습 최적화에 있어 필수적인 요소입니다.
반응형
'ML, DL' 카테고리의 다른 글
Easy! 딥러닝 chapter 2-2 (0) | 2024.12.26 |
---|---|
Easy! 딥러닝 chapter 2-1 (1) | 2024.12.15 |
Easy! 딥러닝 chapter 1 (1) | 2024.12.11 |