-
Entropy, Cross Entropy, KLDML 2022. 6. 11. 20:20
- cross entropy
- Reference : https://hyunw.kim/blog/2017/10/14/Entropy.html
- 정보량 : 어떤 내용을 표현하기 위해 물어야 하는 최소의 질문 갯수. 이 질문개수가 많을수록 파악하기 어려운거라 정보량이 어렵다고 보면 된다.
- 1,0으로만 표현가능하다고 했을때
- Q1. 지금 동전이 앞면인가? —> 한번 물어보면 됨.
- \(2^{질문개수} = 2\)
- ↔ 질문개수 = \(log_22\) = 정보량
- Q2.지금 알파벳이 26개중 무엇인가? —> 2^5라, 5번 물어봐야함.
- \(2^{질문개수} = 26\)
- ↔ 질문개수 = \(log_226\) = 정보량
- 질문개수 = \(log_2{가능한 결과의 수}\) = 정보량H
- \(log_2{가능한 결과의 수}\)
- Q1. 지금 동전이 앞면인가? —> 한번 물어보면 됨.
- 1,0으로만 표현가능하다고 했을때
- entropy
- \(H = \sum{사건발생확률}*log_2{\frac{1}{사건발생확률}}\)
- \(=\sum_{i}{p_i}*log_2{\frac{1}{p_i}}\)
- \(=-\sum_{i}{p_i}*log_2{p_i}\)
- 알파벳에서는 사건 발생확률이 1/26이었음.
- \(H = \sum_{i=1}^{26}{1/26}*log_2{\frac{1}{1/26}}=log_226\)
- cross entropy
- 어떤 문제에 대해 특정 전략을 쓸때 (log2_) 예상되는 질문개수에 대한 기댓값.
- 확률분포로 된 어떤 문제 p에 대해 확률 분포로 된 어떤 전략 q를 사용할때의 질문 개수의 기댓값
- \(H(p,q)\)
- \(=\sum_{i}{p_i}*log_2{\frac{1}{q_i}}\)
- \(=-\sum_{i}{p_i}*log_2{q_i}\)
- 보통 ml에서는 p가 진짜 정답값, q가 예측값으로 사용함.
- cross entropy가 최소가 될때는 해당 문제에 최적의 전략을 사용할때. qi = pi 분포 동일할떄…
- log loss
- 1로 predict 될 확률 pi로 가정
- likelihood는 \(L(\theta|X) = \Pi_{i}^{n}p(x_i|\theta) = \Pi_{i}^{n}Ber(\theta(=p_i))\)
- maximize \(l(p_i|X) = \sum{y_i}\log{p_i}+\sum({1-y_i})\log({1-p_i})\)
- ↔minimize \(-l(p_i|X)\)
- ↔ minimize cross entropy
- cross entropy is called as negative log likelihood
- KLD (KL divergence)
- \(H(p,q) = -\sum{p_i}\log_2{q_i} = -\sum{p_i}(\log_2{q_i/p_i}+\log_2{p_i})\)
- \(= -\sum{p_i}\log_2{p_i} + -\sum{p_i}\log_2{q_i/p_i}\)
- \(= H(p)+ -\sum{p_i}\log_2{q_i/p_i}\)
- \(-\sum{p_i}\log_2{q_i/p_i}\) 가 KLD, H(p,q)와 H(p)의 차이.
- \(KL(p||q) = H(p,q)-H(p)\)
- p와 q의 cross entropy에서 P의 엔트로피 뺀값. 두 분포의 차이.
- ≥0 , because cross entropy 의 Lower bound는 Entropy
- 거리개념이 아니다. asymmetric함
- minimize KLD
- ↔ minimize cross entropy
- ↔ maximize likelihood
'ML' 카테고리의 다른 글
Causal Forest vs Causal impact (0) 2022.07.18 ALS vs. SGD (0) 2022.06.11 Precision vs. Recall & AUC plot (0) 2022.06.11 Clustering Validation - Prediction Strength (0) 2022.06.10 Causal Inference - causal mediation analysis vs DID vs SCM vs causal impact (0) 2022.06.10 - cross entropy