ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Entropy, Cross Entropy, KLD
    ML 2022. 6. 11. 20:20
    • cross entropy
      • Reference : https://hyunw.kim/blog/2017/10/14/Entropy.html
      • 정보량 : 어떤 내용을 표현하기 위해 물어야 하는 최소의 질문 갯수. 이 질문개수가 많을수록 파악하기 어려운거라 정보량이 어렵다고 보면 된다.
        • 1,0으로만 표현가능하다고 했을때
          • Q1. 지금 동전이 앞면인가? —> 한번 물어보면 됨.
            • \(2^{질문개수} = 2\)
            • ↔ 질문개수 = \(log_22\) = 정보량
          • Q2.지금 알파벳이 26개중 무엇인가? —> 2^5라, 5번 물어봐야함.
            • \(2^{질문개수} = 26\)
            • ↔ 질문개수 = \(log_226\) = 정보량
          • 질문개수 = \(log_2{가능한 결과의 수}\) = 정보량H
          • \(log_2{가능한 결과의 수}\)
      • entropy
        • \(H = \sum{사건발생확률}*log_2{\frac{1}{사건발생확률}}\)
        • \(=\sum_{i}{p_i}*log_2{\frac{1}{p_i}}\)
        • \(=-\sum_{i}{p_i}*log_2{p_i}\)
        • 알파벳에서는 사건 발생확률이 1/26이었음.
        • \(H = \sum_{i=1}^{26}{1/26}*log_2{\frac{1}{1/26}}=log_226\)
      • cross entropy
        • 어떤 문제에 대해 특정 전략을 쓸때 (log2_) 예상되는 질문개수에 대한 기댓값.
        • 확률분포로 된 어떤 문제 p에 대해 확률 분포로 된 어떤 전략 q를 사용할때의 질문 개수의 기댓값
        • \(H(p,q)\)
        • \(=\sum_{i}{p_i}*log_2{\frac{1}{q_i}}\)
        • \(=-\sum_{i}{p_i}*log_2{q_i}\)
        • 보통 ml에서는 p가 진짜 정답값, q가 예측값으로 사용함.
        • cross entropy가 최소가 될때는 해당 문제에 최적의 전략을 사용할때. qi = pi 분포 동일할떄…
        • log loss
          • 1로 predict 될 확률 pi로 가정
          • likelihood는 \(L(\theta|X) = \Pi_{i}^{n}p(x_i|\theta) = \Pi_{i}^{n}Ber(\theta(=p_i))\)
            • maximize \(l(p_i|X) = \sum{y_i}\log{p_i}+\sum({1-y_i})\log({1-p_i})\)
            • ↔minimize \(-l(p_i|X)\)
            • ↔ minimize cross entropy
            • cross entropy is called as negative log likelihood
        • KLD (KL divergence)
          • \(H(p,q) = -\sum{p_i}\log_2{q_i} = -\sum{p_i}(\log_2{q_i/p_i}+\log_2{p_i})\)
          • \(= -\sum{p_i}\log_2{p_i} + -\sum{p_i}\log_2{q_i/p_i}\)
          • \(= H(p)+ -\sum{p_i}\log_2{q_i/p_i}\)
          • \(-\sum{p_i}\log_2{q_i/p_i}\) 가 KLD, H(p,q)와 H(p)의 차이.
          • \(KL(p||q) = H(p,q)-H(p)\)
            • p와 q의 cross entropy에서 P의 엔트로피 뺀값. 두 분포의 차이.
            • ≥0 , because cross entropy 의 Lower bound는 Entropy
            • 거리개념이 아니다. asymmetric함
          • minimize KLD
            • ↔ minimize cross entropy
            • ↔ maximize likelihood

    댓글

Designed by Tistory.