ML
-
LightGBM missing values NULL 값ML 2023. 1. 5. 10:58
두 가지 방법이 있다. 1. missing 값 그대로 놔두고, 모델이 처리하게 놔두는 방법 아래처럼 디폴트로 missing value 취급 numercial features에서 missing value는 split할 때는 무시하다가, 가장 loss 줄어드는 split의 side에 배정된다. 가장 유력한 가지의 한 쪽에 배정된다는 뜻인듯? categorical features에서는 항상 right side of split에 배정된다? 이것도 한 쪽에 배치된다는건가 https://github.com/microsoft/LightGBM/issues/2921 https://datascience.stackexchange.com/questions/65956/how-do-gbm-algorithms-handle-miss..
-
SHAP 해석ML/XAI 2023. 1. 3. 19:14
+ (빨간막대) 이면, 모델 예측값들을 높게끔 푸시한다는 뜻 샤프 발류는 한 피쳐의 모델 아웃풋 변화에 대한 기여도이다. lightgbm shap example : https://mlflow.org/docs/latest/python_api/mlflow.lightgbm.html#mlflow.lightgbm.load_model mlflow.lightgbm — MLflow 2.1.1 documentation pip_requirements – Either an iterable of pip requirement strings (e.g. ["lightgbm", "-r requirements.txt", "-c constraints.txt"]) or the string path to a pip requirements ..
-
SHAP for imbalanced dataML/XAI 2023. 1. 3. 13:53
ref : https://github.com/slundberg/shap/issues/946
-
SHAP with train vs. test dataML/XAI 2023. 1. 2. 18:12
https://github.com/slundberg/shap/issues/259 Shap value - train/test set · Issue #259 · slundberg/shap First of all,congrats for the amazing shap package @slundberg. I understand that the following code produces the shap values for every feature in every observation of my model: explainer = shap.Tre... github.com 결론 : train 이든 test 로 하던 상관없음. 원하는 걸로 넣어서 하면 된다
-
PSM propensity score matchingML 2022. 12. 13. 13:54
- random assignment 불가능한 경우가 많기 때문에, 관측한 데이터를 가지고 X의 영향력을 알고 싶을 때. - 예) A 플랫폼에서 마케팅 쿠폰 사용여부(X)에 따른 구매여부(Y) 효과가 있었는지 알고 싶다고 하자. 제일 간단하게 비교해보는 건 쿠폰 사용한 유저/사용하지 않은 유저에 대해 구매여부 평균을 비교해보는 방법일 것이다. 그런데 엄밀히 따지자면 사용하지 않은 유저는 A플랫폼에 대한 선호도가 없어서 일수도 있고, 쿠폰 항목에 대한 관심도가 적을 수도 있다. 즉, 쿠폰 사용여부말고도 다른 변인들이 영향을 주었을 수도 있다. 그러면 쿠폰 사용한 유저/사용하지 않은 유저 중, 단순 평균이 아니라 비슷한 유저끼리 짝을 지어 비교해보면 어떨까? 그 비슷한의 기준을 psm에서는 logistic r..
-
Minhash & LSHML 2022. 11. 18. 19:17
- min hashing : 차원이 엄청나게 클때, 다른 차원과의 유사도 계산을 위해 해싱함수를 사용하여 저차원으로 매핑 - 필요성 : jaccard similarity가 nlp 같이 고차원에서 쓰이고는 하는데, 너무 단어수가 많은 경우 시간이 오래걸림 - min hash similarity : min hash 하고 난 값들에 대하여 얼마나 비슷하게 많이 나오나 보는건데, 예를 들어 문서에서 가장 먼저 나온 단어가 의미있다고 보고, 이 단어가 몇번째 index에 나왔는지를 랜덤으로 계속 보고, 이게 유사하게 나온 다른 문서를 비슷하다고 정의 - LSH : min hash 값들을 활용하여 비슷한 문서를 찾는것 - bucket hashing : band(signature묶음) & signature(문서에서 ..