분류 2

[Pytorch] 임베딩 (2) / GloVe임베딩 + CNN 을 활용한 뉴스 카테고리 분류기 구현

파이토치로 배우는 자연어처리 책을 참고하여 작성했습니다. 이전 포스팅에선 임베딩의 개념에 대해서 정리해보았다. 이번 포스팅에선 사전 훈련된 임베딩 GloVe와 CNN모델을 활용하여 뉴스 카테고리를 분류하는 모델을 구축하는 코드를 리뷰해보고자 한다. 코드리뷰는 참고한 책에서 추가 보충 설명을 달아놓고 이해를 높이기 위함이므로 전체 코드를 보고 싶다면 코드 원본 출처에서 보도록 하자. ▶ 분석 개요 분석에 사용할 데이터는 AG 뉴스 데이터 셋으로 2005년에 수집한 뉴스 기사 모음이다. 해당 분석에서는 네가지 범주로 균등하게 분할된 뉴스 기사 12만개에서 뉴스 제목을 대상으로 카테고리를 예측하는 분류모델을 만들었다. ▶ 분석 과정 분석과정은 다음 그림과 같다. - 우선 텍스트를 정수로 매핑하기 위해 voca..

confusion matrix(혼돈행렬)과 TP,FP,FN,TN & Precision, Recall, f1-score에 대해

fpr, tpr, fnr, tpr은 roc-curve, f1-score등을 산출해내는 지표로, classification문제에서 모델의 분류 정확도를 평가하기 위해 사용된다. 그렇기 때문에 분류모델을 구축하기 위해선 꼭 짚어두고 가야하는 개념이다. 몇 번을 보고, 배운 개념이지만 자꾸 헷갈리고 찾아보게되어 이 기회에 완벽히 숙지하고 넘어가려한다. ▶confusion matrix와 TP,FP,FN,TN confusion matrix(혼돈행렬)은 단어에서 알 수 있듯이 컴퓨터가 (대표적으로)이진분류 문제를 수행한다고 할때 두개의 클래스를 얼마나 헷갈려하는지를 알 수 있는 지표이다. 열에는 대상의 실제클래스가, 행에는 대상의 예측된 클래스가 위치한다. 각 행렬요소들은 tp, fp, fn, tn으로 구성된다. ..

수학/통계학 2021.02.24