[리포트] 문서의 분류 / 1. Introduction 문서분류를 하는 방법은 크게 ‘wo
페이지 정보
작성일 23-05-23 06:18
본문
Download : 문서의분류, 1. Introdu.hwp
data의 크기를 줄이는 것은 term수를 줄이는 것(Dimension reduction)과 document수를 줄이는 것(Document reduction)이 있따 Dimension reduction의 통계적인 방법 중 가장 기초가 되는 것이 Principal Component Analysis(이하 PCA)이다. 그러나 데이터의 dimension이 높고 복잡할 때는 linear한 PCA는 적당하지 못할 것이다. 그런데 여기서 문제가 되는 것이 이 document-term matrix의 크기가 매우 방대하여 이것을 가지고 그대로 문서분류 시스템을 학습하면 학습이 거의 불가능 할 뿐만 아니라, 학습데이터의 noise도 무시할 수 없이 크다. nonlinear하게 feature extr...
다. 통계적인 방법을 좀 더 정확하게 定義(정이)하면 다음과 같다.레포트 > 기타





Download : 문서의분류, 1. Introdu.hwp( 25 )
설명
1. Introduction 문서분류를 하는 방법은 크게 ‘wordnet...
1. Introduction 문서분류를 하는 방법은 크게 ‘wordnet...
[리포트] 문서의 분류 / 1. Introduction 문서분류를 하는 방법은 크게 ‘wo
레포트 문서의 분류 / 1. Introduction 문서분류를 하는 방법은 크게 ‘wo
순서
1. Introduction 문서분류를 하는 방법은 크게 ‘wordnet`등 사람의 직접 만들어 놓은 사전을 이용하는 방법(thesaurus based method)과 통계적인 방법(statistical method)이다. 그래서 data의 크기를 줄이는 여러 가지 방법이 제안되었다. (Yang, 1995) “Statistical learning of text-to-categories mapping based on human assignments` 통계적인 방법에서 문서분류를 위한 시스템을 학습할 때 사용하는 데이터는 일반 문서를 전처리(preprocessing)1)하여 만든 document-term matrix이다. 이 프로젝트에서는 문서 데이터와 같이 dimension이 높은 data의 dimension을 줄일 때 linear PCA보다는 non-linear PCA가 더 적당하다는 가정 하에 linear PCA와 nonlinear PCA로 각각 dimension reduction을 하고, neural network로 class를 학습하여 generalization performance를 비교할 것이다.