Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization
1. 서 론 2. 관련 연구 3. 정치적 편향성 분류 시스템 4. 실험 및 평가 5. 결 론 감사의 글 References
뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.
In the political field of news articles, there are polarized and biased characteristics such as conservative and liberal, which is called political bias. We constructed keyword-based dataset to classify bias of news articles. Most embedding researches represent a sentence with sequence of morphemes. In our work, we expect that the number of unknown tokens will be reduced if the sentences are constituted by subwords that are segmented by the language model. We propose a document embedding model with subword tokenization and apply this model to SVM and feedforward neural network structure to classify the political bias. As a result of comparing the performance of the document embedding model with morphological analysis, the document embedding model with subwords showed the highest accuracy at 78.22%. It was confirmed that the number of unknown tokens was reduced by subword tokenization. Using the best performance embedding model in our bias classification task, we extract the keywords based on politicians. The bias of keywords was verified by the average similarity with the vector of politicians from each political tendency.
한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.
이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.
간행물명 | 수록권호 |
---|---|
|
10권 3호 ~ 10권 3호 |
|
10권 3호 ~ 10권 3호 |
|
22권 1호 ~ 22권 1호 |
한국정보처리학회 학술대회논문집 |
23권 2호 ~ 24권 1호 |
한국정보처리학회 학술대회논문집 |
20권 1호 ~ 20권 2호 |
한국정보처리학회 학술대회논문집 |
25권 2호 ~ 25권 2호 |
한국정보처리학회 학술대회논문집 |
25권 1호 ~ 25권 1호 |
한국정보처리학회 학술대회논문집 |
24권 2호 ~ 24권 2호 |
한국정보처리학회 학술대회논문집 |
22권 1호 ~ 23권 1호 |
한국정보처리학회 학술대회논문집 |
21권 1호 ~ 21권 2호 |
한국정보처리학회 학술대회논문집 |
18권 2호 ~ 19권 2호 |
한국정보처리학회 학술대회논문집 |
17권 1호 ~ 18권 1호 |
한국정보처리학회 학술대회논문집 |
15권 2호 ~ 16권 2호 |
한국정보처리학회 학술대회논문집 |
11권 1호 ~ 12권 1호 |
한국정보처리학회 학술대회논문집 |
12권 2호 ~ 13권 2호 |
한국정보처리학회 학술대회논문집 |
14권 1호 ~ 15권 1호 |
|
10권 2호 ~ 10권 2호 |
|
10권 2호 ~ 10권 2호 |
|
17권 1호 ~ 17권 1호 |
한국정보처리학회 학술대회논문집 |
26권 1호 ~ 26권 2호 |
자료제공: 네이버학술정보 |
---|
자료제공: 네이버학술정보 |
---|
본 자료는 원문파일이 존재하지 않거나 서비스를 위한 준비 중입니다.
빠른 시일 내에 서비스할 수 있도록 노력하겠습니다.
관련문의사항은 kiss@kstudy.com 으로 연락주시기 바랍니다.
감사합니다.
개인회원가입으로 더욱 편리하게 이용하세요.
아이디/비밀번호를 잊으셨나요?