논문 상세보기

한국통계학회> 응용통계연구> `빅데이터` 분석 기반 한국사 연구의 현황과 가능성: 디지털 역사학의 시작

KCI등재

`빅데이터` 분석 기반 한국사 연구의 현황과 가능성: 디지털 역사학의 시작

Conditions and potentials of Korean history research based on `big data` analysis: the beginning of `digital history`

이상국 ( Sangkuk Lee )
  • : 한국통계학회
  • : 응용통계연구 29권6호
  • : 연속간행물
  • : 2016년 10월
  • : 1007-1023(17pages)

DOI


목차

1. 서론
2. 한국사 ‘빅데이터’의 현황과 관련 연구
3. 한국사 ‘빅데이터’ 기반 `디지털 역사학' 연구 방법론의 모색
4. 결론
References

키워드 보기


초록 보기

본 글은 역사학, 그 중에서 한국사 연구에서 활용 가능한 빅데이터 분석 방법론을 모색하고, 이를 활용한 `디지털 역사학`의 가능성을 검토하는 것을 목적으로 한다. 방대한 `한국사 빅데이터`를 활용한 한국사 연구를 위해서는 기존의 질적분석 방법론뿐만 아니라 양적분석 방법론이 모색되어야 한다. 이를 위해서는 다양한 학문 분야와의 학제 간 융합연구가 요청된다. 본 글에서는 `한국사 빅데이터`를 활용한 다양한 융합연구의 출현을 고대하면서, 학제 간 융합연구의 연구방법론을 제안하고, 이를 적용한 연구의 한 사례를 소개하였다. 즉, 문장의 의미를 분석하는 텍스트분석방법으로 `한국사 빅데이터`에서 원하는 정보를 추출한다면, 양적분석 방법론의 단점으로 지적되는 `행간의 의미읽기의 부재`를 점차 보완해 갈 수 있을 것이다. 그리고 이러한 방법론으로 구축한 데이터베이스를 바탕으로 준지도 학습(Semi-Supervised Learning) 방법론을 적용할 경우, 사료가 충분하지 않은 전근대 한국사의 역사적 인물과 사건들을 분석하는데 유용하게 활용될 것으로 기대된다. 분석 결과를 직관적으로 보여주는 시각화를 통해서도 평면적 연구에서 찾아내지 못한 역사적 사실들을 밝혀낼 수 있을 것이다. 이제 `디지털 역사학`의 서막이 오른 것이다.
This paper explores the conditions and potential of newly designed and tried methodology of big data anal-ysis that apply to Korean history subject matter. In order to advance them, we need to pay more attention to quantitative analysis methodologies over pre-existing qualitative analysis. To obtain our new challenge, I propose `digital history` methods along with associated disciplines such as linguistics and computer sci-ence, data science and statistics, and visualization techniques. As one example, I apply interdisciplinary convergence approaches to the principle and mechanism of elite reproduction during the Korean medieval age. I propose how to compensate for a lack of historical material by applying a semi-supervised learning method, how to create a database that utilizes text-mining techniques, how to analyze quantitative data with statistical methods, and how to indicate analytical outcomes with intuitive visualization.

UCI(KEPA)

I410-ECN-0102-2017-310-000578643

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2019
  • : 1835


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

발행기관 최신논문
| | | | 다운로드

1고차원 대용량 자료분석의 현재 동향

저자 : 장원철 ( Woncheol Jang ) , 김광수 ( Gwangsu Kim ) , 김정연 ( Joungyoun Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 999-1005 (7 pages)

다운로드

(기관인증 필요)

초록보기

빅 데이터의 출현은 여러가지 과학적 난제에 대답 할 수 있는 기회를 제공하지만 흥미로운 도전을 또한 제공한다. 이러한 빅데이터의 주요 특징으로 “고차원"과 “대용량"을 들 수가 있다. 본 논문은 이러한 두 가지 특징에 동반되는 다음과 같은 도전문제에 대한 개요를 제시한다 : (1) 고차원 자료에서의 소음 축적과 위 상관 관계; (ⅱ) 대용량자료분석을 위한 계산 확장성. 또한 본 논문에서는 재난예측, 디지털 인문학과 세이버메트릭스 등 다양한 분야에서 빅 데이터의 다양한 응용사례를 제공한다.

2`빅데이터` 분석 기반 한국사 연구의 현황과 가능성: 디지털 역사학의 시작

저자 : 이상국 ( Sangkuk Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1007-1023 (17 pages)

다운로드

(기관인증 필요)

초록보기

본 글은 역사학, 그 중에서 한국사 연구에서 활용 가능한 빅데이터 분석 방법론을 모색하고, 이를 활용한 `디지털 역사학`의 가능성을 검토하는 것을 목적으로 한다. 방대한 `한국사 빅데이터`를 활용한 한국사 연구를 위해서는 기존의 질적분석 방법론뿐만 아니라 양적분석 방법론이 모색되어야 한다. 이를 위해서는 다양한 학문 분야와의 학제 간 융합연구가 요청된다. 본 글에서는 `한국사 빅데이터`를 활용한 다양한 융합연구의 출현을 고대하면서, 학제 간 융합연구의 연구방법론을 제안하고, 이를 적용한 연구의 한 사례를 소개하였다. 즉, 문장의 의미를 분석하는 텍스트분석방법으로 `한국사 빅데이터`에서 원하는 정보를 추출한다면, 양적분석 방법론의 단점으로 지적되는 `행간의 의미읽기의 부재`를 점차 보완해 갈 수 있을 것이다. 그리고 이러한 방법론으로 구축한 데이터베이스를 바탕으로 준지도 학습(Semi-Supervised Learning) 방법론을 적용할 경우, 사료가 충분하지 않은 전근대 한국사의 역사적 인물과 사건들을 분석하는데 유용하게 활용될 것으로 기대된다. 분석 결과를 직관적으로 보여주는 시각화를 통해서도 평면적 연구에서 찾아내지 못한 역사적 사실들을 밝혀낼 수 있을 것이다. 이제 `디지털 역사학`의 서막이 오른 것이다.

3기술의 진보와 혁신, 그리고 사회변화: 특허빅데이터를 이용한 정량적 분석

저자 : 김용대 ( Yongdai Kim ) , 정상조 ( Sang Jo Jong ) , 장원철 ( Woncheol Jang ) , 이종수 ( Jongsu Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1025-1039 (15 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 특허빅데이터를 분석하여 기술적 혁신과 사회변화의 관계를 규명하는 다양한 방법에 대하여 소개를 한다. 특히, 미국특허청에 1985년부터 2015년까지 등록된 4백만개 이상의 특허자료를 분석하였다. 먼저, 특허법의 변천사를 살펴보고 특허법의 발전이 특허활동에 미차는 영향에 대해서 살펴보았다. 두 번째로는, 국가별 기술군별 등록특허수를 바탕으로 군집분석을 이용하여 기술혁신 패턴이 비슷한 국가들로 군집을 만들고 각 군집의 기술혁신특징들을 살펴보았다. 세번째로는 특허간의 인용정보를 바탕으로 특허간의 네트워크를 구축하고 page-rank 알고리즘을 이용하여 주요특허를 탐지하는 방법을 설명하였다. 마지막으로, 정준상관분석을 이용하여 기술혁신과 사회변화와의 관계를 규명하였다.

4마이크로데이터 공표를 위한 통계적 노출제어 방법론 고찰

저자 : 박민정 ( Min-jeong Park ) , 김항준 ( Hang J. Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1041-1059 (19 pages)

다운로드

(기관인증 필요)

초록보기

학술 연구나 정책 입안 등을 위한 심층적 자료 활용의 확대는 동시에 개별 정보 노출에 대한 염려도 증가시킨다. 때문에 최근 이십여 년 간 통계적 노출제어(정보보호) 분야에서 많은 논문들이 발표되었다. 본 논문은 그러한 연구 내용들을 정리하여 국내 통계인들과 기관들에게 소개하고자 한다. 주요 내용으로 국소통합이나 잡음추가와 같은 전통적인 매스킹 기법 뿐만 아니라, 온라인 자료 분석 시스템에서의 정보보호 처리, 차등정보보호를 통한 노출제어 및 재현자료를 활용한 정보보호 대안 모색에 대해 다룬다. 또한 각각의 주제에 대한 방법론 소개와 함께 활용 사례 및 장단점을 논의하였다. 본 논문이 실제적인 통계적 노출제어 문제를 고민하는 통계인들에게 도움이 되기를 바란다.

5고차원 대용량 자료의 시각화에 대한 고찰

저자 : 이은경 ( Eun-kyung Lee ) , 황나영 ( Nayoung Hwang ) , 이윤동 ( Yoondong Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1061-1075 (15 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 고차원 대용량 자료의 시각화에서 발생할 수 있는 문제점들을 살펴보고 이에 대하여 개발된 방법들에 대하여 논의하였다. 고차원 자료의 경우 2차원 공간상에 표현하기 위하여 중요 변수를 선택해야하며 다양한 시각적 표현 속성과 다면화 방법을 이용하여 좀 더 많은 변수들을 표현할 수 있었다. 또한 관심있는 뷰를 보이는 낮은 차원을 찾는 사영추정방법을 이용할 수 있다. 대용량 자료에서는 점들이 겹쳐지는 문제점을 흩트림과 알파 블렌딩 등을 이용하여 해결할 수 있었다. 또한 고차원 대용량 자료의 탐색을 위하여 개발된 R 패키지인 tabplot과 scagnostics, 그리고 대화형 웹 그래프를 위한 다양한 형태의 R 패키지들을 살펴보았다.

6Apache Spark를 활용한 대용량 데이터의 처리

저자 : 고세윤 ( Seyoon Ko ) , 원중호 ( Joong-ho Won )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1077-1094 (18 pages)

다운로드

(기관인증 필요)

초록보기

아파치 스파크는 빠르고 범용성이 뛰어난 클러스터 컴퓨팅 패키지로, 복구 가능한 분산 데이터셋이라는 새로운 추상화를 통해 데이터를 인메모리에 유지하면서도 결함 감내성을 얻을 수 있는 방법을 제공한다. 이러한 추상화는 하드디스크에 직접 데이터를 읽고 쓰는 방식으로 결함 감내성을 제공하는 기존의 대표적인 대용량 데이터 분석 기술인 맵리듀스 프레임워크에 비해 상당한 속도 향상을 거두었다. 특히 로지스틱 회귀 분석이나 K-평균 군집화와 같은 반복적인 기계 학습 알고리즘이나 사용자가 실시간으로 데이터에 관한 질의를 하는 대화형 자료 분석에서 스파크는 매우 효율적인 성능을 보인다. 뿐만 아니라, 높은 범용성을 바탕으로 하여 기계 학습, 스트리밍 자료 처리, SQL, 그래프 자료 처리와 같은 다양한 고수준 라이브러리를 제공한다. 이 논문에서는 스파크의 개념과 프로그래밍 모형에 대해 소개하고, 이를 통해 몇 가지 통계 분석 알고리즘을 구현하는 방법에 대해 소개한다. 아울러, 스파크에서 제공하는 기계 학습 라이브러리인 MLlib과 R 언어 인터페이스인 SparkR에 대해 다룬다.

7분위수 회귀나무를 이용한 변수선택 방법 연구

저자 : 장영재 ( Youngjae Chang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1095-1106 (12 pages)

다운로드

(기관인증 필요)

초록보기

Koenker 등 (1978)에 의해 제안 된 분위수 회귀분석법은 독립변수들이 주어졌을 때, 종속변수의 조건부 분위수에 초점을 맞추어 독립변수들과 종속변수의 해당 특정 분위수와의 관계를 분석하는 방법이다. 선형프로그래밍법 등을 이용한 분위수 회귀의 추정 과정을 생각해 볼 때, 고차원 대용량 자료의 경우에는 모형 적합에 어려움을 겪을 수 밖에 없다. 따라서 분위수 회귀의 문제에 있어서도 차원 축소의 문제, 조금 더 폭을 좁혀 생각해보면 변수선택의 문제를 통해 의사 결정에 영향을 미치는 주요 요인들을 파악하거나 적절한 규모의 모형을 적합하는 과정이 중요하다고 할 수 있다. 본 논문에서는 분위수 회귀의 변수선택의 문제를 보다 직관적이고 간단하게 해결하기 위한 방법으로서 회귀나무 모형을 응용하여 한국야구위원회에 등록된 선수들의 연봉과 기록 데이터를 분석해 보았다. 분석 결과, 각 분위수 별로 소수의 주요 변수가 선택되어 차원축소의 효과를 얻을 수 있었다. 또한 해당 분위수별로 선택된 변수도 해석상 의미 있는 것으로 평가할 수 있었다.

8천문학에서의 대용량 자료 분석

저자 : 신민수 ( Min-su Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1107-1116 (10 pages)

다운로드

(기관인증 필요)

초록보기

최근의 탐사 천문학 관측으로부터 대용량 관측 자료가 획득되면서, 기존의 일상적인 자료 분석 방법에 큰 변화가 있었다. 고전적인 통계적인 추론과 더불어 기계학습 방법들이, 자료의 표준화로부터 물리적인 모델을 추론하는 단계까지 자료 분석의 전 과정에서 활용되어 왔다. 적은 비용으로 대형 검출 기기들을 이용할 수 있게 되고, 더불어서 고속의 컴퓨터 네트워크를 통해서 대용량의 자료들을 쉽게 공유할 수 있게 되면서, 기존의 다양한 천문학 자료 분석의 문제들에 대해서 기계학습을 활용하는 것이 보편화되고 있다. 일반적으로 대용량 천문학 자료의 분석은, 자료의 시간과 공간 분포가 가지는 비 균질성 때문에 야기되는 효과를 고려해야 하는 문제를 가진다. 오늘날 증가하는 자료의 규모는 자연스럽게 기계학습의 활용과 더불어 병렬 분산 컴퓨팅을 필요로 하고 있다. 그러나 이러한 병렬 분산 분석환경의 일반적인 자료 분석에서의 활용은 아직 활발하지 않은 상황이다. 천문학에서 기계학습을 사용하는데 있어서, 충분한 학습 자료를 관측을 통해 획득하는 것이 어렵고, 그래서 다양한 출처의 자료를 모아서 학습 자료를 수집해야 하는 것이 일반적이다. 따라서 앞으로 준 지도학습이나 앙상블 학습과 같은 방법의 역할이 중요해 질 것으로 예상된다.

9그룹 구조를 갖는 고차원 유전체 자료 분석을 위한 네트워크 기반의 규제화 방법

저자 : 김기풍 ( Kipoong Kim ) , 최지윤 ( Jiyun Choi ) , 선호근 ( Hokeun Sun )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1117-1128 (12 pages)

다운로드

(기관인증 필요)

초록보기

고차원 유전체 자료를 사용하는 유전체 연관 분석에서는 벌점 우도함수 기반의 회귀계수 규제화 방법이 질병 및 표현형질에 영향을 주는 유전자를 발견하는데 많이 이용된다. 특히, 네트워크 기반의 규제화 방법은 유전체 연관성 연구에서의 유전체 경로나 신호 전달 경로와 같은 생물학적 네트워크 정보를 사용할 수 있으므로, Lasso나 Elastic-net과 같은 다른 규제화 방법들과 비교했을 경우 네트워크 기반의 규제화 방법이 보다 더 정확하게 관련 유전자들을 찾아낼 수 있다는 장점을 가지고 있다. 그러나 네트워크 기반의 규제화 방법은 그룹 구조를 갖고 있는 고차원유전체 자료에는 적용시킬 수 없다는 문제점을 가지고 있다. 실제 SNP 데이터와 DNA 메틸화 데이터처럼 대다수의 고차원 유전체 자료는 그룹 구조를 가지고 있으므로 본 논문에서는 이러한 그룹 구조를 가지고 있는 고차원 유전체 자료를 분석하고자 네트워크 기반의 규제화 방법에 주성분 분석(principal component analysis; PCA)과 부분최소 자승법(partial least square; PLS)과 같은 차원 축소 방법을 결합시키는 새로운 분석 방법을 제안하고자 한다. 새롭게 제안한 분석 방법은 몇 가지의 모의실험을 통해 변수 선택의 우수성을 입증하였으며, 또한 152명의 정상인들과 123명의 난소암 환자들로 구성된 고차원 DNA 메틸화 자료 분석에도 사용하였다. DNA 메틸화 자료는 대략 20,000여개의 CpG sites가 12,770개의 유전자에 포함되어 있는 그룹 구조를 가지고 있으며 Illumina Infinium Human Methylation27 BeadChip으로부터 생성되었다. 분석 결과 우리는 실제로 암에 연관된 몇 가지의 유전자를 발견할 수 있었다.

10뇌기능 연결성 모델링을 위한 통계적 방법

저자 : 김성호 ( Sung-ho Kim ) , 박창현 ( Chang-hyun Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1129-1145 (17 pages)

다운로드

(기관인증 필요)

초록보기

뇌기능 연결성 문제는 뇌의 신경역학적 현상과 밀접한 관련이 있다는 의미에서 뇌과학에서 주요 연구주제이다. 본 논문에서는 기능적 자기공명영상(fMRI)자료를 뇌활동에 대한 반응 자료의 주요 형태로써 선택하였는데, 이fMRI자료는 높은 해상도 때문에 뇌과학 연구에서 선호되는 자료 형태이다. 뇌활동에 대한 생리학적 반응을 측정해서 자료로 사용한다는 전제하에서 뇌의 기능적 연결성을 분석하는 방법들을 고찰하였다. 여기서의 전제란 상태공간 및 측정 모형을 다룬다는것을 의미하는데, 여기서 상태공간 모형은 뇌신경역학을 표현한다고 가정한다. 뇌기능영상자료의 분석은 무엇을 측정하였느냐에 따라서 분석방법과 그 해석이 조금씩 달라진다. 실제 fMRI자료를 고차원 자기회귀모형을 적용해서 분석한 결과를 논문에 포함하였는데, 이 결과를 통해서 서로 다른 도형문제를 푸는데 서로 다른 뇌신경 역학관계가 요구된다는 것을 엿볼 수 있었다.

12
주제별 간행물
간행물명 수록권호

KCI등재

응용통계연구
32권 4호 ~ 32권 4호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
26권 4호 ~ 26권 4호

KCI등재

응용통계연구
32권 3호 ~ 32권 3호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
26권 3호 ~ 26권 3호

KCI등재

응용통계연구
32권 2호 ~ 32권 2호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
26권 2호 ~ 26권 2호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
26권 1호 ~ 26권 1호

KCI등재

응용통계연구
32권 1호 ~ 32권 1호

KCI등재

응용통계연구
31권 6호 ~ 31권 6호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 6호 ~ 25권 6호

KCI등재

응용통계연구
31권 5호 ~ 31권 5호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 5호 ~ 25권 5호

KCI등재

응용통계연구
31권 4호 ~ 31권 4호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 4호 ~ 25권 4호

KCI등재

응용통계연구
31권 3호 ~ 31권 3호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 3호 ~ 25권 3호

KCI등재

응용통계연구
31권 2호 ~ 31권 2호

통계연구
20권 0호 ~ 20권 0호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 2호 ~ 25권 2호

KCI등재

한국데이터정보과학회지
28권 4호 ~ 28권 4호
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기