간행물

한국통계학회> 응용통계연구

응용통계연구 update

The Korean Journal of Applied Statistics

  • : 한국통계학회
  • : 자연과학분야  >  통계학
  • : KCI등재
  • :
  • : 연속간행물
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • :

수록정보
수록범위 : 1권1호(1987)~30권6호(2017) |수록논문 수 : 1,731
응용통계연구
30권6호(2017년) 수록논문
최근 권호 논문
| | | |

KCI등재

1국내 예능 시청률과 회차 예측 및 영향요인 분석

저자 : 김미림 ( Milim Kim ) , 임소연 ( Soyeon Lim ) , 장초희 ( Chohee Jang ) , 송종우 ( Jongwoo Son

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 809-825 (17 pages)

다운로드

(기관인증 필요)

초록보기

오디션, 육아, 버라이어티 등 다양한 예능 프로그램들의 수가 점점 증가하고 있다. 특히 종합편성채널이 개국한 이후에 예능 시장 경쟁이 심화되고 있다. 그에 따라 시청률과 회차에 대한 연구의 필요성이 대두되고 있다. 본 연구의 목적은 예능 프로그램 시청률과 회차의 예측모형을 제시하고 주요요인을 살펴보는 데 있다. 모형 적합 시 선형회귀 모형, 로지스틱 회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 머신 등과 같은 다양한 분석 방법을 고려하였다. 예능 시청률 예측 모형에서는 첫 회가 방영되기 전과 방영된 후 두 가지 모형을 적합하였고, 회차 예측 모형에서는 예능 시청률 예측 모형의 예측치를 추가 변수로 생성하여 모형을 적합하였다. 그 결과 첫 회 방영 전 예능 시청률 예측에서는 방송사, 이전 시즌 시청률, 시작 연도, 기사 수가 큰 영향을 주는 것으로 나타났다. 첫 회 방영 후 예능 시청률 예측에서는 첫 회 시청률, 방송사, 예능 유형이 중요한 변수로 나타났으며, 두 모형 모두 랜덤 포레스트 모형에서 가장 좋은 결과를 보였다. 예능 회차 예측에서는 평균 시청률 예측치, 시작 연도, 예능 유형, 방송국 등이 중요한 변수로 나타났다.


The number of TV entertainment shows is increasing. Competition among programs in the entertainment market is intensifying since cable channels air many entertainment TV shows. There is now a need for research on program ratings and the number of episodes. This study presents predictive models for entertainment TV show ratings and number of episodes. We use various data mining techniques such as linear regression, logistic regression, LASSO, random forests, gradient boosting, and support vector machine. The analysis results show that the average program ratings before the first broadcast is affected by broadcasting company, average ratings of the previous season, starting year and number of articles. The average program ratings after the first broadcast is influenced by the rating of the first broadcast, broadcasting company and program type. We also found that the predicted average ratings, starting year, type and broadcasting company are important variables in predicting of the number of episodes.

KCI등재

2심리적 자활과 경제적 자활의 관계에 대한 두 가지 분석 방법의 결과 비교

저자 : 정혜윤 ( Hyeyun Jung ) , 임창원 ( Changwon Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 827-849 (23 pages)

다운로드

(기관인증 필요)

초록보기

미국의 복지제도의 사회복지정책에서 종종 사용되는 자활(self-sufficiency; SS)은 사회복지학 분야에서 중요한 개념이며 많은 연구가 있어왔다. 이러한 연구들 중에는 심리적 자활(phycological SS; PSS)를 구성하는 자립 의지 척도(employment hope scale; EHS)와 인지된 고용 장벽 척도(perceived employment barrier scale, PEBS)가 미국의 저소득 구직자들의 경제적 자활(economic self-sufficiency; ESS)에 어떻게 영향을 미치는지에 대한 연구도 있다. 이러한 연구는 일반적으로 설문조사 자료를 이용하여 수행되며, 사회과학분야에서 설문조사 자료는 주로 구조방정식모형(structural equation model; SEM)으로 분석된다. 설문조사 자료에서는 일반적으로 측정변수의 개수가 많고 변수들 간에 상관관계가 있는 경우가 대부분이다. 이러한 경우 주성분 분석(principal component analysis; PCA)을 사용할 수 있다. 본 연구의 목적은 사회과학 분야에서 주로 다루는 설문조사 자료를 SEM과 PCA를 사용하여 분석하였을 경우 그 결과를 비교하는 것이다. 우리는 두 가지 분석 방법의 성능을 모의실험을 통하여 비교하였다. 우리는 또한 PSS와 ESS에 대한 실제 설문조사 자료를 이 두 가지 분석 방법으로 분석하고 그 결과를 비교하였다.


Self-sufficiency (SS), which is often used in the social welfare policy of the American welfare system, is an important concept in the field of social welfare and has been studied so much. Among such studies there are also studies on how the employment hope scale and the perceived employment barrier scale, which the psychological SS (PSS) consists of, affect the economic SS (ESS) for low-income job seekers in the United States. These studies are generally conducted using survey data, which are mainly analyzed by structural equation model (SEM) in the field of social science field. In the survey data, the number of measurement variables is generally large and there is a correlation between variables. In such cases, Principal Component Analysis (PCA) can be used. The purpose of this study is to compare the results of SEM and PCA on the survey data mainly dealt with in the social science field. We compare the performance of the two analyzing methods through a small simulation study. We also analyze a real survey data of the ESS and the PSS by using these two methods and compare the results.

KCI등재

3통계적 기법을 이용한 악성 소프트웨어 분류

저자 : 원성민 ( Sungmin Won ) , 김현주 ( Hyunjoo Kim ) , 송종우 ( Jongwoo Song )

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 851-865 (15 pages)

다운로드

(기관인증 필요)

초록보기

최근 워너크라이라는 이름의 랜섬웨어가 전 세계적으로 큰 화두에 오르면서, 악성 소프트웨어로 인한 피해를 줄이기 위한 방법들이 재조명 되고 있다. 새로운 악성 소프트웨어가 발생했을 때 피해를 최소화하기 위해서는 해당 소프트웨어가 어떤 공격 유형을 가진 악성 소프트웨어인지 빠르게 분류할 필요가 있다. 본 연구 목적은 다양한 통계적 기법을 이용하여 악성 소프트웨어를 효과적으로 분류할 수 있는 모형을 구축하는 데 있다. 모형 적합 시 다항 로지스틱, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 기계 등의 기법들을 이용하였으며, 본 연구를 통해 악성 소프트웨어를 분류하는 데에 있어 중요한 역할을 하는 변수들이 존재한다는 사실을 발견하였다.


Ransomware such as WannaCry is a global issue and methods to defend against malware attacks are important. We have to be able to classify the malware types efficiently in order to minimize the damage from malwares. This study makes models to classify malware properly with various statistical techniques. Several classification techniques such as logistic regression, random forest, gradient boosting, and support vector machine are used to construct models. This study also helps us understand key variables to classify the type of malicious software.

KCI등재

4희박한 데이터에 대한 선형판별분석에서 최적의 차원 수 결정

저자 : 신가인 ( Ga In Shin ) , 김재직 ( Jaejik Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 867-876 (10 pages)

다운로드

(기관인증 필요)

초록보기

오늘날 관찰값의 개수에 비해 변수의 개수가 큰 희박한 데이터셋은 다양한 분야에서 쉽게 찾아볼 수 있고, 통계학에서 그러한 데이터셋에 대한 분석은 하나의 도전이 되어 왔다. 그러한 희박한 데이터에 대한 분류를 위해 판별분석모형들이 최근에 개발되었다. 그러한 판별분석모형들 중 하나의 접근법은 그룹들을 잘 구분해주는 차원들을 찾기를 시도하는데, 그러한 차원들은 데이터의 변수의 개수보다 훨씬 적다. 그러한 모형에서 차원의 수는 예측과 자료의 시각화를 위해 중요한 역할을 하고 일반적으로 K-묶음 교차타당성 방법에 의해 결정된다. 하지만, 희박한 데이터의 경우 K-묶음 교차타당성 방법 적용시 각 묶음에 대한 관찰값의 개수가 매우 적을 수 있기 때문에 교차타당성에 의한 차원 수 결정은 신뢰성이 떨어질 수 있다. 따라서, 본 연구에서는 그러한 희박판별분석모형에 의해 찾아진 차원들에서 각 그룹들의 평균 간의 표준화된 거리에 근거한 측도를 사용하여 최적의 차원 수를 결정하는 방법을 제안하고, 제안된 방법은 모의실험을 통해 검증된다.


Datasets with small n and large p are often found in various _elds and the analysis of the datasets is still a challenge in statistics. Discriminant analysis models for such datasets were recently developed in classi_cation problems. One approach of those models tries to detect dimensions that distinguish between groups well and the number of the detected dimensions is typically smaller than p. In such models, the number of dimensions is important because the prediction and visualization of data and can be usually determined by the K-fold cross-validation (CV). However, in sparse data scenarios, the CV is not reliable for determining the optimal number of dimensions since there can be only a few observations for each fold. Thus, we propose a method to determine the number of dimensions using a measure based on the standardized distance between the mean values of each group in the reduced dimensions. The proposed method is veri_ed through simulations.

KCI등재

5재표본 방법론을 활용한 베이지안 주파수 추정

저자 : 박노진 ( Ro Jin Pak )

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 877-888 (12 pages)

다운로드

(기관인증 필요)

초록보기

시계열 자료의 주기를 파악하기 위해 스펙트럴 분석이 널리 이용되고 있다. 전력 스펙트럼이나 피리오도그램을 통해서 주파수를 추정하고 그로부터 순환 주기를 계산한다. 한편에서는 통계학의 한 축인 베이지안 기법을 활용한 주파수 추정법이 연구되어 사용되고 있다. 그런데 베이지안 주파수 추정량이 수학 공식을 통해 분석적으로 표현이 가능하지 않음으로 인해 신뢰구간 추정 같은 심도 깊은 통계학적 분석이 용이하지 않은 상화에서 컴퓨터를 이용한 수치해석적인 방법으로 신뢰구간을 추정하였다. 본 논문에서는 베이지안 주파수에 대한 보다 심도 있는 분석을 위해 모수를 재표본하는 Markov chain Monte Carlo (MCMC)을 이용한 추정과 데이터를 재표본하는 시계열 재표본을 통한 추정을 시도해 보았다. 예제로서 부동산 매매/전세 가격 지수 데이터을 사용하였고 매매와 전세 가격 지수간에 3.7개월 정도의 주기 차이가 존재하나 통계학적으로는 유의미한 차이라고 할 수 없음을 알았다.


Spectral analysis is used to determine the frequency of time series data. We first determine the frequency of the series through the power spectrum or the periodogram and then calculate the period of a cycle that may exist in a time series. Estimating the frequency using a Bayesian technique has been developed and proven to be useful; however, the Bayesian estimator for the frequency cannot be analytically solved through mathematical equations and may be handled numerically or computationally. In this paper, we make an inference on the Bayesian frequency through both resampling a parameter by Markov chain Monte Carlo (MCMC) methods and resampling data by bootstrap methods for a time series. We take the Korean real estate price index as an example for Bayesian frequency estimation. We have found a difference in the periods between the sale price index and the long term rental price index, but the difference is not statistically significant.

KCI등재

6독립성분의 순서화 방법 비교

저자 : 최은빈 ( Eunbin Choi ) , 조수림 ( Sulim Cho ) , 박미라 ( Mira Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 889-899 (11 pages)

다운로드

(기관인증 필요)

초록보기

독립성분분석은 혼합된 신호에서 원신호들을 분리하기 위해서 사용되는 다변량 분석방법으로서, 블라인드 음원 분리 중 가장 널리 사용되는 방법이다. 독립성분분석은 주성분분석이나 요인분석과 같이 선형변환을 사용하지만, 원신호들의 통계적 독립과 비정규성 가정을 필요로 한다는 점에서 다르다. 설명되는 분산의 누적비율이 클수록 더 중요한 성분을 의미하게 되는 주성분분석과 달리, 독립성분분석에서는 독립성분들의 중요순서를 결정하는데 적절한 유일한 기준이 정해지지 않는다. 군집분석이나 차원축소된 그래프 작성 등과 같은 후속 연구를 진행하기 위해서는 일부의 주요 독립성분을 사용하게 되므로, 성분의 순서를 정하는 것은 의미가 있다. 본 연구에서는 성분의 순서를 결정하기 위한 몇 가지 기준의 성능을 비교하였다. 첨도와 첨도의 절댓값, 음의 엔트로피, 콜모고로프-스미르노프 통계량, 계수제곱합을 이용한 방법이 고려되었다. 이들은 알려진 그룹을 분류하는 능력을 기준으로 평가되었다. 두 가지 형태의 자료를 이용한 분석결과를 제시하였다.


Independent component analysis is a multivariate approach to separate mixed signals into original signals. It is the most widely used method of blind source separation technique. ICA uses linear transformations such as principal component analysis and factor analysis, but differs in that ICA requires statistical independence and non-Gaussian assumptions of original signals. PCA have a natural ordering based on cumulative proportion of explained variance; howerver, ICA algorithms cannot identify the unique optimal ordering of the components. It is meaningful to set order because major components can be used for further analysis such as clustering and low-dimensional graphs. In this paper, we compare the performance of several criteria to determine the order of the components. Kurtosis, absolute value of kurtosis, negentropy, Kolmogorov- Smirnov statistic and sum of squared coefficients are considered. The criteria are evaluated by their ability to classify known groups. Two types of data are analyzed for illustration.

KCI등재

7구조방정식 모형의 베이지안 접근법 기반의 특허평가 모델링에 대한 연구

저자 : 우호영 ( Ho-young Woo ) , 곽정애 ( Jungae Kwak ) , 임창원 ( Changwon Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 901-916 (16 pages)

다운로드

(기관인증 필요)

초록보기

최근 4차 산업으로의 산업 패러다임의 변화가 이미 시작되었으며, 이러한 4차 산업 시대에 무형 지식재산인 특허의 중요성은 날로 증대되고 있다. 특허의 기술가치평가는 전문가의 의견에 따라서 산정되기 때문에 많은 비용과 시간이 소모되므로 비전문가들의 주관적인 의견에 기인하여 특허의 질적 수준을 판단하게 된다. 따라서 특허의 질적 수준에 대한 객관적이고 합리적인 평가 체계 개발이 필요하다. 본 논문에서는 특허의 가치평가를 기술성, 권리성, 활용성으로 구분하고 베이지안 구조방정식을 사용하여 특허의 정량화되고 객관적인 평가 모델링에 대해 고려하였다. 특히, 한국발명진흥회에서 수집한 자료를 토대로, 직접적으로 측정되기 어려운 질적 성과들을 모형화하고 평가하는데 탁월한 구조방정식과 사전 정보를 활용함으로써 작은 표본 하에서도 안정적인 모형화가 가능한 베이지안 접근법을 함께 적용하여 특허 평가 모형을 개발하였다.


Recently, the industrial paradigm shift to the fourth industry has already begun, and the importance of patents as intangible intellectual property in the fourth industry era is increasing day by day. Since the technical valuation of a patent is calculated according to the opinion of experts, it is costly and time consuming, and hence, the quality of the patent is judged based on subjective opinions of non-experts. Therefore, it is necessary to develop an objective and rational evaluation system for the qualitative level of patents. In this paper, we classify the valuation of patents into technicality, rights, and usability, and consider the quantitative and objective evaluation modeling of patents using Bayesian structural equation model. In particular, based on the data collected by the Korea Invention Promotion Association, we apply the Bayesian approach, which is capable of stable modeling even under small samples by using prior information, and the structural equation model, which is excellent for modeling and evaluating qualitative performance that is difficult to measure directly, to develop a patent evaluation model.

KCI등재

8영과잉 토빗모형을 이용한 한국 소득분포 자료의 베이지안 분석

저자 : 황지수 ( Jisu Hwang ) , 김세완 ( Sei-wan Kim ) , 오만숙 ( Man-suk Oh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 917-929 (13 pages)

다운로드

(기관인증 필요)

초록보기

한국노동패널조사에서 제공하는 2015년 한국 생산가능인구의 월평균 소득분포를 보면 0 관측치의 비율이 과도하게 높은 형태를 보여 기존의 소득분포에 주로 사용되는 토빗모형으로는 설명에 한계가 있다. 본 연구에서는 영과잉 특성을 반영하여 영과잉 토빗모형을 사용하여 한국인의 소득 자료를 분석한다. 영과잉 토빗모형은 2단계 모형으로 1단계에서는 소득이 0인 그룹을 두 그룹으로 나누는데, 첫 번째 그룹은 노동시장 참여의지가 없어 시장에 참여하지 않으므로 0이 관측되는 그룹(genuine zero)이고 두 번째 그룹은 노동시장 참여의지는 있으나 낮은 임금으로 인하여 절단되어 0이 관측되는 그룹(random zero)으로 가정하였다. 두 번째 random zero 그룹은 0 이상의 연속 자료와 결합하여 토빗모형을 적용한다. 1단계와 2단계 모형에 관심 있는 설명변수를 가진 회귀모형을 적용하여 노동시장 참여여부와 임금 수준에 영향을 미치는 요인을 알아본다. 마코브 체인 몬테칼로 기법을 사용하여 모수를 추정하고 기존의 토빗모형과 비교한 결과 영과잉 토빗모형이 0의 빈도추정과 모형 적합도 면에서 우수한 결과를 보였다. 분석결과 나이가 많을수록, 남자가 여자보다, 학력이 낮을수록, 노동시장에 참여할 가능성이 매우 유의하게 높으며, 사회경제적 지위가 높을수록 그리고 유보임금이 낮을수록 노동시장에 참여하지 않을 확률이 높은 것으로 나타났다. 임금수준을 보면, 남자가 여자보다, 학력이 높을수록, 기혼이 미혼 보다 매우 유의하게 더 높은 임금을 받는 것으로 나타났다.


Korean income data obtained from Korea Labor Panel Survey shows excessive zeros, which may not be properly explained by the Tobit model. In this paper, we analyze the data using a zero-inflated Tobit model to incorporate excessive zeros. A zero-inflated Tobit model consists of two stages. In the first stage, individuals with 0 income are divided into two groups: genuine zero group and random zero group. Individuals in the genuine zero group did not participate labor market since they have no intention to do so. Individuals in the random zero group participated labor market but their incomes are very low and truncated at 0. In the second stage, the Tobit model is assumed to a subset of data combining random zeros and positive observations. Regression models are employed in both stages to obtain the effect of explanatory variables on the participation of labor market and the income amount. Markov chain Monte Carlo methods are applied for the Bayesian analysis of the data. The proposed zero-inflated Tobit model outperforms the Tobit model in model fit and prediction of zero frequency. The analysis results show strong evidence that the probability of participating in the labor market increases with age, decreases with education, and women tend to have stronger intentions on participating in the labor market than men. There also exists moderate evidence that the probability of participating in the labor market decreases with socio-economic status and reserved wage. However, the amount of monthly wage increases with age and education, and it is larger for married than unmarried and for men than women.

KCI등재

9반복이 있는 랜덤화 블록 계획법에서 선형위치통계량을 이용한 비모수 검정법

저자 : 김아란 ( Aran Kim ) , 김동재 ( Dongjae Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 931-941 (11 pages)

다운로드

(기관인증 필요)

초록보기

반복이 있는 랜덤화 블록 계획법(randomized block design with replications)에서의 대표적인 검정법은 Mack이 제안한 방법과 Mack과 Skillings이 제안한 방법이 있다. 이 방법은 각 블록의 처리에서 반복된 각 관측값 대신에 반복된 관측값들의 평균을 이용하여 순위를 매기기 때문에 정보의 손실이 발생할 가능성이 있다. 이를 보완하기 위해 본 논문에서는 Chung과 Kim (2007)이 제안한 결합위치(joint placement) 방법에 점수함수(score function)를 적용한 선형위치통계량(linear placement statistics)을 이용한 검정방법을 제안하였다. 또한 Monte Carlo simulation study를 통해 기존의 방법들과 검정력을 비교하였다.


Typical Nonparametric methods for randomized block design with replications are two methods proposed by Mack (1981) and Mack and Skillings (1980). This method is likely to cause information loss because it uses the average of repeated observations instead of each repeated observation in the processing of each block. In order to compensate for this, we proposed a test method using linear placement statistics, which is a score function applied to the joint placement method proposed by Chung and Kim (2007). Monte Carlo simulation study is adapted to compare the power with previous methods.

KCI등재

1019대 대선 전화조사에서 조사방법 효과에 대한 인과연구

저자 : 김지현 ( Ji-hyun Kim ) , 정효재 ( Hyojae Jung )

발행기관 : 한국통계학회 간행물 : 응용통계연구 30권 6호 발행 연도 : 2017 페이지 : pp. 943-955 (13 pages)

다운로드

(기관인증 필요)

초록보기

전화를 이용한 19대 대선 선거예측조사에서 ARS 조사비율과 무선전화 조사비율을 달리함에 따라 조사결과가 어떻게 달라지는가를 보았다. 조사방법이 조사결과에 미치는 효과를 추정하는 인과연구를 시도하였으며, 이를 위해 변수들 사이의 인과관계를 가정하는 인과 그래프를 그린 다음 모형에 포함시켜야 할 변수와 포함시키면 안 되는 변수를 판단하였다. 조사를 실시한 조사기관은 중첩변수로서 모형에 포함시켜야 하는 변수이며 응답률은 모형에 포함시키면 안 되는 변수임을 설명하였다. ARS 조사비율의 효과는 자료 한계 때문에 추정할 수 없었으며, 무선전화 조사비율이 약 90%를 넘지 않으면 효과에 별 차이가 없으나 전체 조사를 무선전화로만 실시하면 문재인후보지지율이 높아진다.


We investigate and estimate the causal effect of the survey methods in telephone surveys for the 19th presidential election. For this causal study, we draw a causal graph that represents the causal relationship between variables. Then we decide which variables should be included in the model and which variables should not be. We explain why the research agency is a should-be variable and the response rate is a shouldnot- be variable. The effect of ARS can not be estimated due to data limitations. We have found that there is no significant difference in the effect of the proportion of cell phone survey if it is less than about 90 percent. But the support rate for Moon Jae-in gets higher if the survey is performed only by cell phones.

12
권호별 보기
가장 많이 인용된 논문

(자료제공: 네이버학술정보)

가장 많이 인용된 논문
| | | |
1연안해역에서 석유오염물질의 세균학적 분해에 관한 연구

(2006)홍길동 외 1명심리학41회 피인용

다운로드

2미국의 비트코인 규제

(2006)홍길동심리학41회 피인용

다운로드

가장 많이 참고한 논문

(자료제공: 네이버학술정보)

가장 많이 참고한 논문

다운로드

2미국의 비트코인 규제

(2006)홍길동41회 피인용

다운로드

해당 간행물 관심 구독기관

고려대학교 성균관대학교 통계청 서울대학교 한양대학교
 45
 41
 36
 35
 27
  • 1 고려대학교 (45건)
  • 2 성균관대학교 (41건)
  • 3 통계청 (36건)
  • 4 서울대학교 (35건)
  • 5 한양대학교 (27건)
  • 6 중앙대학교(서울) (21건)
  • 7 강원대학교 (20건)
  • 8 전북대학교 (20건)
  • 9 연세대학교 (19건)
  • 10 경희대학교 (18건)

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기