간행물

한국정보처리학회> 정보처리학회논문지. 소프트웨어 및 데이터 공학

정보처리학회논문지. 소프트웨어 및 데이터 공학 update

KIPS Transactions on Software and Data Engineering

  • : 한국정보처리학회
  • : 공학분야  >  전자공학
  • : KCI등재
  • :
  • : 연속간행물
  • : 월간
  • : 2287-5905
  • :
  • :

수록정보
9권4호(2020) |수록논문 수 : 4
간행물 제목
9권4호(2020년) 수록논문
권호별 수록 논문
| | | |

KCI등재

1디지털 포렌식을 위한 데이터베이스 블록 크기의 탐지 기법

저자 : 김선경 ( Sunkyung Kim ) , 박지수 ( Ji Su Park ) , 손진곤 ( Jin Gon Shon )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 9권 4호 발행 연도 : 2020 페이지 : pp. 123-128 (6 pages)

다운로드

(기관인증 필요)

초록보기

디지털 기기 사용이 일반화되면서 수사 과정에서 물적 증거 수집을 위해 디지털 포렌식 기법을 사용한다. 이 중 파일 포렌식 기법은 삭제된 파일을 복구하는 것으로, 여러 개의 파일로 구성된 데이터베이스가 삭제되어도 복구할 수 있다. 그러나 데이터베이스에서 레코드가 삭제된 경우는 파일 복구를 하여도 수정된 레코드 내용이 복원되지 않는다. 이에 삭제된 레코드를 복구하는 기법인 데이터베이스 포렌식이 필요하다. 데이터베이스 포렌식은 데이터베이스 설정 파일로부터 메타데이터를 획득하고, 데이터 파일에서 삭제된 레코드를 복구한다. 그러나 데이터베이스에서 블록 크기와 같은 데이터베이스 메타데이터를 획득하지 못하면 레코드 복구가 어렵다. 본 논문에서는 데이터베이스 메타데이터인 블록 크기를 탐지하기 위한 세 가지 방법을 제안한다. 첫 번째 기법은 블록에 존재하는 빈공간의 최대 크기를 이용하며, 두 번째 기법은 블록이 나타나는 위치를 이용한다. 세 번째 기법은 두 번째 기법보다 더 빠르게 블록 크기를 찾을 수 있도록 개선한다. 실험 결과는 세 가지 탐지 기법 모두 세 종류의 DBMS의 블록 크기를 정확하게 찾을 수 있음을 보인다.


As the use of digital devices is becoming more commonplace, digital forensics techniques recover data to collect physical evidence during the investigation. Among them, the file forensics technique recovers deleted files, therefore, it can recover the database by recovering all files which compose the database itself. However, if the record is deleted from the database, the modified record contents will not be restored even if the file is recovered. For this reason, the database forensics technique is required to recover deleted records. Database forensics obtains metadata from database configuration files and recovers deleted records from data files. However, record recovery is difficult if database metadata such as block size cannot be obtained from the database. In this paper, we propose three methods for obtaining block size, which is database metadata. The first method uses the maximum size of free space in the block, and the second method uses the location where the block appears. The third method improves the second method to find the block size faster. The experimental results show that three methods can correctly find the block size of three DBMSes.

KCI등재

2시계열 데이터와 랜덤 포레스트를 활용한 시간당 초미세먼지 농도 예측

저자 : 이득우 ( Deukwoo Lee ) , 이수원 ( Soowon Lee )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 9권 4호 발행 연도 : 2020 페이지 : pp. 129-136 (8 pages)

다운로드

(기관인증 필요)

초록보기

최근 환경 문제에서 중요한 화두로 떠오른 초미세먼지(PM2.5)는 미세먼지(PM10)보다도 작은 부유물질이다. PM2.5는 안구나 호흡기 질환을 일으키며 뇌혈관에까지 침투할 수 있어서 시간별로 수치를 예측하여 대비하는 것이 중요하다. 그러나 PM2.5의 생성과 이동에 관한 명확한 설명이 아직까지는 제시되지 않고 있어서 예측에 어려움이 따른다. 따라서 PM2.5 예측뿐만 아니라 예측 결과에 대한 설명력을 갖는 예측 방법이 제시될 필요가 있다. 본 연구에서는 서울시의 시간당 PM2.5를 예측하고자 하며, 이를 위해 각기 다른 지상관측 데이터를 시계열로 전처리하고 부트스트랩 수를 조정한 랜덤 포레스트(Random Forest)를 데이터 학습 및 예측에 사용하는 방법을 제안한다. 이 방법은 예측 모델이 입력 데이터의 시각별 정보를 균형 있게 학습하게 하며 예측 결과에 대한 설명이 가능하다는 장점을 갖는다. 예측 정확도 평가를 위해 기존 모델과의 비교실험을 수행한 결과 제안 방법은 모든 레이블에서 가장 뛰어난 예측 성능을 보였으며, PM2.5의 생성과 관련된 변수와 중국의 영향과 관련된 변수가 예측 결과에 중요한 영향을 미치는 것을 보여주었다.


PM2.5 which is a very tiny air particulate matter even smaller than PM10 has been issued in the environmental problem. Since PM2.5 can cause eye diseases or respiratory problems and infiltrate even deep blood vessels in the brain, it is important to predict PM2.5. However, it is difficult to predict PM2.5 because there is no clear explanation yet regarding the creation and the movement of PM2.5. Thus, prediction methods which not only predict PM2.5 accurately but also have the interpretability of the result are needed. To predict hourly PM2.5 of Seoul city, we propose a method using random forest with the adjusted bootstrap number from the time series ground data preprocessed on different sources. With this method, the prediction model can be trained uniformly on hourly information and the result has the interpretability. To evaluate the prediction performance, we conducted comparative experiments. As a result, the performance of the proposed method was superior against other models in all labels. Also, the proposed method showed the importance of the variables regarding the creation of PM2.5 and the effect of China.

KCI등재

3러프 하한 근사를 갖는 로컬 커버링 기반 규칙 획득 기법을 이용한 섬망 환자의 분류 방법

저자 : 손창식 ( Chang Sik Son ) , 강원석 ( Won Seok Kang ) , 이종하 ( Jong Ha Lee ) , 문경자 ( Kyoung Ja Moon )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 9권 4호 발행 연도 : 2020 페이지 : pp. 137-144 (8 pages)

다운로드

(기관인증 필요)

초록보기

섬망은 의식 장애, 주의력 장애 및 언어력 장애와 같은 일시적인 인지 장애가 있는 환자, 특히 노인에서 나타나는 가장 흔한 정신 장애 중 하나이다. 섬망은 환자와 가족에게 고통을 주고, 통증과 같은 증상의 관리를 방해할 수 있으며 노인 사망률 증가와 관련이 있다. 본 논문의 목적은 장기 요양 시설에서 섬망 환자를 구별하는데 사용될 수 있는 유용한 임상적 지식을 생성하는데 있다. 이러한 목적을 위해, 러프 하한 근사 영역을 갖는 로컬 커버링 규칙 기법을 활용하여 섬망과 관련된 임상적 분류 지식을 추출하였다. 제안된 방법의 임상적 적용 가능성은 전향적 코호트 연구로부터 수집된 데이터를 활용하여 확인하였다. 연구 결과, 섬망 기간이 12일 이상 지속될 수 있는 6가지 유용한 임상적 증거를 발견하였고, 체질량 지수, 동반질환 지수, 입원경로, 영양결핍, 감염, 수면박탈, 욕창, 기저귀 사용과 같은 8가지 인자들이 섬망 결과를 구별하는 데 중요한 요인이라는 것을 확인하였다. 제안된 방법의 분류 성능은 통계적 5-겹 교차검정 방법을 사용하여 3가지 벤치마킹 모델, 즉 ANN, RBF 커널 함수를 활용한 SVM, 랜덤 포레스트와 비교하여 검증하였다. 제안된 방법은 3가지 모델 중 가장 높은 성능을 제공한 SVM 모델과 비교했을 때 정확도와 AUC 기준에서 평균 0.6%와 2.7% 개선된 성능을 보였다.


Delirium is among the most common mental disorders encountered in patients with a temporary cognitive impairment such as consciousness disorder, attention disorder, and poor speech, particularly among those who are older. Delirium is distressing for patients and families, can interfere with the management of symptoms such as pain, and is associated with increased elderly mortality. The purpose of this paper is to generate useful clinical knowledge that can be used to distinguish the outcomes of patients with delirium in long-term care facilities. For this purpose, we extracted the clinical classification knowledge associated with delirium using a local covering rule acquisition approach with the rough lower approximation region. The clinical applicability of the proposed method was verified using data collected from a prospective cohort study. From the results of this study, we found six useful clinical pieces of evidence that the duration of delirium could more than 12 days. Also, we confirmed eight factors such as BMI, Charlson Comorbidity Index, hospitalization path, nutrition deficiency, infection, sleep disturbance, bed scores, and diaper use are important in distinguishing the outcomes of delirium patients. The classification performance of the proposed method was verified by comparison with three benchmarking models, ANN, SVM with RBF kernel, and Random Forest, using a statistical five-fold cross-validation method. The proposed method showed an improved average performance of 0.6% and 2.7% in both accuracy and AUC criteria when compared with the SVM model with the highest classification performance of the three models respectively.

KCI등재

4BERT를 이용한 한국어 특허상담 기계독해

저자 : 민재옥 ( Jae-ok Min ) , 박진우 ( Jin-woo Park ) , 조유정 ( Yu-jeong Jo ) , 이봉건 ( Bong-gun Lee )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 9권 4호 발행 연도 : 2020 페이지 : pp. 145-152 (8 pages)

다운로드

(기관인증 필요)

초록보기

기계독해는(Machine reading comprehension) 사용자 질의와 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 자연어처리 태스크를 말하며, 이러한 기계독해는 챗봇과 같은 자동상담 서비스에 활용될 수 있다. 최근 자연어처리 분야에서 가장 높은 성능을 보이고 있는 BERT 언어모델은 대용량의 데이터를 pre-training 한 후에 각 자연어처리 태스크에 대해 fine-tuning하여 학습된 모델로 추론함으로써 문제를 해결하는 방식이다. 본 논문에서는 BERT기반 특허상담 기계독해 태스크를 위해 특허상담 데이터 셋을 구축하고 그 구축 방법을 소개하며, patent 코퍼스를 pre-training 한 Patent-BERT 모델과 특허상담 모델학습에 적합한 언어처리 알고리즘을 추가함으로써 특허상담 기계독해 태스크의 성능을 향상시킬 수 있는 방안을 제안한다. 본 논문에서 제안한 방법을 사용하여 특허상담 질의에 대한 정답 결정에서 성능이 향상됨을 보였다.


MRC (Machine reading comprehension) is the AI NLP task that predict the answer for user's query by understanding of the relevant document and which can be used in automated consult services such as chatbots. Recently, the BERT (Pre-training of Deep Bidirectional Transformers for Language Understanding) model, which shows high performance in various fields of natural language processing, have two phases. First phase is Pre-training the big data of each domain. And second phase is fine-tuning the model for solving each NLP tasks as a prediction. In this paper, we have made the Patent MRC dataset and shown that how to build the patent consultation training data for MRC task. And we propose the method to improve the performance of the MRC task using the Pre-trained Patent-BERT model by the patent consultation corpus and the language processing algorithm suitable for the machine learning of the patent counseling data. As a result of experiment, we show that the performance of the method proposed in this paper is improved to answer the patent counseling query.

1

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기