영어 말하기 자동채점 프로그램의 현재와 미래

18
영영 영영영 영영영영 영영영영영 영영영 영영 2014. 9. 20 영영영 영영영 영영영 영영영 영영영 Korea Institute for Curriculum and Evaluation

Upload: engedukamall

Post on 20-Jun-2015

194 views

Category:

Education


5 download

DESCRIPTION

신동광, 박태준, 박용효, 임수연, 김인숙. (2014, 9월). 영어 말하기 자동채점 프로그램의 현재와 미래. 한국멀티미디어언어교육학회 2014년 가을 학술대회 발표논문, 서울. [초록] 본 연구는 영어 말하기 자동채점 프로그램의 개발을 통해 학교현장에서의 현 실적인 말하기 평가의 부담을 덜어주기 위해 2년간의 연구 프로젝트로 진행되었 다. 이를 위해 1차년도 연구에서는 말하기 자동채점 프로그램의 프로토타입을 개 발하였다. 2차년 연구에서는 이를 바탕으로 영어 말하기 자동채점 프로그램 음성 인식기의 인식률을 개선하여 영어 말하기 자동채점 프로그램의 성능을 향상시키 고 채점 기준을 상세화하며 추가적인 자동채점의 채점 자질을 발굴하여 자동채점 의 채점 알고리듬을 개선하고자 하였으며, 끝으로 영어 말하기 자동채점 프로그 램의 개선된 성능을 검증하고자 하였다. 먼저, 음성인식 고도화를 위하여 음성인식 시스템을 구성하는 사전처리(Preprocessing) 작업, 음향 모델링(Acoustic Modeling), 발음 사전(Phoneme Dictionary), 언어 모델링(Language Modeling) 그리고 발화 검증(Utterance Verification)에 최적화된 여러 기능을 적용하였다. 또한 자동채점의 최적화에 사용될 기준점수의 신뢰성 확보를 위해서 2인 채점 평균값을 기준점수로 활용하기 보다는 5인 채점 최빈값 및 평균값을 기준점수로 적용하며 총체적 채점을 시범적으로 적용해 보았다. 채점 자질 추가 선정을 위하여 신호처리 자질, 음성인식 자질 그리고 언어 이해 자질별로 새로운 자질을 적용하였고, 채점 자질의 복잡한 속성을 기계 채점이 일부 반영하지 못하는 한계를 보완하고 인간 채점자의 채점 경향에 최대한 근접하기 위해 채점 전문가를 대상으로 채점 자질 가중치 부여를 실시하였다. 마지막으로, 말하기 기계 채점 고도화를 위하여 최대 엔트로피(Maximum Entropy, ME) 방식과 다중 회귀(Multiple Regression, MR) 방식과 더불어 최근 데이터 마이닝과 패턴 인식 분야에서 많이 쓰이는 서포트벡터머신(Support Vector Machine, SVM) 방식을 새롭게 적용하였다. 연구결과를 살펴보면, 먼저 기준점수를 최빈값으로 대체하였을 효과는 미미했다. 엄격성 면에서도 자동채점이 인간채점보다 엄격하게 채점하는 경향을 보였다. 또한 분석적 채점 결과와 비교해 보았을 때, 총체적 채점 결과가 전체적으로 신뢰도가 높았으며 전체 신뢰도 역시 양호한 결과를 미루어 볼 때, 앞으로의 영어 말하기 자동채점 프로그램의 방식은 총체적 채점 방식에 맞춰 개발할 때 보다 향상된 결과가 예상되며 일선 학교에

TRANSCRIPT

Page 1: 영어 말하기 자동채점 프로그램의 현재와 미래

영어 말하기 자동채점 프로그램의 현재와 미래

2014. 9. 20

신동광

박태준

박용효

임수연

김인숙

Korea Institute for Curriculum and Evaluation

Page 2: 영어 말하기 자동채점 프로그램의 현재와 미래

Spoken Scoring in 2012-2013

2

Page 3: 영어 말하기 자동채점 프로그램의 현재와 미래

영어 말하기 자동채점 프로그램 도식

사전처리사전처리

언어 변별언어 변별

음성인식 자질 추출음성인식 자질 추출

음성인식음성인식

음성 데이터 (16KHz 16Bit mono PCM) 자동음성 데이터 (16KHz 16Bit mono PCM) 자동

음성인식 결과음성인식 결과 말하기 자질말하기 자질

기계 학습기계 학습

자동평가 점수 예측자동평가 점수 예측 자동 평가 모델자동 평가 모델

인간 채점자 점수인간 채점자 점수

예측 점수예측 점수

신호처리 자질 추출신호처리 자질 추출

형태소 분석형태소 분석언어 이해 자질 추출언어 이해 자질 추출

학습

Page 4: 영어 말하기 자동채점 프로그램의 현재와 미래

프로그램 개발을 위한 음성 데이터 확보

DATA Form A

Spoken data고등학교 2 학년 399

명의 음성답안문제해결하기 2010. 12.

NEAT 2 급

Condition 16KHz 16Bit mono PCM vs. WMA/MP3

Page 5: 영어 말하기 자동채점 프로그램의 현재와 미래

NEAT 2 급 문제해결하기 문항 예시

You will hear a story describing a problem. You will have 1 minute to think

about your advice on how to solve the problem. After the beep, you will

have 1 minute to record your answer. After you hear two short beeps, stop

recording. Now let's begin.

Jimin is your best friend. She is very sociable and gets along with her

friends quite well. However, whenever she plays a team sport such as

soccer or basketball, she becomes very aggressive, and plays too tough.

Sometimes her behavior during a game harms the relationships with her

friends. Many students are not happy about her behavior and you'd like to

help her. In this situation, what would you like to say to her?

Now, stop recording.

Page 6: 영어 말하기 자동채점 프로그램의 현재와 미래

말하기 채점 모델 개발

절차1. 음성 답안 전사

2. 발음 사전에 한국인 발음의 특성 추가 ( 음성인식 결과와 전사 자료 대조 )

3. 채점 자질 선정

4. 분석적 채점의 경우 채점 영역별 채점 자질 배정 및 가중치 부여 / 총체적 채점의 경우 채점자질 선정 및 가중치 부여

5. 채점 모델 개발 (ME, MR, SVM)

6. 타당성 검증 ( 채점 모델 별 결과 비교 및 인간채점 결과와 비교 )

Page 7: 영어 말하기 자동채점 프로그램의 현재와 미래

- 시험용 모든 PC 의 사운드카드를 16KHz 16Bit 로 조정

- 단어와 단어 사이의 무음 구간에 잡음이 들어가 오인식 유발

음성인식의 문제점

Page 8: 영어 말하기 자동채점 프로그램의 현재와 미래

- 이상적은 음성 데이터의 포맷은 PCM 형식이었으나 실제 데이터는 WMA/MP3 형식

> 대규모의 시험에서의 저장 용량을 고려하여 압축 형태인 WMA/MP3 포맷 채택

>>PCM 포맷으로 전환 시 음성 손실

>>> 현재 국내 음성 인식율은 약 80% vs. 해외 90% 이상

음성인식의 문제점

Page 9: 영어 말하기 자동채점 프로그램의 현재와 미래

- 사전처리 (Preprocessing) 작업> 칼만 필터 (Kalman Filter): 큰 잡음 제거> 위너 필터 (Wiener Filter): 세부 잡음 제거

- 다양한 음성인식기 유형 적용> 고립단어 인식 : 한 단어씩만 인식> 연결어 인식 : 2 단어 이상의 한정된 패턴 인식> 핵심어 인식 : 반복되는 핵심 단어 인식> 연속어 인식 : 다양한 문장 인식

음성인식의 개선 방안

Page 10: 영어 말하기 자동채점 프로그램의 현재와 미래

- 발음 사전 확충> 보통 카네기멜론대학 발음 사전 활용 카네기멜론대학 : 20,000 개 , 캘리포니아주립대학 : 200,000 개 ,

음성 인식 전문업체 Nuance: 32,000 개 단어 수록 한 개의 음소 당 3 개 이상의 발음 변이로 구성> 한국인의 고유한 발음 정보 추가

-N-gram 과 register 데이터베이스 구축을 통한 음성인식 보완

음성인식의 개선 방안

Page 11: 영어 말하기 자동채점 프로그램의 현재와 미래

채점 영역별 채점 자질 (93 개 )

• Task completion(5 점 ): Keywords extracted from the item instruction and the test taker’s response (Keywords extractor by comparing frequency per word to frequency in a reference corpus (Spoken BNC 10-million; calculated on a per-million basis)

• Fluency(5 점 ): Number of long pauses normalized by response length in words• Pronunciation(3 점 ): Acoustic Model score based on the phonetic dictionary• Discourse organization(3 점 ): Number of discourse markers• Language use(5 점 ): Number of grammatical errors, number of collocations

used in the speech

>5 점 척도를 통일하고 구성은 말하기 채점에서 제외하는 방안 검토> 총체적 채점 방식 검토 ( 채점 영역별 채점자질의 중복이 많음 ), 총체적 채점이 향상된

결과를 보임

Page 12: 영어 말하기 자동채점 프로그램의 현재와 미래

채점 영역별 채점 자질의 가중치 적용

- 상관분석에 따라 영역별 중복 적용- 복수 인간채점의 채점결과를 최빈값 또는 평균값으로 적용하여 기계훈련- 과제완성 : 내용어의 의미전달 , 유창성 : 내용어의 포함 비율 및 강세 구사 여부에 따라 유창성의 체감이

달라짐 ( 실제 채점자들은 과제완성에만 적용하는 것을 선택 - 실제 채점 양상과의 괴리 )

채점 자질 통계 분석 유창성 발음 언어사용 구성력 과제완성

numchsw

Stop word( 관 사 ,

전치사 등의 기능어 ) 를 제거한 ( 내용어 ) 문서 내 글자 (char) 수

상관계수 0.644 0.559 - - 0.631

최빈값 2 1 - - 3

평균값 2.83 1.83 - - 3.17

Page 13: 영어 말하기 자동채점 프로그램의 현재와 미래

Coh-Metrix 3.0(108 개 )Descriptive

1 DESPC READNP 96 Paragraph count, number of paragraphs

2 DESSC READNS 129 Sentence count, number of sentences

Text Easability Principle Component Scores

12 PCNARz n/a -0.766 Text Easability PC Narrativity, z score

13 PCNARp n/a 22.36 Text Easability PC Narrativity, percentile

Referential Cohesion

28 CRFNO1 CRFBN1um 0.133 Noun overlap, adjacent sentences, binary, mean

29 CRFAO1 CRFBA1um 0.148 Argument overlap, adjacent sentences, binary, mean

LSA

40 LSASS1 LSAassa 0.145 LSA overlap, adjacent sentences, mean

41 LSASS1d LSAassd 0.177 LSA overlap, adjacent sentences, standard deviation

Lexical Diversity

48 LDTTRc TYPTOKc 0.587 Lexical diversity, type-token ratio, content word lemmas

49 LDTTRa n/a 0.357 Lexical diversity, type-token ratio, all words

50 LDMTLD LEXDIVTD 57.84 Lexical diversity, MTLD, all words

51 LDVOCD LEXDIVVD 69.991 Lexical diversity, VOCD, all words

Connectives

52 CNCAll CONi 99.804 All connectives incidence

53 CNCCaus CONCAUSi 34.247 Causal connectives incidence

Situation Model

61 SMCAUSv CAUSV 40.117 Causal verb incidence

62 SMCAUSvp CAUSVP 50.881 Causal verbs and causal particles incidence

Syntactic Complexity

69 SYNLE SYNLE 1.535 Left embeddedness, words before main verb, mean

70 SYNNP SYNNP 0.77 Number of modifiers per noun phrase, mean

Syntactic Pattern Density

76 DRNP n/a 410.959 Noun phrase density, incidence

77 DRVP n/a 186.888 Verb phrase density, incidence

Word Information

84 WRDNOUN NOUNi 296.477 Noun incidence

85 WRDVERB VERBi 111.546 Verb incidence

Readbility

106 RDFRE READFRE 63.857 Flesch Reading Ease

107 RDFKGL READFKGL 6.321 Flesch-Kincaid Grade level

Page 14: 영어 말하기 자동채점 프로그램의 현재와 미래

자동 채점 모델 개발최대 엔트로피 (Maximum Entropy, ME) 방식 :정보의 불확실성을 최대로 설정하여 어떤 사건이 일어날 정보량을 측정하는 방법 , 즉 특정 해 (solution)

가 다른 것에 우선한다는 증거가 없으면 모든 해는 같은 가능성을 가져야 한다는 직관을 구현한 것으로 , 미리 정의된 제한 조건들은 만족하면서 그 이외의 경우 동일한 확률 값을 갖게 하는 확률에 기반한 분석 방법

다중 회귀 (Multiple Regression, MR) 방식 :여러 개의 독립 변수를 가진 추정식을 만들어 새로운 수치가 주어졌을 때의 종속 변수를 예측하는 분석

방법

서포트벡터머신 (Support Vector Machine, SVM) 방식 : 최근 데이터 마이닝과 패턴인식 분야 등에 널리 사용하고 있는 기법으로 채점 자질을 중복으로 적용하는

과적합 (overfitting) 을 피할 수 있는 방법

Page 15: 영어 말하기 자동채점 프로그램의 현재와 미래

분석 결과

15

• 음성인식 : 399 중 395 개 • 채점자 간 상관관계

Domain Fluency PronunciationLanguage

use

Discourse

Organization

Task

Completionholistic

r 0.722 0.597 0.739 0.636 0.798 0.801

Page 16: 영어 말하기 자동채점 프로그램의 현재와 미래

분석 결과- 전사 자료로 분석

16

• Correlation between ME and Human

• Correlation between MR and Human

Domain Fluency Pronunciation Language UseDiscourse

Organization

Task

Completion

r 0.651 0.515 0.589 0.536 0.600

Domain Fluency Pronunciation Language UseDiscourse

Organization

Task

Completion

r 0.758 0.656 0.740 0.705 0.723

Page 17: 영어 말하기 자동채점 프로그램의 현재와 미래

분석 결과- 음성인식 자료로 분석

17

• Correlation between ME and Human

• Correlation between MR and Human

Domain Fluency Pronunciation Language UseDiscourse

Organization

Task

Completion

r 0.641 0.498 0.604 0.574 0.629

Domain Fluency Pronunciation Language UseDiscourse

Organization

Task

Completion

r 0.677 0.506 0.648 0.571 0.669

Page 18: 영어 말하기 자동채점 프로그램의 현재와 미래

Thank you!