比较特征提取方法和机器学习模型在作文自动评分中的表现

Abstract

本研究利用特征提取与机器学习方法分析Kaggle数据，即 ASAP 数据集。具体而言，应用自然语言处理(Natural Language Processing, NLP)和双向编码表示转换模型 (Bidirectional Encoder Representations from Transformers, BERT)进行语料处理和特征提取，并涵盖不同的机器学习模型，包括传统的机器学习分类器和基于神经网络的方法。对评分系统使用有监督学习模型，对其中 6/8 的写作指令(prompt)进行单独训练或同时训练。与已有研究相比，本研究发现:(1)增加特征的数量(如使用 Spacy Textsta 的易读性得分)能够提高作文评分系统的预测能力;(2)使用 NLP 进行语料处理和特征提取的神经网络模型，同时训练所有写作指令时表现优于其他模型，整体二次加权Kappa系数(QWK)为0.9724。其中，写作指令1 的QWK最高，具体为0.859，所有6个写作指令的平均 QWK为0.771。

Recommended Citation

Yao, Lihua and Jiao, Hong (2023) "比较特征提取方法和机器学习模型在作文自动评分中的表现," Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语期刊: Vol. 4: Iss. 3, Article 2.
DOI: https://doi.org/10.59863/VLGU9815
Available at: https://www.ce-jeme.org/journal/vol4/iss3/2

DOI

https://doi.org/10.59863/VLGU9815

Download

COinS

比较特征提取方法和机器学习模型在作文自动评分中的表现

Abstract

Recommended Citation

DOI

Special Issues:

Search

比较特征提取方法和机器学习模型在作文自动评分中的表现

Authors

Abstract

Recommended Citation

DOI

Share

Special Issues:

Search