Abstract
本研究利用特征提取与机器学习方法分析Kaggle数据,即 ASAP 数据集。具体而言,应用自然语言处理(Natural Language Processing, NLP)和双向编码表示转换模型 (Bidirectional Encoder Representations from Transformers, BERT)进行语料处理和特征提取,并涵盖不同的机器学习模型,包括传统的机器学习分类器和基于神经网络的方法。 对评分系统使用有监督学习模型,对其中 6/8 的写作指令(prompt)进行单独训练或同 时训练。与已有研究相比,本研究发现:(1)增加特征的数量(如使用 Spacy Textsta 的易读性得分)能够提高作文评分系统的预测能力;(2)使用 NLP 进行语料处理和特征提 取的神经网络模型,同时训练所有写作指令时表现优于其他模型,整体二次加权Kappa系数(QWK)为0.9724。其中,写作指令1 的QWK最高,具体为0.859,所有6个写作指令的平均 QWK为0.771。
Recommended Citation
Yao, Lihua and Jiao, Hong
(2023)
"比较特征提取方法和机器学习模型在作文自动评分中的表现,"
Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语期刊: Vol. 4:
Iss.
3, Article 2.
DOI: https://doi.org/10.59863/VLGU9815
Available at:
https://www.ce-jeme.org/journal/vol4/iss3/2
DOI
https://doi.org/10.59863/VLGU9815