•  
  •  
 

Abstract

本研究利用特征提取与机器学习方法分析Kaggle数据,即 ASAP 数据集。具体而言,应用自然语言处理(Natural Language Processing, NLP)和双向编码表示转换模型 (Bidirectional Encoder Representations from Transformers, BERT)进行语料处理和特征提取,并涵盖不同的机器学习模型,包括传统的机器学习分类器和基于神经网络的方法。 对评分系统使用有监督学习模型,对其中 6/8 的写作指令(prompt)进行单独训练或同 时训练。与已有研究相比,本研究发现:(1)增加特征的数量(如使用 Spacy Textsta 的易读性得分)能够提高作文评分系统的预测能力;(2)使用 NLP 进行语料处理和特征提 取的神经网络模型,同时训练所有写作指令时表现优于其他模型,整体二次加权Kappa系数(QWK)为0.9724。其中,写作指令1 的QWK最高,具体为0.859,所有6个写作指令的平均 QWK为0.771。

DOI

https://doi.org/10.59863/VLGU9815

Share

COinS