生成式语言模型在自动写作评估中的早期综述：自动作文评分与反馈生成领域的进展、挑战及方向

Yue Huang, Measurement Incorporated
Corey Palermo, Measurement Incorporated
Ruitao Liu, 2U
Yong He, Measurement Incorporated

ORCID

Yue Huang: https://orcid.org/0000-0003-2175-9852

Corey Palermo: https://orcid.org/0000-0003-1921-5127

Abstract

自动写作评估（AWE）长期以来在写作测评与教学中发挥着重要作用，但现有系统在捕捉学生写作中更深层次的修辞结构与教学相关特征方面仍存在不足。近年来，生成式语言模型（GLM）如 GPT 和 Llama 的快速发展为 AWE带来新机遇，但其效能尚未得到充分验证。本综述综合了 29 项关于自动作文评分的研究和 14 项关于自动写作反馈生成的研究，系统探讨了 GLM 在提示工程、微调与适应性策略中的应用。研究表明，GLM 在模拟人类评分与生成符合评分标准的反馈方面展现出潜力，但公平性、效度与伦理等关键问题仍亟待解决。GLM 有望显著提升 AWE 系统的表现，但前提是未来研究需建构稳健的评估框架与保障机制，以确保其在教育实践中负责任、公平地应用。

Recommended Citation

Huang, Yue; Palermo, Corey; Liu, Ruitao; and He, Yong (2025) "生成式语言模型在自动写作评估中的早期综述：自动作文评分与反馈生成领域的进展、挑战及方向," Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语期刊: Vol. 6: Iss. 2, Article 6.
DOI: https://doi.org/10.59863/KFPS7749
Available at: https://www.ce-jeme.org/journal/vol6/iss2/6

DOI

https://doi.org/10.59863/KFPS7749

Download

COinS

生成式语言模型在自动写作评估中的早期综述：自动作文评分与反馈生成领域的进展、挑战及方向

ORCID

Abstract

Recommended Citation

DOI

Special Issues:

Search

生成式语言模型在自动写作评估中的早期综述：自动作文评分与反馈 生成领域的进展、挑战及方向

Authors

ORCID

Abstract

Recommended Citation

DOI

Share

Special Issues:

Search

生成式语言模型在自动写作评估中的早期综述：自动作文评分与反馈生成领域的进展、挑战及方向