Python、SEM与LDA主题模型、RoBERTa情感分析大学生生成式AI辅助学习影响|附AI智能体、代码和数据

原文出处： 拓端数据部落公众号

封面：

关于分析师

Mengjiao Yu

在此对 Mengjiao Yu 对本文所作的贡献表示诚挚感谢，她在北方民族大学完成了应用统计专业的硕士学位，专注机器学习、深度学习算法与数据挖掘领域。擅长Python、MatLab及各类统计建模工具。曾在多个数据分析咨询项目中负责模型构建与算法优化，具备丰富的实证研究经验。

!摘要

生成式AI（GAI）正在重塑大学生的学习方式，但其"外挂"与"枷锁"的双面效应尚缺乏系统实证。本文基于问卷调查与知乎舆情数据，综合运用结构方程模型（SEM） 、LDA主题挖掘与RoBERTa情感分析，探究GAI对大学生自主学习能力的影响机制。

核心回答五个问题：(1) GAI使用特征如何通过中介路径影响自主学习能力？(2) GAI学习影响与GAI使用教育的链式中介效应是否显著？(3) 社会公众对GAI辅助学习的主流态度分布如何？(4) LDA主题模型揭示了哪些核心舆论议题？(5) 如何在"效率提升"与"思维依赖"之间构建平衡机制？

关键词： 生成式AI；结构方程模型；LDA主题模型；RoBERTa情感分析；自主学习能力

!Abstract

Generative AI (GAI) is reshaping college students’ learning behaviors, yet its dual-edged effects as both “crutch” and “constraint” lack systematic empirical evidence. This study integrates survey data and Zhihu platform discourse, employing Structural Equation Modeling (SEM) , LDA topic modeling, and RoBERTa-based sentiment analysis to investigate GAI’s impact on students’ self-regulated learning. Five core questions are addressed: (1) How do GAI usage characteristics influence self-regulated learning through mediated pathways? (2) Are the chain-mediated effects of perceived learning impact and GAI education significant? (3) What is the distribution of public sentiment toward GAI-assisted learning? (4) Which core topics emerge from LDA-based discourse mining? (5) How can we balance “efficiency gains” with “cognitive dependency”?

Keywords: Generative AI; Structural Equation Modeling; LDA Topic Model; RoBERTa Sentiment Analysis; Self-Regulated Learning

!引言

上学期监考时，我发现近三分之一的学生提交的编程作业呈现出高度相似的"AI风格"：逻辑严谨、格式工整，但在边界条件处理上暴露出理解的断层。这促使我和团队启动了一项咨询项目——本章内容即基于该项目的研究成果改编而成。

本文将我们的SEM结构方程模型、LDA主题挖掘与RoBERTa情感分析建模经验沉淀为一个对话式AI智能体，使其能够复现从问卷统计、舆情分析到路径建模的完整推理链。该智能体不仅适用于教育学领域的实证研究，也可迁移至市场营销、公共政策评估等需要多源数据融合分析的场景。

阅读原文进群获取本文完整代码、数据、AI智能体及更多最新AI见解和行业洞察，可与900+行业人士交流成长；还提供人工答疑，拆解核心原理、代码逻辑与业务适配思路；遇代码运行问题，更能享24小时调试支持。

!1. 研究背景与方法概述

!1.1 GAI政策环境与发展现状

从政策层面看，《新一代人工智能发展规划》《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》《元宇宙产业创新发展三年行动计划（2024-2026年）》等产业政策为GAI大模型行业提供了明确的市场前景。

图1 GAI大模型相关政策

续图1 GAI大模型相关政策

!1.2 GAI冲击下的大学课堂

生成式AI工具在大学生群体中的渗透率在过去两年间急剧攀升。从最初的"尝鲜式"使用——请ChatGPT帮忙写邮件、总结文献，到如今深度嵌入作业撰写、代码调试、论文框架搭建等环节，GAI正从"偶尔的助手"演变为"日常的学习伴侣"。

这就像一个学生在图书馆遇到了一个无所不知的学长（行业术语：大语言模型的知识检索能力），他可以随时回答任何问题，但也可能让学弟学妹逐渐丧失自己翻阅书籍、推导公式的耐心。

📖 故事时间：从"搜索引擎"到"对话伙伴"
2000年代，大学生的主要信息获取方式是百度+知网，需要自己筛选、判断、整合。2015年后，知乎等社区让"直接看别人的答案"成为习惯。2023年起，GAI让"直接生成答案"成为可能。这三次跃迁，本质上是"认知外包"的逐步加深——我们越来越习惯把思考过程交给外部工具。问题的核心不在于工具本身，而在于使用者是否保留了"元认知"能力：即知道自己不知道什么，并知道如何通过学习来填补这个缺口。

!1.3 研究思路与实施流程

本研究采用混合研究方法，将定量问卷调查与网络舆情文本挖掘相结合：

图4 研究思路框架

方法维度	具体技术	应用场景
问卷调查	量表设计、信效度检验	采集大学生GAI使用行为与态度数据
统计建模	SEM结构方程模型	探究GAI特征描述→学习影响→自主学习能力的路径机制
文本挖掘	LDA主题模型	挖掘知乎讨论的核心议题结构
情感分析	RoBERTa预训练模型	量化公众对GAI辅助学习的情感倾向
网络分析	词共现网络	揭示关键词之间的语义关联结构

图6 实施流程图

!2. 问卷设计与数据采集

!2.1 量表构建与采样

研究从GAI特征描述、GAI学习影响、自主学习能力和GAI使用教育四个维度构建测量量表。问卷通过某在线调查平台发放，回收有效样本覆盖不同年级、专业背景的大学生群体。信度检验显示Cronbach’s α系数均在0.75以上，效度检验中KMO值大于0.8，表明量表具有良好的内部一致性和结构效度。

!2.2 样本特征：均衡性与代表性

本次调查样本的性别分布呈现高度均衡的特征，男性受访者占比50.25%，女性受访者占比49.75%，差值仅为0.5个百分点。这种接近1:1的性别结构与当前国内高校大学生整体性别比例基本吻合。

图7 样本性别分布

图8 样本学段分布

调查的学科分布显示，理工类学生占比57.5%，文科类学生占比42.5%。理工类学生占比过半，反映出理工科学生对GAI辅助学习工具的参与度更高，这可能与理工科学生普遍对技术工具的较高接受度和依赖性相关。

谁的"外挂"？谁的"枷锁"？——大学生生成式AI辅助学习的双面影响调研

图10 年级排名分布

年级排名21%-50%的学生占比最高，反映出中等学业水平的学生是本次调查的核心群体。年级前20%的优秀学生与年级后50%的后进学生的比例相近，分别为32.87%和30.69%，样本分布呈现典型的"橄榄型"结构。

!2.3 交叉分析：性别与学段无显著影响

通过卡方检验的结果可以看出，性别和学段对这些变量之间的关系并没有显著影响，所有的p值都远高于常用的显著性水平（如0.05）。

图11 卡方检验交叉分析结果

!2.4 关键发现：使用频率比时长更重要

交叉分析揭示了一个有趣的现象：GAI的使用频率对学习行为的影响显著（标准化回归系数=1.000，p=0.004），而GAI的使用时长与学习效果之间未达到统计显著性（p=0.265）。

📖 这意味着什么？
好比去健身房——每天去20分钟的人，效果可能远好于一周去一次但每次待两小时的人。GAI的使用也是"少量多次"优于"集中突击"。高频的、嵌入日常学习流程的GAI交互，比偶尔的大段使用更能提升学习效果。这也解释了为什么"随手查一下"比"写作业时全扔给AI"更受教师欢迎。

此外，主动思考GAI回答逻辑合理性的学生对学习效果的感知显著更强（标准化回归系数=0.646，p<0.001），说明批判性使用GAI而非被动接受是发挥其教育价值的必要条件。

!2.5 开放题词云：积极但不盲从

第二题词云图中，“GAI”“学习”“使用”"辅助"等词语占据主导地位，说明受访者的讨论重点集中在人工智能在学习过程中的具体应用方式。同时，“提升”“效率”"帮助"等词语也较为突出，进一步表明大多数用户认可GAI在学习中的积极作用。

综合来看，受访者整体上对GAI持较为积极但不盲从的态度。一方面认可其在学习中的辅助价值，另一方面也关注其对思维能力可能带来的影响。

!3. SEM结构方程模型分析

!3.1 模型构建与拟合评估

本研究构建了以GAI特征描述为自变量、GAI学习影响和GAI使用教育为中介变量、自主学习能力为因变量的结构方程模型。

图14 结构方程模型路径图

拟合指标	判断标准	实际值	评价
χ²/df	<3	2.195	良好
GFI	>0.9	0.943	优秀
RMSEA	<0.10	0.089	合格
CFI	>0.9	0.916	良好
NFI	>0.9	0.905	良好
AGFI	>0.9	0.907	良好

整体模型在绝大多数指标上表现良好，适合用于路径分析和假设检验。

图15 拟合效度分析流程图

相关文章

!DeepSeek、LangGraph和Python融合LSTM、RF、XGBoost、LR多模型预测NFLX股票涨跌|附AI智能体、代码和数据

原文链接：https://tecdat.cn/?p=44060

!3.2 直接效应：GAI特征描述并非直接驱动力

路径分析结果表明，GAI特征描述对自主学习能力的直接路径系数仅为0.018（不显著） ，对GAI学习影响的路径系数为-0.026（不显著），对GAI使用教育的路径系数为0.001（不显著）。

这揭示了一个重要的结论：单纯的GAI使用行为本身，无论是使用频率、时长还是技术特征感知，都无法直接推动自主学习能力的提升。 它的作用需要通过中介变量间接实现。

!3.3 中介效应与关键路径

GAI学习影响是模型中最核心的中介变量：

GAI学习影响 → 自主学习能力：路径系数0.912（p<0.001），呈现极强的正向驱动效应
GAI学习影响 → GAI使用教育：路径系数0.540（p=0.008），表明正向学习体验推动教育采纳
GAI使用教育 → 自主学习能力：路径系数0.482（p=0.017），系统化的GAI教育是重要的正向影响因素

完整的传导链为：GAI特征描述 → GAI学习影响 → GAI使用教育 → 自主学习能力，构成一条链式中介路径。GAI特征描述对自主学习能力的影响完全通过中介变量实现。

图16 SEM路径系数图

这意味着，单纯强调"多用GAI"并无实际意义，关键在于引导学生建立对GAI学习效用的积极认知（“它确实帮到我了”），并通过系统化教育（“我知道如何在合适场景正确使用它”）将这种认知转化为自主学习能力。

答辩高频提问：为什么GAI特征描述的直接效应不显著？
标准答案： GAI特征描述测量的是"使用行为"本身（频率、时长、情境），而自主学习能力的提升涉及认知层面的转变。行为层面的变化如果不伴随认知层面的重构（即"我觉得AI有用"→"我学会了如何正确用AI"→"我的自学能力提高了"的认知升级链），就无法转化为能力提升。这与Bandura社会认知理论中"行为-认知-环境"三元交互模型一致——行为改变的最终效果取决于认知加工的中介作用。

!4. 知乎舆情文本挖掘与分析

!4.1 数据采集与预处理

为补充问卷数据的深度，研究以知乎平台作为舆情数据来源，通过Python编写爬虫程序，以"GAI辅助学习"“大学生GAI辅助学习”"大学生使用GAI的利与弊"等关键词进行搜索，获取相关问题、回答及帖子内容，并抓取标题、正文文本及点赞数等信息，构建研究所需的文本数据集。

图17 知乎平台数据采集示意图

!4.2 描述性统计特征

在完成知乎平台相关数据的采集与清洗后，本文对获取的舆情数据进行了基础的描述性统计分析，以从整体层面把握数据的基本特征和分布情况。

图18 知乎文本信息示例

图19 文本描述统计

知乎讨论文本长度差异较大，从简短提问到系统分析均有分布。点赞数呈明显的长尾分布——大多数帖子互动量低，少数高赞帖围绕"GAI学习效率提升"“学习方法优化”“GAI使用风险"等话题展开，具备较强的舆论代表性。高赞帖子的标题显示出公众关注已从"是否使用GAI"转向"如何高效使用GAI”。

!4.3 高频词与共现网络

对文本进行词频统计和共现网络分析，呈现以下结构特征：

图20 词共现网络

四大结论：

"学生"处于讨论核心位置——词频最高，与"作业"“课程”"论文"等形成紧密共现
"工具"“技术”"模型"等技术词汇形成讨论支撑层——GAI被普遍视为技术驱动型学习工具
"课程"“作业”“论文”"教学"构成应用场景层——GAI已深入具体学习活动
"问题"“能力”"时间"反映能力关注层——公众同时关注效率提升与思维依赖的矛盾

!4.4 LDA主题挖掘与肘部法则优化

本节展示如何通过LDA模型从知乎评论文本中自动挖掘潜在话题。我们经历了从基础建模到主题数优化的完整迭代过程。

第一轮对话：基础LDA建模

我手头有一批知乎平台关于"大学生GAI辅助学习"的评论文本，已经完成了分词和去停用词预处理。我想先用LDA主题模型做一个初步的话题挖掘，目前不确定最佳主题数，先用默认的5个主题跑一遍，看看效果。请帮我用Python实现，使用sklearn的CountVectorizer和LatentDirichletAllocation，输出每个主题的前10个关键词和对应的权重。

运行上述代码后，我们得到5个主题的关键词分布。但各主题之间存在较多语义重叠，“学生”"工具"等高频词在多个主题中反复出现，主题区分度不够理想。这说明5个主题可能不是最优选择。

第二轮对话：基于困惑度与一致性得分的主题数优化

刚才用5个主题跑LDA，发现主题间的语义重叠比较严重。我需要更系统地确定最优主题数。请帮我用肘部法则，在2到10个主题范围内，计算每个主题数下的困惑度（Perplexity）和主题一致性得分（Coherence Score），画出双轴折线图，帮我找到拐点对应的最佳主题数。

根据肘部法则，困惑度在主题数达到4时出现明显拐点，之后的下降速率显著减缓。

图21 主题-困惑变化情况 | 图22 主题一致性得分变化情况

由此确定最优主题数为4。

!4.5 四大舆情主题解读

通过对评论文本数据进行主题挖掘，得到了4个主题组，并分别命名，有效揭示了GAI辅助学习舆情文本的核心话题。

主题一：AI在高等教育中的应用与赋能——聚焦高校教学场景，关注AI辅助教学设计与学习分析。

主题二：智能学习设备在基础教育中的应用——涉及学习机、词典笔等硬件工具在中小学的实践。

主题三：GAI对学习方式与思维能力的影响——最具反思性，“思考”“能力”"大脑"等词高频出现，体现公众对思维削弱的担忧。

主题四：GAI工具与内容平台的功能场景——集中在编程辅助、数据分析、内容总结等实操层面。

!4.6 RoBERTa情感分析：八成公众持正面态度

研究采用uer/roberta-base-finetuned-dianping-chinese预训练模型对知乎评论进行情感分类。该模型基于Transformer架构，通过多层自注意力机制捕捉文本上下文语义，最终通过Sigmoid函数输出正面概率。

对话：情感分类实现

我有一批知乎评论数据，想用预训练的中文RoBERTa模型做情感分类。请帮我用transformers库加载uer/roberta-base-finetuned-dianping-chinese模型，对评论逐条推理，输出每条评论的正面概率值，并统计正面和负面的数量比例，画出饼图。

阅读原文进群获取完整内容及更多AI见解、行业洞察，与900+行业人士交流成长。

情感分析结果显示，正面情绪占比约82%，负面情绪仅占18% 。大多数用户认可GAI在提升学习效率、拓展知识渠道方面的积极作用。约两成负面观点主要集中于对过度依赖削弱独立思考、学术诚信风险的担忧。

!5. 结论与建议

!5.1 GAI的"外挂"价值

研究证实GAI显著提升了学习效率和知识获取速度。在需要大量信息处理和知识整合的任务中（如文献综述、代码调试、数据分析），GAI提供了高效辅助。使用GAI的学生普遍反映，学习内容的深度和广度得到了明显提升。

!5.2 "枷锁"风险与应对

部分学生在长期使用GAI过程中逐渐形成过度依赖，面对复杂问题时表现出主动性缺乏、习惯性依赖GAI生成答案的倾向。这种依赖可能使学生创新能力受限。

!5.3 优化建议

5.3.1 工具设计层面——根据学生进度和理解能力调节GAI的辅助程度，避免过度简化问题解决过程，激发学生主动思考。

5.3.2 教学实践层面——将GAI与讨论式、探究式教学结合，开设专门的GAI使用策略培训，帮助学生从"依赖工具"转向"驾驭工具"。

5.3.3 伦理规范层面——加强对GAI工具的伦理审查，确保数据使用符合学生隐私保护标准，推动GAI在教育领域的健康、透明发展。

!总结

!核心问题与解决方案

问题一：GAI使用行为能否直接提升自主学习能力？
解决方案： 不能。SEM路径分析表明，GAI特征描述对自主学习能力的直接效应不显著（路径系数0.018），其作用必须通过"GAI学习影响→GAI使用教育"的链式中介路径实现。教育实践中应放弃"多用就有效"的简单逻辑。
问题二：GAI辅助学习的社会舆情呈现怎样的态度分布？
解决方案： RoBERTa情感分析显示正面情绪占82%，但负面讨论集中在"思维退化""学术诚信"两大议题。LDA主题挖掘进一步识别出四大舆论主题，其中"对思维能力的影响"最具反思深度。推广GAI时应正面回应用户对"思维弱化"的担忧。
问题三：如何在实际教学中平衡GAI的效率优势与依赖风险？
解决方案： 研究提出的"认知升级链"（认知积极→教育介入→能力内化）提供了可操作的干预框架。具体措施包括：高频短时而非低频长时的使用模式、强制要求学生标注GAI辅助内容并附独立分析、教师批判性示范GAI的使用边界。

!技术创新与业务价值

混合研究范式创新——将SEM路径建模与LDA+RoBERTa文本挖掘相结合，填补了行为-态度-舆情多维度分析的空白，可用于教育学、市场营销、公共政策等领域的多源数据融合研究
链式中介路径发现——首次在GAI教育领域验证了"认知→教育→能力"的三阶传导链，为教育干预提供了靶向路径
肘部法则优化LDA建模——通过困惑度+一致性得分的双指标交叉验证确定最优主题数，提升了主题挖掘的客观性
可量化价值——82%的正面舆情比例证实了GAI辅助学习的公众接受度，为教育科技产品的市场定位提供了数据支撑

作者系机器学习与数据挖掘领域分析师，拥有多年实证研究与算法优化经验。

本文配套的论文建模可直接套用的AI智能体、完整代码包、实证分析，可加小助手：tecdat_cn领取。