教育界杂志社官网 咨询电话:0771-5567169 投稿邮箱:jyjzzs@126.com

论教育非结构化数据的挖掘与应用---打造人性化的可追溯式现代教育

更新时间:2017-10-19浏览:评论: 条

  华南师范大学附属中学南海实验高级中学 程心 528200

  一、当前教学课堂中所反映出的硬性痛点问题:

  当前中国的教学论是由建国初期所引进学习得前苏联凯洛夫教学过程理论。随着经济的不断发展,其“三个中心”——教师中心、教材中心、与课堂中心,及只注重知识传播这种形式已经越来越难以适应教师、学生、家长的要求。其教学模式所注重的僵硬的结构性数据(平均分等)难以适应当前21世纪对创新型人才、独立有主见类型人才的考核需求。同时,结构性数据所占据的比例越大,就越难以全面的、灵活的判断一个人的价值。以(片面强调成绩,而忽略了非智力素质的培养,反而忽视了个性与共性的相容及匹配性)这种应试目的为结果的教育往往忽视了人的本质价值,最终导致了一个结果——各教育主体(教师、学生、家长)之间共识的缺失,严重者直接导致了主体之间关系的破裂。教育从来就不是单个教育主体所能决定的一个过程,真正打造一个人才需要良好的家庭环境、精确的教师引导和学生内心的自我追求。而达到上述共识(包括求同存异、共同的价值基础等),都需要相互认可,相互理解,并需要一个量化的个人综合价值及效绩评估的解决方案——教育非结构化数据的挖掘与应用应运而生,这才是解决中国教育核心矛盾的灵丹妙药。

  二、当前应试教育衍生出的结构数据带来的弊端(现状):

  第一、通过简单的单次模拟测试所得到的量化分数难以动态的、全面地反映受测试者的受教育情况。实际上,这种教学考核方式难以深挖学生学习过程所产生出的问题,甚至难以让学生客观认识自身情况。部分家长本身受制于角色的限制,对于分数的过度解读在不同程度上加剧了学生的负担。因此传统的考核数据在全面性、可读性及不同教育主体的解读方式及解读出的内容性上都影响了教学的后续进展情况,能否真正用考核出的最终结果,积极的作用于整个教学过程都存在极大的不确定性。

  第二,当前应试模式存在着许多硬性漏洞,其体现在投机性,片面性及教学过程中的连续性教学过程反馈不够明显性上。高考中所谓的“黑马”超水平发挥,实质上是传统考核投机性的缩影,这些所谓的“黑马”中绝大多数人既不是因为一瞬间“开窍”也不是能力的“飞跃性”提升,根据考后同学的反馈,更多是因为蒙对了几道选择题而取得高分。退一步分析,这些“黑马”在客观上并不利于人才的选拔。仅仅通过不稳定的一次超水平发挥着实让人难以信服并信任他们可以在以后的工作中稳定在超水平发挥的能力区间中。考纲上“有就讲”,试卷中“考就学”,是大部分高校的缩影,其知识传播时的片面性与功利性可想而知。在某种程度上来说,这种方式的确加强了硬性的基础知识的落实情况,但是在21世纪以“创新性”人才为目标和“大众创业,万众创新”的时代潮流之下,以传统的教育结构性数据为基础的引导模式难以立足。

  第三、传统应试考核的数据反馈连续性不够强。其原因是这种大型考试(期中,期末等模考)虽考的内容全面,但组织周期长,耗费时间成本高,加上大型考试中的客观因素,会使长达数月的教学准备情况无法准确、权威的反馈。形象的来说,每天都写日记的人,和一个半年写一次日记的人相比较,显然每天写一次日记的人,对自身的情况最为了解。(但是我们没有能力每天都组织大型的权威考试怎么办?请详见后面的解决方案。)间隔时间长、教学信息反馈不全面,是传统应试教育一直沿袭下来的弊端,这种不注重日常教学数据的考核方式不利于动态、准确的引导学生的学习。

  三、非结构化数据在实际应用中的优点:

  非结构化数据,即量子力学延伸的、具有发散性思维方式的数据。与传统的教育考核所产生的结构性数据不同的是,非结构化数据更加注重日常的行为的反馈,同时也是继21世纪互联网思维在教育数据中的应用。大量的日常教学数据所构成的非结构化数据,可以全面、细致、连贯的拟合教师和学生的日常工作情况,真正做到了教学过程可视化、细节可量化。而可追溯的非结构化数据不仅可以让教师与学生全面的认识自身情况,而且还可以有理有据的找出教学过程中问题的根源所在,更能及时的、有针对性的解决问题。既高效的解决了问题,又有效的增强了教育数据的直观性、易读性,充分的挖掘了数据中的价值。

  非结构化数据在教育中的应用是打造“个性化课堂”、“因材施教”的基础。非结构化数据的收集方式是点对点的,虽说非结构化数据是发散的,但是它有着针对性、目的性、可靠性和极强的指向性。它之所以使“量产式”的个性化教育成为可能,是因为其具有数据覆盖广,信息含量大,细节可量化的特点。非结构化数据包如同于一个矿山,里面有着大量的学生个性情况,当掌握并提取所需信息后,可以更准确的描绘学生、教师的用户“画像”,有利于更精准的提供相应的增值服务,其灵活性与全面性是传统的结构性数据所望尘莫及的。这样,就形成了“数据收集——个性信息提取——针对性的个性服务”,即三位一体的教学服务流程。可见,非结构化数据将会是未来个性化教学的“原材料”,也是“个性教学”强有力的理论依据及基础,是21世纪版的高效互联网“因材施教”。

  非结构化数据的全面可追溯性是通过教学“日志”来体现的,目的是为教学过程全天“保驾护航”。正是因为非结构化数据具有日常性的特点,适应了教育时间段长的特性。一个人接受长达十年以上的教育,但上了高中忘初中,上了大学忘高中,且大量的教育数据因未被及时保存而被浪费,(“需求即数据,数据即资源”是互联网思维在教育中应用的体现),大量的需求及问题因未被教育数据所反馈而导致一个人终身的遗憾。学生个人的非结构化数据包若不加以整理与利用,一个人的个性化、特殊化的需求和问题在教育过程中得不到表达,造成了个人发展的目的与方向不明确,最终导致了一个人在受教育过程中的缺失。而“追溯”顾名思义,就是回归过去找经验,回归过往做总结,是量变中寻找到质变解决方案的过程。(追溯程度:在不受客观因素干扰的情况下,可以追溯到几年甚至十几年前某个月、某一天、某一堂课的知识吸收情况和上课状态)这种信息化时代的追溯不仅仅让你知道并回忆自己的过去,更重要的是从根本上全面的认清自身的优缺点,并努力完善自身。最终目标是让学生把握当下,反省过往得失,从而创造未来,真正达到“教育”的本意。从另一个角度来讲,非结构化数据从源头上寻找问题的所在,达到根治的目的,为“改变”创造机会和条件,真正让学生唤醒记忆病从感悟过去的过程中总结经验,从而作为教育主体在教育整体过程中取得“最大的收获”。

  非结构化数据对未来具有极大的预判与参考意义。通过收集并把握非结构化数据的相关关系——线性关系或非线性关系,可以更权威、更可靠的把握未来数据发展的趋势,而“趋势”对于一个人的发展与校绩评估具有极大的参考价值。总的来说,非结构化数据是基于现在已有的发散性数据来反馈未来的趋势。而把握未来,可以突破传统的考核参考数据在教育中达不到的功能。

  非结构化数据是教师与学生沟通的基础与保障。非结构化数据的直观性、准确性较以往的结构性数据更加具有说服力,做到动态的、量化的对学生的学习趋势进行拟合,从而全面反映学生的优缺点,可以使学生与教师之间“有题可析”。而有目共睹式的分析学生的问题,可以进一步减少师生之间矛盾的发生频次,促进师生关系的缓和,增强学生成绩进步上的可视化程度,目的是让被教育方学会在学习困难时期如何“过冬”,为进步的到来打下坚定的基础。做好充分的思想准备,全面提高学生的心理素质,深入认识自我,有利于学生在自我定位方面取得进展。另一方面,应时代之需,非结构化数据也可以系统化的反映一个教师的备课及授课情况。在教学过程中,有效监督教师的工作,可以及时防范教师不负责、不认真备课等情况,同时也为教师着力完善自身素质提供了强有力的数据依靠。非结构化数据在教育上的应用,可促使教师教学质量随着工龄上升而不断提高(在合理区间内),并提高学生与家长对学校、教师工作的满意度,进一步提高教育主体之间的信任感与相互认同感。

  非结构化数据也是师生关系,家长与学校之间关系的“晴雨表”。近年来,在高考的压力之下,教育主体之间变得十分敏感,彼此之间发现不了问题的根源所在,都进一步导致了教育主体之间矛盾的激化。非结构化数据不但可以更好的、有说服力的反馈问题,还可以提前预知与防范问题的发生,划分家校责权等作用。促进教育公开化、透明化,有效解决教育本体之间的矛盾,保障教育的顺利进行;针对教师、学生、家长与学校平台提供的有价值的数据反馈,推动其解决方案的落实,是完善教学问题应对机制,打造和谐校园的根本途径。

  四、非结构化数据的定义与特点:

  大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要组成部分。随着大数据技术的不断发展,非结构化数据几乎已经占据大数据一半以上的比例,从非结构化数据在大数据中如此大的占比我们可以推断出,非结构化数据与大数据在概念与特点的定义上具有一致性。由于目前国际上尚未对非结构化数据给出统一的定义,所以下文对非结构化数据概念与特点的定义多是基于大数据的概念和特点,在大数据与非结构化数据具有一致性这一前提下可以进一步对非结构化数据进行解释。

  1、IDC网对非结构化数据的定义和特点

  据国际数据公司IDC的调查报告显示[]:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。从非结构化数据在大数据中的占比来看,非结构化数据已经成为大数据中非常重要的组成部分。

  IDC对大数据的定义为[]:大数据一般会涉及两种或两种以上数据形式,它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。IDC主要是从定量分析的角度对大数据的概念进行了定义,在此基础上,我们也可以把非结构化数据定义为数据量大、数据种类丰富、增长速度快并且具有时效性的这样一种数据。

  从上述IDC对大数据的定义可以分析出大数据主要有数据量大、数据种类多、增长速度快以及实时接收与存储的特点。

  2、维基百科对非结构化数据的定义和特点

  维基百科将大数据定义为[]:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。用通俗的语言来讲就是大数据是一种数据体量大、数据种类多并且无法用普通的数据收集与处理工具(如数据库)进行收集与处理的数据集合。

  从以上维基百科对于大数据概念的定义可以推断出,维基百科所认为的大数据的特点主要是数据体量大(目前,数据量已从TB级别升级到PB级别)、数据种类多并且需要专门的收集与处理工具。以上对于大数据概念与特点的定义同样适用于非结构化数据,因为它们是部分与整体的统一关系。

  3、非结构化数据具有洞察发现力,流程优化能力,是多样化的信息资产。

  国际著名研究机构Gartner对大数据给出的定义是[]:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  从上述定义可以看出,Gartner所认为的大数据的特点主要有洞察发现力、流程优化能力以及多样化,除此之外,大数据还是一种需要专门的处理模式与技术的信息化资产。同样的,非结构化数据也具有这些特点,用通俗的语言来讲就是非结构化数据和大数据一样都可以实施并且高效地记录和收集数据,通过对海量数据使用专门的软件与处理手段进行处理后,可以从这些数据中发现一些规律与特点,从而让数据不仅仅是数据,而是变成一种有价值意义、可供利用的资产。

  4、非结构化数据的4V特点

  目前,对于非结构化数据的特点比较统一的定义是非结构化数据的4V特点,即:Volume(数据规模大)、Variety(数据种类繁多)、Value(价值密度低)、Velocity(处理速度快)。(1)Volume(数据规模大),即数据量从TB级别上升到PB级别。(2)Variety(数据种类繁多),即如今的数据已经不再局限于文本形式,更多的是视频、音频、图片、地理位置信息等非结构化数据。(3)Value(价值密度低),价值密度高低与数据总量成反比,以网络视频为例,一小时的视频中有价值的内容可能就几分钟而已。(4)Velocity(处理速度快),数据处理遵循“1秒定律”,可以在极短的时间内快速提取出有价值的信息,这是非结构化数据区别于传统数据最大的特点,非结构化数据可以创造价值,而传统常规数据不具备这样的可能[]。

  五、非结构化数据在教学过程中的应用流程:

  教育非结构化数据的流程应为:“数据收集——个性信息提取——生成报告(易读、直观)——提供针对性解决方案”。

  1、数据收集。教育数据的收集与传统的网络爬虫收集方式有相似,但又有区别(网络爬虫技术是当前信息提取的主流方式)。教育信息提取应该更加注重即时性、全面性、连续性、针对性四点。每一个教师与学生的需求都有所不同,所面对的问题和需求的解决方案也不同。因此,对于个性信息提取与数据分层分类方式上具有较高的要求。同时,在收集信息数据的时候需要设置一个标准化的信息解码器,保护教育数据,提高安全性。其中,收集场景多集中在课堂时间、学生自习时间和教师的工作时间上,具体细化到日常收集学生的课堂练习正确率、课堂专注度和课后阅读持续时效性等发散性数据,以及综合各个测试成绩的准确性,从而全面的、准确的刻画用户“画像”。利用数据模拟教学行为,将突破较为片面的传统的数据收集方式,建立用户个人动态的非结构化数据包。

  2、个性信息提取。个性信息的提取主要是在教师与学生的非结构化数据包中提取与教育主体需求、发展有关的数据,是整个教育数据分析流程的初加工阶段,有利于将教育数据与教育主体的个性需求相匹配。同时,我们也应保存暂时用不到的教育数据,不会造成教育数据的资源浪费的同时,方便在解决“一个点”的问题时,联动的、全面的追溯过往相关数据,提高数据价值的挖掘能力,为现代教育“因材施教”“对症下药”提供了有理有据的基础。

  3、针对性的生成报告。在经过个性信息的提取环节后,将已有的个性化信息(课堂音频、日常阅读、学习习性相关数据)转换成格式化的文本。经过教学问题的识别、跟踪,趋势倾向的分析等,以简单易读的回归曲线、数学模型或图表,自动生成深度挖掘后的数据报告,最终由点及面的呈现出个性化数据的价值(即将数据包的大量数据所揭示出隐含的、具有潜在价值的信息,以通俗易懂的方式直接向教师与学生表达,不仅可以让教师与学生的教育数据得到充分的提炼,逐步增强信息输出环节的投入,而且更加促进了教育数据对点教学实践的落实)。

  4、提供针对性的解决方案。数据是无声的,虽然它可以反映出大量的问题,但是其无法主动解决问题也是制约教育数据应用的关键。因此,促进教育数据的落实不仅要让教育主体看得懂数据,也应该让其学会利用数据,去寻找有针对性、高效性的解决方案。在未来,我国应大力提倡学校与相关正规科研机构合作的方式,根据教育数据的分析与实践工作相结合的方法,开发一系列完善的教学数据在课堂实践中应用的相关数学模型等。在利用数据的同时,把握数据的潜在价值,使其回归到教学实践的方式上。另一方面,建立各个班级、学校的热点问题的分析,推动各个学校、地区之间教育成果与教学问题的探讨,推动教育教学方式的创新。针对热点问题,进行对教学共性与个性问题的深入研究与分析,丰富教学成果的展示途径。最终在量变中寻找质变的解决方案,将是数据价值提升的突破口。

  六、非结构化数据在教学中应用的创新发展点:

  目前,非结构化数据在日常教学中的应用在我国尚处与发展初期,国内诸多科技企业像“科大讯飞”等纷纷驻足于教育数据,但是我国各地区的教学质量与教学水平参差不齐,部分地区教育基础设施相对不完善。因此,我国的教学数据的应用绝大多数依然处于封闭状态,实质上是一种信息资产的浪费。现今,绝大多数中国校园内的教学数据分析仍旧停留在传统的结构性数据上。在技术方面,我国尽管也使用了相对成熟的数据分析软件,但是依旧停留在人工检索和传统的二维搜索方式上面,甚至连教学数据输入也是由教师人工输入(学生成绩等)。实践证明,这种方式在21世纪的数据时代如同马路上踩自行车——耗费大量的人力物力但收效甚微。纵观历史,人工数据分析只能提取直观、有规律的、结构性数据的浅层文本信息,谈不上深层次的多级教育信息点的挖掘,然而为了顺应时代的潮流,人工式的分析对于松散但是价值信息含量巨大的非结构化数据早已无从下手。不仅无法深度挖掘数据背后的潜在信息,就连浅层的基本信息也无法高效处理。有时,这些数据也极有可能因教师的主观个人判断、经验主义错误而导致信息误读,甚至可能导致价值数据的丢失,这严重掩盖了非结构化数据价值含量大、客观性、公正性的优势,造成了信息资源的浪费。

  因此,随着中国市场经济的不断发展,教育产业的不断规范,互联网在各个行业中的广泛应用,推动教育数据高效化、安全化、透明化是21世纪数据时代背景下的首要任务。既要保护我国教育数据资源的安全,又要充分的利用教育数据资源,造福于教师与学生。将教育数据资产化、财富化,重视其在教学实践的应用与发展,同时加大教育信息收集力度,建立体系化的教育数据分析系统,实现教育以数据为保障,以人为中心,做到全面促进教育分析方式的创新。

  1、 促进教育数据“去隐私化”。“去隐私化”绝不是开放用户隐私信息,而是在提高教育主体数据安全性的同时,通过“过滤”手段去除用户隐私信息,达到共享教育数据的目的。有利于多向度、全方位、立体化、动态化“关联式”分析社会教育的问题、需求和相应的解决方案,有利于挖掘当前教育过程当中的深层次关系,把握宏观规律,加强顶层设计,量化教育过程,追溯过往问题,联动教育主体之间的关系,促进社会教学质量全方位提升。

  2、 统一数据收集终端,集约化、规模化收集教育数据。教育数据不同于商业数据,其对数据的保密性、整体性、联动性、关联性有着更高的要求,任何一方面数据的破坏或丢失,都极有可能导致教学数据分析的不严谨和片面化。因此,我国在未来不应该仅仅注重教育数据的价值性、保密性等特点,还应该规范、统一数据收集渠道,促进教育数据收集平台化,有利于统一管理数据和高效分析数据。联通“数据+分析+服务”三位一体模式,打造链式教育数据的应用。宽领域高层次的宏观看待教育,把握教育动态,预测未来趋势,针对性的协调高校与数据分析的关系;让教育数据回归教育,让教育数据端回归教育终端,“让合适的人来做合适的事”,是未来中国教育数据应用的一大趋势。

  3、 建立有层次的教育非结构化数据库,完善数据回收及保护机制,做好教育数据的再利用,全面追溯过往数据。确保高效利用教育数据,就必须从教育数据的价值性、保密性、高效性三点出发。挖掘教育数据的潜在价值,回收并整理已利用过的数据,打造并完善中国教育数据可追溯的回收机制,这可以使中国教育数据有更强的可利用性,更广的时间维度,更大的数据含金量。切实加强了我国教育数据的分析能力,实现综合、立体的分析。同时,使教育数据价值最大化,在回顾历史展望未来的视野上,活在当下,大大提升决策的科学性,可以有效避免决策失误与决策经验主义错误等情况的发生。提高了我国的教育生产力,加强我国教育在国际上的竞争力,为中华民族的伟大复兴保驾护航。

  4、 教育数据的应用应该有层次感、方向性、易读易应用性的特点。教育数据的挖掘与应用终究应回归到教育过程中,应着力提高数据分析后的数据呈现能力,清晰形象的利用图表、数学模型等,加强教育数据的层次性和易读性,避免过长的数据分析时间占用教师学生过多的时间。打造智能化、平台化的数据分析模型,让学生与教师可以看得懂、读得懂,自己的问题自己看,自己的问题自己分析。突出教育主体在教育过程中的主人翁地位,加强教育教学分析的实践代入感,更加有利于体现教育主体对自我意识的良好感觉,从深层次上利用、表达数据,而不再是一味的专家分析、专家解读,自己的故事别人讲。真正让教育回归教育主体而不是回归专家,发挥教育主体的主观能动性,从而打造出教育自主解决问题、自主提高的长效机制。

  5、 创新教育数据的研究方式和研究方法。高效利用教育数据,必应增强对教育信息的抓取与记录。分层次、分主次处理教学反馈信息、教务资料及学生学习情况等教育信息,快速识别相关数据,及时存取相关资源,智能化分类,提高平台自主识别能力的同时,确保数据安全,应防范网络攻击,防范安全漏洞,加强数据储存与恢复能力。这是我国教学数据实现财富化、安全化的重要维护手段。当前我国非结构化教育数据开发在一线教学中尚处于初级阶段,不少高校尚未掌握非结构化数据的抓取和分析技术,在该阶段切实加强数据安全性,有效确保教育数据黄金时代的到来,是带动我国教育非结构化数据应用与成长的必经之路。

  原创自程心,版权所有。

  2017年9月10日 -----广东畅想教育科技有限公司

  参考文献:

    奇速优客
    奇速优客
    奇速诗文阅读
    奇速思维导图
    奇速中高考