WPS多维表AI测试报告(补发)
注:此内容为二次编辑后补发
WPS多维表AI测试报告
一、简述
使用WPS 多维表格AI完成
测试数据共569条,测试内容包括:
提取类:隐患地点、隐患内容、巡查时间
区分类:隐患类型
主观类:危险程度、整改时间
具体分析
整体流程采用分析单一单元格的方式,考察了AI的数据抽取能力,区分能力以及主观思维。
隐患内容
采用“智能抽取”功能,提示词如下:
提取具体隐患内容,不要任何时间、地点,然后变得更正式
检测方法使用AI加人工核查的方式,先处理内容,将人工和AI生成内容放在同一单元格里,然后在使用AI“自定义生成”功能,提示词如下:
判断分号前后的内容在意思表达上是否相同,输出“是”或“否”
该方法只对内容的实际意义进行判断,而不判断无意义字符(例如逗号句号等),相比于逐字符判断要更加合理。
AI判断完成后,再由人工进行复审。最终发现AI有44处的意义表达与人工不同,占比7.7%
事后分析,存在以下几种情况:
人工输入信息缺失:23次,占比50%,总占比4%
AI输入信息缺失:8次,占比17.39%,总占比1.4%
AI不能正确排除地点信息:14次,占比30.44%,总占比2.4%
AI未能识别内容:1次,占比2.17%,数据量过小。
其中,最值得关注的是第(2)、(3)条。其中,第(2)条中的内容,可能是由于提示词的效果而产生的变化,相比之下,并没有出现太大规模的“乱说话”问题,第(4)条也显示了大模型能够识别的占比已经完全可用。第(3)条显示大模型仍然存在语义分割错误的现象。第(1)条属于人工失误,不在讨论范围内。
隐患地点
采用“智能抽取”的方法,提示词如下:
提取有关地点的描述
检测方法使用Excel里的exact方法,判断字符是否完全相同,并加入人工复审。
最终发现AI有54处的表达与人工不同,占比9.4%
事后分析,存在以下几种情况:
人工输入存在错误(包括输入信息缺失、不能正确排除隐患内容):15次,占比27%,总占比2.6%
AI输入信息缺失:2次,占比3.7%
信息本身有误:1次,占比1.85%
分类问题:36次,占比66.67%
主要问题在于第(4)条,具体为“安全出口以及室内消火栓是否可以算作地点?”,对于这一概念的不同阐释导致了结果的不同。
隐患时间
采用“智能抽取”的方法,提示词如下:
提取日期和时间的部分,并转化为标准的yyyy-mm-dd hh:mm的形式,如果没有日期的话,就显示未知
检测方法使用Excel里的exact方法,判断字符是否完全相同,并加入人工复审。
最终有8处错误,均为信息错误,已经更正。说明在时间提取方面,AI大模型的准确率已经完全可用。
隐患类型
在实际操作中,产生了两种方法:第一种方法为“智能抽取”,缺点是现阶段只支持最多10种类别的判断。由此衍生出第二种方法,使用“自定义生成”,两者提示词相同:
请分析文本内容,并做出分类,分类信息如下:
重点岗位值班人员离岗睡岗/人员离岗
重点岗位值班人员离岗睡岗/人员睡岗
消防安全疏散通道消防车通道/堵塞疏散通道
消防安全疏散通道消防车通道/堵塞消防车通道
安全用电用气及火灾隐患/不规范用电
安全用电用气及火灾隐患/不规范用气
室内消火栓、应急疏散管理、防火门等日常管理情况/室内消火栓
室内消火栓、应急疏散管理、防火门等日常管理情况/灭火器
室内消火栓、应急疏散管理、防火门等日常管理情况/防火门
室内消火栓、应急疏散管理、防火门等日常管理情况/疏散指示灯具
检测方法使用Excel里的exact方法,分别判断人工与第一种方法、人工与第二种方法的准确率。其中,第一种方法存在缺失部分选项的情况,于是对人工的数据进行了简化处理。
最终,人工与第一种AI方法的比较里,有133处不同,占比23.3%。
具体分析如下:
信息不足:48次,占比36.09%,总占比8.4%
人工判断失误:21次,占比15.79%,总占比3.6%
AI判断失误:38次,占比28.57%,总占比6.6%
分类问题:19次,占比14.29%,总占比3.3%
AI出现幻觉:7次,占比5.26%,总占比1.2%
同时,也对人工与第二种AI方法进行比较,有129处不同,占比22.6%
具体分析如下:
信息不足:31次,占比26.73%,总占比5.4%
人工判断失误:16次,占比13.79%,总占比2.8%
AI判断失误:35次,占比30.17%,总占比6.5%
分类问题:21次,占比18.1%,总占比3.6%
AI出现幻觉:13次,占比11.21%,总占比2.2%
信息不足、AI判断失误和分类问题是前三重点问题,在两种AI方法中没有展现出明显差别,结果较为稳定。“信息不足”是指给予AI的信息有时存在内容缺失的现象,当前的AI只能分析文本内容,无法分析照片内容,导致无法给出正确判断。“分类问题”是指在分类中,某个问题可以同时归结于两个分类,AI并不能做多选。AI判断失误则是由于AI本身未经训练,对于安全工作不够严苛所导致的。
值得注意的是AI出现幻觉的现象。方法2比方法1要有更多的幻觉现象,这是由于方法2回答具有更高的自由度。相比之下,方法1的选项都是给定的,却会出现意料之外的选项,说明大模型的幻觉现象仍然难以根除。
危险程度
采用“情感分析”方法,提示词如下:
根据内容分出危险等级,共两级:一般、重大
检测方法使用Excel里的exact方法,判断字符是否完全相同。
最终得出:人工与AI不同处有265处,占比46.4%
“危险程度”的区分当前具有较大主观性,并无相关法律条文支撑,故不做分析。
整改时间
采取“情感分析”方法,提示词如下:
根据隐患问题的复杂程度,分为以下三个整改时间等级:立即整改、24小时内整改、择日整改
检测方法使用Excel里的exact方法,判断字符是否完全相同。
最终得出:人工与AI不同处有263处,占比46.1%
整改时间反映的是隐患问题的整改难度,在没有明确施工难度的情况下存在较大主观性,故无法客观分析。
总结
人工输入应当更加精准。要把隐患的原因以及可能产生的后果,触及的法律条文都说清楚,才能让AI分析更加合理。
对于问题的分类应当纳入更加客观的指标,以免出现多重分类的问题。
AI大模型应当引入更加精细化的训练方式,采用基础模型(checkpoint)与微调模型(LORA)的结合应该会提高准确率。
AI当前仍然存在极小部分的幻觉问题,这是大模型不可避免的问题。