WPS多维表AI测试报告(补发)

注:此内容为二次编辑后补发

WPS多维表AI测试报告

一、简述

使用WPS 多维表格AI完成

测试数据共569条,测试内容包括:

提取类:隐患地点、隐患内容、巡查时间

区分类:隐患类型

主观类:危险程度、整改时间

  1. 具体分析

整体流程采用分析单一单元格的方式,考察了AI的数据抽取能力,区分能力以及主观思维。

  1. 隐患内容

采用“智能抽取”功能,提示词如下:

提取具体隐患内容,不要任何时间、地点,然后变得更正式

检测方法使用AI加人工核查的方式,先处理内容,将人工和AI生成内容放在同一单元格里,然后在使用AI“自定义生成”功能,提示词如下:

判断分号前后的内容在意思表达上是否相同,输出“是”或“否”

该方法只对内容的实际意义进行判断,而不判断无意义字符(例如逗号句号等),相比于逐字符判断要更加合理。

AI判断完成后,再由人工进行复审。最终发现AI有44处的意义表达与人工不同,占比7.7%

事后分析,存在以下几种情况:

  1. 人工输入信息缺失:23次,占比50%,总占比4%

  1. AI输入信息缺失:8次,占比17.39%,总占比1.4%

  1. AI不能正确排除地点信息:14次,占比30.44%,总占比2.4%

  1. AI未能识别内容:1次,占比2.17%,数据量过小。

其中,最值得关注的是第(2)、(3)条。其中,第(2)条中的内容,可能是由于提示词的效果而产生的变化,相比之下,并没有出现太大规模的“乱说话”问题,第(4)条也显示了大模型能够识别的占比已经完全可用。第(3)条显示大模型仍然存在语义分割错误的现象。第(1)条属于人工失误,不在讨论范围内。

  1. 隐患地点

采用“智能抽取”的方法,提示词如下:

提取有关地点的描述

检测方法使用Excel里的exact方法,判断字符是否完全相同,并加入人工复审。

最终发现AI有54处的表达与人工不同,占比9.4%

事后分析,存在以下几种情况:

  1. 人工输入存在错误(包括输入信息缺失、不能正确排除隐患内容):15次,占比27%,总占比2.6%

  1. AI输入信息缺失:2次,占比3.7%

  1. 信息本身有误:1次,占比1.85%

  1. 分类问题:36次,占比66.67%

主要问题在于第(4)条,具体为“安全出口以及室内消火栓是否可以算作地点?”,对于这一概念的不同阐释导致了结果的不同。

  1. 隐患时间

采用“智能抽取”的方法,提示词如下:

提取日期和时间的部分,并转化为标准的yyyy-mm-dd hh:mm的形式,如果没有日期的话,就显示未知

检测方法使用Excel里的exact方法,判断字符是否完全相同,并加入人工复审。

最终有8处错误,均为信息错误,已经更正。说明在时间提取方面,AI大模型的准确率已经完全可用。

  1. 隐患类型

在实际操作中,产生了两种方法:第一种方法为“智能抽取”,缺点是现阶段只支持最多10种类别的判断。由此衍生出第二种方法,使用“自定义生成”,两者提示词相同:

请分析文本内容,并做出分类,分类信息如下:

重点岗位值班人员离岗睡岗/人员离岗

重点岗位值班人员离岗睡岗/人员睡岗

消防安全疏散通道消防车通道/堵塞疏散通道

消防安全疏散通道消防车通道/堵塞消防车通道

安全用电用气及火灾隐患/不规范用电

安全用电用气及火灾隐患/不规范用气

室内消火栓、应急疏散管理、防火门等日常管理情况/室内消火栓

室内消火栓、应急疏散管理、防火门等日常管理情况/灭火器

室内消火栓、应急疏散管理、防火门等日常管理情况/防火门

室内消火栓、应急疏散管理、防火门等日常管理情况/疏散指示灯具

检测方法使用Excel里的exact方法,分别判断人工与第一种方法、人工与第二种方法的准确率。其中,第一种方法存在缺失部分选项的情况,于是对人工的数据进行了简化处理。

最终,人工与第一种AI方法的比较里,有133处不同,占比23.3%。

具体分析如下:

  1. 信息不足:48次,占比36.09%,总占比8.4%

  1. 人工判断失误:21次,占比15.79%,总占比3.6%

  1. AI判断失误:38次,占比28.57%,总占比6.6%

  1. 分类问题:19次,占比14.29%,总占比3.3%

  1. AI出现幻觉:7次,占比5.26%,总占比1.2%

同时,也对人工与第二种AI方法进行比较,有129处不同,占比22.6%

具体分析如下:

  1. 信息不足:31次,占比26.73%,总占比5.4%

  1. 人工判断失误:16次,占比13.79%,总占比2.8%

  1. AI判断失误:35次,占比30.17%,总占比6.5%

  1. 分类问题:21次,占比18.1%,总占比3.6%

  1. AI出现幻觉:13次,占比11.21%,总占比2.2%

信息不足、AI判断失误和分类问题是前三重点问题,在两种AI方法中没有展现出明显差别,结果较为稳定。“信息不足”是指给予AI的信息有时存在内容缺失的现象,当前的AI只能分析文本内容,无法分析照片内容,导致无法给出正确判断。“分类问题”是指在分类中,某个问题可以同时归结于两个分类,AI并不能做多选。AI判断失误则是由于AI本身未经训练,对于安全工作不够严苛所导致的。

值得注意的是AI出现幻觉的现象。方法2比方法1要有更多的幻觉现象,这是由于方法2回答具有更高的自由度。相比之下,方法1的选项都是给定的,却会出现意料之外的选项,说明大模型的幻觉现象仍然难以根除。

  1. 危险程度

采用“情感分析”方法,提示词如下:

根据内容分出危险等级,共两级:一般、重大

检测方法使用Excel里的exact方法,判断字符是否完全相同。

最终得出:人工与AI不同处有265处,占比46.4%

“危险程度”的区分当前具有较大主观性,并无相关法律条文支撑,故不做分析。

  1. 整改时间

采取“情感分析”方法,提示词如下:

根据隐患问题的复杂程度,分为以下三个整改时间等级:立即整改、24小时内整改、择日整改

检测方法使用Excel里的exact方法,判断字符是否完全相同。

最终得出:人工与AI不同处有263处,占比46.1%

整改时间反映的是隐患问题的整改难度,在没有明确施工难度的情况下存在较大主观性,故无法客观分析。

  1. 总结

  1. 人工输入应当更加精准。要把隐患的原因以及可能产生的后果,触及的法律条文都说清楚,才能让AI分析更加合理。

  1. 对于问题的分类应当纳入更加客观的指标,以免出现多重分类的问题。

  1. AI大模型应当引入更加精细化的训练方式,采用基础模型(checkpoint)与微调模型(LORA)的结合应该会提高准确率。

  1. AI当前仍然存在极小部分的幻觉问题,这是大模型不可避免的问题。

河南省
浏览 191
收藏
2
分享
2 +1
+1
全部评论