【WPS功能分享】WPS表格-原来这才是REGEXP正则函数汉字匹配写法的来源
Tam Kingsley
创作者俱乐部成员
可能很多人在使用正则函数REGEXP时一直疑惑,为什么很多人的写法都是[一-龟]呢?但由于确实在绝大部分情况下它能得到我们需要的结果,所以我们也就一直用着了,直到我在学习到UNICHAR函数就思考[一-龟]会不会是在字符编码集里【一】和【龟】就是汉字范围的边界呢?
正则函数匹配汉字写法来由
常用汉字范围(以[一-龟]写法举例)
通过UNICHAR函数查看我们发现在连续字符集区域里常用汉字是从【一】开始,所以平时大家就以【一】作为汉字开始边界,但结尾边界在哪里呢?可以从下图看出【龟】并不是汉字结束的边界,后面还有【龠,龡,龢,龣,龤,龥,龦,龧,龨,龩,龪,龫,龬,龭,龮,龯】这些字,但为什么在使用正则函数匹配汉字时不使用[一-龯]呢?这就涉及常用字的问题了,对于一般人来说记忆[一-龟],总比记忆[一-龯]容易,所以因为这样大家就默认使用[一-龟]匹配常用汉字了,当然如果需要匹配汉字还能使用其他一些写法~
其他汉字匹配写法
【\p{Han}】的写法
然后我们就有一个疑问,既然[一-龟]不能匹配【龟】后面的汉字,那么使用【\p{Han}】可以匹配上吗?由下图所示,我们惊奇地发现居然把[一-龟]不能匹配的部分也匹配上了~
💡 | 总结:在WPS的REGEXP函数中,常用地你可以使用[一-龟]匹配汉字,范围更大的可以使用【\p{Han}】匹配汉字 |
以上就是这次关于汉字匹配写法来由的分享~
WPS版本
WPS64位内测版(12.1.0.17726-release)
系统版本
Windows11
创作者俱乐部成员
创作者俱乐部成员
创作者俱乐部成员
创作者俱乐部成员
创作者俱乐部成员