php去除字符串中的(特殊)空白字符

花了几天来研究这个问题,然后发现这样就可以,那就不用往下看了

function trim_blank($str){
    return preg_replace('/\s/u','',$str);
}

项目中遇到的问题

php项目中,导入Excel表格,获取数据时,发现一列数据头部存在空格,赶紧加上trim来去除空格,发现无法去除。
json_encode数据后发现数据头部出现的空格编码为’\u00a0′.
对于只是简单的取出此空格的方法,想出来三种:

/**
 * 方法一
 * 直接把空白字符复制出来,复制到preg_replacede的第一个参数中
 */
preg_replace('/ /','',$str);
/**
 * 方法二
 * 转码后去除
 */
$str = ' 123123';
$str = json_encode($str);   //转码为 '\u00a0123123'
preg_replace('/\\\u00a0/','',$str);
/**
 * 方法三
 */
preg_replace('/\x{00a0}/u','',$str);

额外说下preg_replace中的三个反斜杠的问题:
官方文档 http://php.net/manual/zh/regexp.reference.escape.php 中写的“比较清楚”:译注: “/\/”, 首先它作为字符串,反斜线会进行转义, 那么转义后的结果是/\/,这个才是正则表达式引擎拿到的模式, 而正则表达式引擎也认为 \ 是转义标记,它会将分隔符 / 进行转义, 从而得到的是一个错误,因此,需要 4 个反斜线才可以匹配一个反斜线。

当然,实际使用发现三个‘\’也是可以的

关于空白字符再多查找下资料

  • php的trim()方法,默认移除两侧的以下字符:
符号 说明
“\0” NULL
“\t” 制表符
“\n” 换行
“\x0B” 垂直制表符
“\r” 回车
” “ 空格
  • 使用preg_replace()中的\s正则替换:
    文档说是 任意空白字符,但是经测试并不能移除上边的 \u00a0,也是只能移除一般的空白字符.
    最后,经过详细测试搜索,http://php.net/manual/zh/regexp.reference.character-classes.php 中关于字符类的描述中发现一句话
空白字符有HT(9)、 LF(10)、VT(11)、 FF(12)、CR(13)、space(32)。 注意, 这个列表包含了垂直制表符。这使得space不同于\s, 因为它不包含垂直制表符(为了向 perl 兼容)

这使得space不同于\s中space指代的应该是空白字符类,所以\s【应该】也只是可以去除这些普通的空白字符。

那么,有哪些空白字符呢?

没有搜到具体的说有哪些空白字符的东西,但是js的正则表达式里\s看可以匹配的空白范围还是比较广泛的

//https://developer.mozilla.org/en-US/docs/Web/JavaScript/Guide/Regular_Expressions

Matches a single white space character, including space, tab, form feed, line feed. Equivalent to [ \f\n\r\t\v\u00a0\u1680\u2000-\u200a\u2028\u2029\u202f\u205f\u3000\ufeff].

For example, /\s\w*/ matches ' bar' in "foo bar."

其中\u2028表示行分隔符,\u2029表示段落分隔符,\ufeff表示字节顺序标记

此处又是知识点啊
https://zhuanlan.zhihu.com/p/27222802
字节顺序标记:
即BOM(byte-order mark)。最初,字符U+FEFF如果出现在字节流的开头,则用来标识该字节流的字节序——是高位在前还是低位在前;如果它出现在字节流的中间,则表达为该字符的原义——(ZERO WIDTH NO-BREAK SPACE零宽度无断空白)。从Unicode 3.2开始,U+FEFF只能出现在字节流的开头,且只能用于标识字节序,就如它的别名——字节序标记——所表示的意思一样;除此以外的用法已被舍弃。取而代之的是,使用U+2060来表示零宽度不中断空格。

所以暂且已js的\s为准来去掉空白字符。
如果还是用正则替换的话:

/**
 * 正则中 \xhh 十六进制编码字符
 * 模式修正符 u 官网给的描述是“此修正符打开一个与 perl 不兼容的附加功能。 模式和目标字符串都被认为是 utf-8 的”[http://php.net/manual/zh/reference.pcre.pattern.modifiers.php]
 * 此处应该也可以把 \u2060加上
 */
function trim_blank($str){
    //partern的第一位是个空格
    $partern = '/[ \x{00a0}\x{1680}\x{2000}-\x{200a}\x{2028}\x{2029}\x{202f}\x{205f}\x{3000}\x{feff}\x{2060}]/u';
    return preg_replace($partern, '', $str);
}

//但一个不小心的尝试,发现这样也可以。。。囧。。。
function trim_blank($str){
    return preg_replace('/\s/u','',$str);
}


//测试
$str = '| | | | | | | | |';
echo json_encode($str); //"| |\u00a0|\u1680|\u2000|\u2001|\u200a|\u205f|\u3000|"

echo remove_white_space($str); //"|||||||||"    两个方法去除效果一致

发表评论

电子邮件地址不会被公开。 必填项已用*标注