Java面试题大全

一个文本文件,如何知道它是GBK编码、还是UTF-8编码?BOM是什么东西?


我们平时看到的文本文件,虽然都是文本,但有的是GBK编码,有的UTF-8编码。

那么,对于一个阅读器,它在读取一个文本文件时如何知道它是GBK还是UTF-8呢?


奥秘在于文件头部的几个字节。

规定如下:当以UTF16或UTF-8编码存储时,头部需要添加几个字节作为标识。称为 BOM

UTF8: 头部3个字节 EF BB BF

UTF16BE (Big-Endian) : FE FF
UTF16LE (Little-Endian) : FF FE

由于UTF-8是我们常见的类型,所以只要关闭UTF-8的BOM即可。


当我们自己读取一个文本文件时,便要注意这种事情。要检测头部是否有 EF BB BF ,这三个字节是编码标识,不是有效内容。

final byte[] bom= { (byte)0xEF, (byte)0xBB, (byte)0xBF };

if ( buf[0] == bom[0] && buf[1] == bom[1] && buf[2] == bom[2] )

{

// It's UTF8 encoded ...

}


反之,如果没有检测到这几种BOM,但是ANSI(本地字符编码)。对于Windows中文版来说,本地编码就是GBK编码。


千问首页   |   返回上一页