💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
[TOC] # 字符流 当我们操作的文件中有中文字符,并且需要对中文字符做出处理时怎么办呢? ## 字符编码表 我们知道计算机底层数据存储的都是二进制数据,而我们生活中的各种各样的数据,如何才能和计算机中存储的二进制数据对应起来呢? 这时把每一个字符和一个整数对应起来,就形成了一张编码表,老美他们的编码表就是ASCII表。其中就是各种英文字符对应的编码。 编码表:其实就是生活中字符和计算机二进制的对应关系表。 1. ascii: 一个字节中的7位就可以表示。对应的字节都是正数。0-xxxxxx 2. iso-8859-1:拉丁码表 latin,用了一个字节用的8位。1-xxxxxxx 负数。 3. GB2312:简体中文码表。包含6000-7000中文和符号。用两个字节表示。两个字节第一个字节是负数,第二个字节可能是正数 GBK:目前最常用的中文码表,2万的中文和符号。用两个字节表示,其中的一部分文字,第一个字节开头是1,第二字节开头是0 GB18030:最新的中文码表,目前还没有正式使用。 4. unicode:国际标准码表:无论是什么文字,都用两个字节存储。 * Java中的char类型用的就是这个码表。char c = 'a';占两个字节。 * Java中的字符串是按照系统默认码表来解析的。简体中文版 字符串默认的码表是GBK。 5. UTF-8:基于unicode,一个字节就可以存储数据,不要用两个字节存储,而且这个码表更加的标准化,在每一个字节头加入了编码信息(后期到api中查找)。 能识别中文的码表:GBK、UTF-8;正因为识别中文码表不唯一,涉及到了编码解码问题。 对于我们开发而言;常见的编码 GBK UTF-8 ISO-8859-1 ~~~ 文字--->(数字) :编码。 "abc".getBytes() byte[] (数字)--->文字 : 解码。 byte[] b={97,98,99} new String(b) ~~~ # 字符输入流Reader 读取拥有中文的文件时,使用的字节流在读取,那么我们读取到的都是一个一个字节。只要把这些字节去查阅对应的编码表,就能够得到与之对应的字符。API中是否给我们已经提供了读取相应字符的功能流对象,Reader,读取字符流的抽象超类。 * int read():读取单个字符并返回 * int read(char[]):将数据读取到数组中,并返回读取的个数。 ## FileReader类 查阅FileInputStream的API,发现FileInputStream 用于读取诸如图像数据之类的原始字节流。要读取字符流,请考虑使用 FileReader。 打开FileReader的API介绍。用来读取字符文件的便捷类。此类的构造方法假定默认字符编码和默认字节缓冲区大小都是适当的 * 构造方法 ~~~ FileReader(File file) 在给定从中读取数据的File的情况下创建一个新FileReader FileReader(String fileName) 在给定从中读取数据的文件中的情况下创建一个新FileReader ~~~ **FileReader读取包含中文的文件** ~~~ public static void main(String[] args) throws IOException { //给文件中写中文 writeCNText(); //读取文件中的中文 readCNText(); } //读取中文 public static void readCNText() throws IOException { FileReader fr = new FileReader("D:\\test\\cn.txt"); int ch = 0; while((ch = fr.read())!=-1){ //输出的字符对应的编码值 System.out.println(ch); //输出字符本身 System.out.println((char)ch); } } //写中文 public static void writeCNText() throws IOException { FileOutputStream fos = new FileOutputStream("D:\\test\\cn.txt"); fos.write("java".getBytes()); fos.close(); } ~~~ # 字符输出流Writer Writer是写入字符流的抽象类。其中描述了相应的写的动作。 ![](https://box.kancloud.cn/20f20f3b4206d5bfba27223a4f271fe3_697x491.png) ## FileWriter类 查阅FileOutputStream的API,发现FileOutputStream 用于写入诸如图像数据之类的原始字节的流。要写入字符流,请考虑使用 FileWriter。 打开FileWriter的API介绍。用来写入字符文件的便捷类。此类的构造方法假定默认字符编码和默认字节缓冲区大小都是可接受的。 * 构造方法 ![](https://box.kancloud.cn/8718d79953a7ccda016709e744843284_904x233.png) **FileWriter写入中文到文件中** 写入字符到文件中,先进行流的刷新,再进行流的关闭。 ~~~ public class FileWriterDemo { public static void main(String[] args) throws IOException { //演示FileWriter 用于操作文件的便捷类。 FileWriter fw = new FileWriter("d:\\text\\fw.txt"); fw.write("你好谢谢再见");//这些文字都要先编码。都写入到了流的缓冲区中。 fw.flush(); fw.close(); } } ~~~ **flush()和close()的区别** ![](https://box.kancloud.cn/012aca3010dabaf78fe2bb9fe68a1dc3_699x189.png) flush():将流中的缓冲区缓冲的数据刷新到目的地中,刷新后,流还可以继续使用。 close():关闭资源,但在关闭前会将缓冲区中的数据先刷新到目的地,否则丢失数据,然后在关闭流。流不可以使用。如果写入数据多,一定要一边写一边刷新,最后一次可以不刷新,由close完成刷新并关闭。 # 复制文本文件 ~~~ public class CopyTextFileTest { public static void main(String[] args) throws IOException { copyTextFile(); } public static void copyTextFile() throws IOException { //1,明确源和目的。 FileReader fr = new FileReader("c:\\cn.txt"); FileWriter fw = new FileWriter("c:\\copy.txt"); //2,为了提高效率。自定义缓冲区数组。字符数组。 char[] buf = new char[1024]; int len = 0; while((len=fr.read(buf))!=-1){ fw.write(buf,0,len); } /*2,循环读写操作。效率低。 int ch = 0; while((ch=fr.read())!=-1){ fw.write(ch); } */ //3,关闭资源。 fw.close(); fr.close(); } } ~~~