扫码关注官方订阅号
很简答的的示例程序,大家看下
我的问题是,我不明白,文件的明明是0-50000这些数字,为什么文件打开以后,里面是各种各样的符号呢,有中文,英文,日文等等各种字符。 我能知道是unicode编码的原因,但是不是很清楚原理 请各位帮忙解释下,或者给个详细解释这个的链接之类的更好。
非常感谢!
人生最曼妙的风景,竟是内心的淡定与从容!
由于你的参数类型为 int ,所以你实际调用的应该是 OutputStreamWriter.write(int)
这个函数的作用是“Writes a single character”。也就是说你写入的是一个直接的字节。
你没有搞清楚“编码”这个概念。“编码”就是把各种信息保存到计算机中的方式。因为计算机是只能处理数字的,所以所有的符号(这里指 A-Z a-z 中文 数字等)都需要有一个对应的“编码”。
小实验:
写一个 Java 程序,里面有:
for (int i = 48; i < 58; i++) { fw.write(i); }
然后用记事本打开你写入的那个文件,你看到了什么?
你应该看到“0123456789”,因为 48 - 57 对应的正好是 '0' - '9' 的 ASCII 码。完整的 ASCII 码表见 http://zh.wikipedia.org/zh-cn/ASCII 。
下载一个 16 进制编辑器,这里推荐 HxD 打开你之前生成的那个 unicode.dat 文件。你看到的东西应该是类似这样的:
0000000: 0001 0203 0405 0607 0809 1011 1213 1415 ................ 0000010: 1617 1819 2021 2223 2425 2627 2829 3031 .... !"#$%&'()01 0000020: 3233 3435 3637 3839 4041 4243 4445 4647 23456789@ABCDEFG 0000030: 4849 5051 5253 5455 5657 5859 6061 6263 HIPQRSTUVWXY`ab
你会发现该文件从第一个字节开始每个字节正好是 0 1 2 3 ...
计算机的每个字节可以表示一个 0 - 255 的数字,那每个数字代表什么含义呢?这就是编码赋予的。
也就是说,你把计算机中处理的“数字”,和编码中作为“符号”的那个“数字”搞混了,在 ASCII 码中恰好有 '0' - '9' 这 9 个数字,但它们是作为符号的,它们的编码是 48 - 57 。
在 Java 中,可以用类型来区别。直接的那个数字是 int 型,而作为符号的是 char 或 String 型。
至于为什么会出现乱码,这是因为记事本把文本文件按照 gbk 来解释,而 gbk 中有中文、日文之类的符号。
关于 Unicode 和各种编码,推荐一篇文章:
字符编解码的故事(ASCII,ANSI,Unicode,Utf-8区别)
那如何才能实现你想实现的功能呢?
可以用 Writer.write(String) 方法:
fw.write(Integer.toString(i) + " " );
FileWriter writer(int c) 重写Writer的write方法,他会调用StreamEncoder StreamEncoder http://www.docjar.com/html/api/sun/nio/cs/StreamEncoder.java.html 他会将写入单个字符。要写入的字符包含在给定整数值的 16 个低位中,16 高位被忽略,查看链接即可
先看文档中文,它有五个方法
/** * write(String str) * 写入字符串。 * write(int oneChar) * 写入单个字符。要写入的字符包含在给定整数值的 16 个低位中,16 高位被忽略。用于支持高效单字符输出的子类应重写此方法。 * write(char[] buf) * 写入字符数组 * write(String str, int offset, int count) * write(char[] buf, int offset, int count) */
用的是 write(int oneChar) 这一种,写入单个字符表,用计算器高位被忽略就是
00000000|00110010 //50 1|00000000|00110010 //65536 + 50 -------------------
然后两者其实结果是一样的。过程如下,只看最后两段即可
import java.io.FileWriter; /** * Created by star on 11/29/13. * write(char[] buf, int offset, int count) * write(String str) * write(int oneChar) * write(char[] buf) * write(String str, int offset, int count) */ public class Encode { public static void main (String [] args) { FileWriter fw = null; try { // *输出字符串"妳好" // fw = new FileWriter("/home/star/unicode.txt"); // String a = "妳好"; // fw.write(a); // fw.close(); // *这里打印的不是50,而是50的16进制所代表的值「2」 // fw = new FileWriter("/home/star/unicode.txt"); // int a = 50; // fw.write(a); // fw.close(); // *比16位高的位数被忽略。会打印相同的两个「2」 // fw = new FileWriter("/home/star/unicode.txt"); // fw.write(50); // fw.flush(); // fw.write(65536 +50); // fw.flush(); // fw.close(); // *我想你要的结果是这样的吧 0x4e00 开始 fw = new FileWriter("/home/star/unicode.txt"); for (int a = 19968 ; a<19968 + 500;a++) { fw.write(a); } fw.close(); } catch (Exception e) { e.printStackTrace(); System.out.println("文件写入错误"); System.exit(-1); } } }
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
扫描下载App
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
由于你的参数类型为 int ,所以你实际调用的应该是 OutputStreamWriter.write(int)
这个函数的作用是“Writes a single character”。也就是说你写入的是一个直接的字节。
你没有搞清楚“编码”这个概念。“编码”就是把各种信息保存到计算机中的方式。因为计算机是只能处理数字的,所以所有的符号(这里指 A-Z a-z 中文 数字等)都需要有一个对应的“编码”。
小实验:
写一个 Java 程序,里面有:
然后用记事本打开你写入的那个文件,你看到了什么?
你应该看到“0123456789”,因为 48 - 57 对应的正好是 '0' - '9' 的 ASCII 码。完整的 ASCII 码表见 http://zh.wikipedia.org/zh-cn/ASCII 。
下载一个 16 进制编辑器,这里推荐 HxD 打开你之前生成的那个 unicode.dat 文件。你看到的东西应该是类似这样的:
你会发现该文件从第一个字节开始每个字节正好是 0 1 2 3 ...
计算机的每个字节可以表示一个 0 - 255 的数字,那每个数字代表什么含义呢?这就是编码赋予的。
也就是说,你把计算机中处理的“数字”,和编码中作为“符号”的那个“数字”搞混了,在 ASCII 码中恰好有 '0' - '9' 这 9 个数字,但它们是作为符号的,它们的编码是 48 - 57 。
在 Java 中,可以用类型来区别。直接的那个数字是 int 型,而作为符号的是 char 或 String 型。
至于为什么会出现乱码,这是因为记事本把文本文件按照 gbk 来解释,而 gbk 中有中文、日文之类的符号。
关于 Unicode 和各种编码,推荐一篇文章:
字符编解码的故事(ASCII,ANSI,Unicode,Utf-8区别)
那如何才能实现你想实现的功能呢?
可以用 Writer.write(String) 方法:
FileWriter writer(int c) 重写Writer的write方法,他会调用StreamEncoder
StreamEncoder http://www.docjar.com/html/api/sun/nio/cs/StreamEncoder.java.html
他会将写入单个字符。要写入的字符包含在给定整数值的 16 个低位中,16 高位被忽略,查看链接即可
我来尝试回答一下,现学现卖 ^_^ (我使用 linux 可能不大一样)
先看文档中文,它有五个方法
用的是 write(int oneChar) 这一种,写入单个字符表,用计算器高位被忽略就是
然后两者其实结果是一样的。过程如下,只看最后两段即可