四种语言的unicode处理简述

sunhw0725 · 发表于 2007-10-24 22:54:58

1. Java

内部字符串用Unicode保存，基本上不用关注这个问题。正则表达式、字符计数和字串截取都工作正常。

2. Perl

存在两种字符模式，一个是传统的面向字节的，另一个是面向unicode字符的。在后面一种情况下，Perl在内部用UTF-8编码存储字符串。对于UTF-8字符串，可以使用传统的字符串操作函数，比如length，substr，也可以使用正则表达式，结果确保正确。Perl使用哪种字符模式，主要取决于流的设置，这个设置是通过binmode函数来进行的。对于在程序文本中出现的字符串，当然是以文件本身的编码方式存储的。经常发生的情况是，程序本身用ANSI编码编写（比如CP936），但是处理汉字的时候需要转换成UTF-8，这时候可以用Encode模块里的decode函数讲字符串转成UTF-8。反过来，encode函数可以把UTF-8编码的Perl字符串转换成CP936，这样就能够在控制台上打印出来。

3. Python

为了支持Unicode，整个做了一个Unicode内建对象，把string对象的全部方法重新实现了一遍。Python对Unicode的支持比较简单。比如 s = unicode('给他5个dollar!", 'gbk')，就能得到一个unicode对象。上面调用中的'gbk'参数是说传过去的字符串是用GBK编码的。对于得到的这个unicode对象，调用string同名方法，所有的结果都是正确的。

4. Ruby

Ruby对于Unicode的支持最差，或者说根本没有支持。Ruby始终只是把String看成是字节序列。使用Ruby处理中文，要用iconv库转来转去。Ruby的正则表达式对unicode不友好。新加入Rails的一个库据称可以解决Ruby unicode支持的问题，不过代价是三十倍的性能下降。

		自动登录	找回密码
密码			注册

全国各地医院查询	重量转换换算	RGB颜色查询	交通标志大全	各类快递查询
简体繁体转换	黄金价格实时走势	万年历查询	实时汇率转换	列车时刻查询
在线翻译工具	CSS中文手册	HTML学习教程	MySQL中文手册	JavaScript中文手册
PHP安全基础手册	PHP5面向对象编程教程	正则表达式系统教程	SQL Server精华	Apache 2.2 中文手册
DOS命令全集指南	windows脚本技术中文版	股票行情查询	历史上的今天	邮编区号查询
长度转换换算	货币汇率转换	常用电话号码	体育彩票查询	手机位置查询
域名Whois信息查询	谷歌PR值查询	台州网站建设	台州网站开发	台州域名注册
天气预报查询	长度转换换算器	在线电子地图	车牌号码查询	中国百家姓查询

四种语言的unicode处理简述

相关帖子