我们有一个日语客户端,在大型机上有COBOL源代码.他声称大型机上的代码用Shift-JIS2表示(我们认为我们很清楚).当该代码传输到PC时,使用的最常见编码是什么?
我们已经给他发了一个程序来处理那个COBOL代码,它似乎窒息了.客户不会直接向我们提供代码,因此实验很难.他的实验似乎表明了UTF-8;我假设在Shift-JIS2中可编码的日文字符相应地转换为Unicode等价物.有人有经验吗?
编辑:我想我们解开了我们的神秘面纱.客户端是(duh!)在PC上使用CP-932(“ShiftJIS”),但他的COBOL程序在标识符中有日文字符,这就是我们的工具窒息的原因.
编辑:跟进:更多的惊喜. SHIFT-JIS经常将我们认为的ASCII文本编码为所谓的“FULLWIDTH”字符,它们采用与东亚表意文字相同的屏幕空间; conventionalo ASCII字符作为半宽.所以,有一个完整的“A”
,“B”,……“Z”以及FULLWIDTH“ – ”.显然,为了处理日语COBOL,我们的COBOL解析器不仅要接受Western ASCII,还要接受FULLWIDTH等价物,尤其是. FULLWIDTH字母和令人惊讶的FULLWIDTH HYPHEN用于分隔COBOL标识符中的“字母”.
编辑:IBM Enterprise COBOL允许标识符中的DBCS字符.哎呀!
最佳答案 在日本,有三种编码仍在使用:EUC-JP,ISO-2022-JP和Shift-JIS.
ISO-2022-JP通常用于电子邮件.虽然你会在Unix机器上看到EUC-JP.我个人还没有处理除Shift-JIS以外的任何事情. (也不是大型机.)