linux – 如何执行流式字符转换?

我将数据存储在磁盘上的文件太大而无法存储在主内存中.

我想通过iconv将这些数据从磁盘流传输到数据处理管道,如下所示:

zcat myfile | iconv -f L1 -t UTF-8 | # rest of the pipeline goes here

不幸的是,我看到iconv缓冲整个文件在内存中,直到它在输出任何数据之前耗尽.这意味着我正在耗尽管道中阻塞操作的所有主内存,其内存占用量最小.

我试过像这样调用iconv:

stdbuf -o 0 iconv -f L1 -t UTF-8

但看起来iconv正在内部管理缓冲 – 它与Linux管道缓冲区无关.

我在Arch Linux中使用gblic 2.6和2.7打包的二进制文件看到了这一点,我在Debian中用glibc 2.5对它进行了描述.

这有什么办法吗?我知道流式字符转换并不简单,但我认为这种常用的unix工具可以在流中工作;使用不适合主内存的文件并不罕见.我是否必须将自己的二进制文件链接到libiconv?

最佳答案 考虑使用iconv_open调用iconv(3) – 将一个简单的C例程挂钩到这两个调用.

从stdin读取,写入stdout.阅读这个例子:

http://www.gnu.org/software/libc/manual/html_node/iconv-Examples.html

这个例子显然是为了处理你所描述的内容. – 避免“有状态”等待数据.

点赞