低频词过滤
题目描述:请编写程序,从包含大量单词的文本中删除出现次数最少的单词。如果有多
个单词都出现最少的次数,则将这些单词都删除。
输入数据:程序读入已被命名为 corpus.txt 的一个大数据量的文本文件,该文件包含英
文单词和中文单词,词与词之间以一个或多个 whitespace 分隔。(为便于调试,您可下载
测试 corpus.txt 文件,实际运行时我们会使用不同内容的输入文件。)
输出数据:在标准输出上打印删除了 corpus.txt 中出现次数最少的单词之后的文本(
词与词保持原来的顺序,仍以空格分隔)。
分析:删除出现最少单词数目的单词,文本按照原先的顺序输出
需要两边扫描:第一遍,确定低频词,第二遍,非低频词输出到标准终端
使用数据结构:Set(需要自己设计存储的内容和比较函数)或者map,如果使用java语言,使用TreeSet或者TreeMap。统计词频。然后找出最少次数的词。
本文代码略