「Java实例」使用正则统计英文文章中的高频词汇

导读: 需求分析某英语老师需要统计完型填空、阅读理解等题型中出现的高频词汇,将这些词汇整理后让学生加强学习与记忆。(1)只统计英文词汇,文章中的中文需要剔除;(2)统计出高频

丝瓜网小编提示,记得把"「Java实例」使用正则统计英文文章中的高频词汇"分享给大家!

需求分析

某英语老师需要统计完型填空、阅读理解等题型中出现的高频词汇,将这些词汇整理后让学生加强学习与记忆。

(1)只统计英文词汇,文章中的中文需要剔除;

(2)统计出高频的词汇及出现次数;

(3)按出现频率从高到低的顺序给出有限的结果。处理过程

(1)从文本文件读入文章,放到内存中等待处理;

(2)使用正则匹配中英文单词,不包含中文和其它特殊字符;

(3)将匹配出的单词存起来,并统计出现次数;

(4)按出现次数从高到低进行排序;

(5)取前N个结果;代码实现public class WordCounter {

//储存次数的Map

private static Map<String" Integer> countMap = Maps.newHashMap();

//正则匹配

private static String regex = "[a-zA-Z]+";

private static Pattern pattern = Pattern.compile(regex);

//总个数

private static int sumCount = 0;

public static void main(String[] args) throws IOException {

//文件:包含要处理的文章

String filePath = "C:\input2.txt";

//使用Gavua的库读取文件,返回所有行

List<String> lines = Files.readLines(new File(filePath)" Charset.forName("UTF-8"));

//遍历处理所有行

lines.forEach(WordCounter::processLine);

//排序,取前20个结果

countMap.entrySet().stream()

.sorted(Comparator.comparing(Map.Entry::getValue" Comparator.reverseOrder()))

.limit(20)

.forEach(

entry -> System.out.println(entry.getKey() + " " + entry.getValue())

丝瓜网 crfgs.com