「Java实例」使用正则统计英文文章中的高频词汇(2)
导读: ); // 单词总数 System.out.println("Total:" + sumCount); } //处理一行字符串 private static void processLine(String line) { Matcher matcher = pattern.matcher(line); while (matcher.find()) { s
丝瓜网小编提示,记得把"「Java实例」使用正则统计英文文章中的高频词汇(2)"分享给大家!
);
// 单词总数
System.out.println("Total:" + sumCount);
}
//处理一行字符串
private static void processLine(String line) {
Matcher matcher = pattern.matcher(line);
while (matcher.find()) {
sumCount++;
String word = matcher.group();
//取单词小写,大小写不区分统计
word = word.toLowerCase();
//如果Map中没有,则表示第一次出现;有则次数加1
if (null == countMap.get(word)) {
countMap.put(word" 1);
} else {
int count = countMap.get(word);
countMap.put(word" count + 1);
}
}
}
}
结果展示
本次例子选取了三篇演讲,并且文章中有中文和英文:
Emma Watson: Gender equality is your issue too
Martin Luther King: I have a dream
Obama: This is your victory
统计后前20个单词如下: