【学习笔记】C#中HashTable和快速排序的用法，从单词频率统计小程序写起 ...

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› c#›C#教程

【学习笔记】C#中HashTable和快速排序的用法，从单词频率统计小程序写起 ...

原作者: [db:作者] 来自: [db:来源] 收藏邀请

　　先瞎扯点别的。进入这个神圣的地方总需要些鞭策，阿西巴，我是被鞭策进来摆摊的程序猿。软件工程老师说，写程序，发博客，就来博客园。这是个号召力很强的口号。最近看网络营销搜索引擎优化的书多一些，只能说王老师真的很厉害，至少在这一周因为这个作业的原因，我们学校的程序猿们对各大程序网站访问猛然骤增，网站流量，点击价值当然也是不菲，不过流量转化率就不好说了，当然了，三年多了都这样。再插一句，Google确实比百度做得好（其实只有中国用百度），SEO优化做的很到位，最近推出的“蜂鸟算法”也很棒，因为关键词明显好找么。

好了，言归正传了。

　　题目主要是写一个程序，分析一个文本文件（英文文章）中各个词出现的频率，并且把频率最高的10个词打印出来。　

　　自从周四拿到题目以后，发现又要用到万恶的数据结构了，不得不说这是我的短板，所有上周20号到22号一直在看数据结构的书，当然还有google，在看书的期间确定了这个小程序编码的思路。

　　1.首先进行文本文件的读取，将一个一个的单词分离出来，并对单词进行统计；

　　2.然后对单词出现的次数进行排序；

　　3.最后把频率最高的10个词打印出来。

　　整理好思路以后，在23号的中午我终于准备拯救世界了，当然，我们宿舍的其他三位大神已经写完。。好了，不提我伤心的事了~~

经过分析后，主要就是解决两个算法的问题，

　　（1）.查找问题：统计出所有出现的单词以及他们出现的次数，这个方法挺多的，这次主要用了Hashtable，速度快，方便。

　　在.NET Framework中，Hashtable是System.Collections命名空间提供的一个容器，用于处理和表现类似keyvalue的键值对，其中key通常可用来快速查找，同时key是区分大小写；value用于存储对应于key的值。Hashtable中keyvalue键值对均为object类型，所以Hashtable可以支持任何类型的keyvalue键值对.

　　下面的代码getAllWords和CountWord分别统计出了所有出现的单词以及他们出现的次数。并且用控制台和文件输出两种方式输出。

1.首先是计算单词的次数。

这里主要用到Hashtable 中各元素的虚拟子组存储桶，每一存储桶都与一个哈希代码关联，该哈希代码是使用哈希函数生成的并基于该元素的键key.并且把分割的所有的单词存放到一个名为List<WordInfo>的集合类中，最后用allWordInfos.Add(new WordInfo(key, (int)allWords[key]));在哈希表中添加了一个keyvalue键值对，为每一唯一键生成唯一哈希代码的哈希函数使得搜索性能更佳。

 1 public void CountWord(string inputFilePath, string outputFilePath)
 2         {
 3             Hashtable allWords = getAllWords(inputFilePath);
 4             List<WordInfo> allWordInfos = new List<WordInfo>();
 5             foreach (string key in allWords.Keys)
 6             {
 7                 allWordInfos.Add(new WordInfo(key, (int)allWords[key]));
 8             }
 9             qucikSort(allWordInfos, 0, allWordInfos.Count - 1);
10             writeToFile(allWordInfos, outputFilePath);
11         }

2.然后是统计出了所有出现的单词

在分析过程中发现还需要特别注意' ', ',', ';', '.', '!', '"'这些符号，所以在读取字节的时候用到了StreamReader的方法，主要是使其以一种特定的编码从字节流中读取字节。然后将读出来的字符串做处理，分成一个个的单词，然后就把所有英文单词对象添加到 Hashtable 的存储桶中，该存储桶与匹配该对象的哈希代码的哈希代码关联。在 Hashtable 内搜索一个值时，将为该值生成哈希代码，并且搜索与该哈希代码关联的存储桶。使得搜索效率变得很高。

 1 private Hashtable getAllWords(string filePath)
 2         {
 3             Hashtable allWords = new Hashtable(10240);
 4             using (StreamReader sr = new StreamReader(filePath, Encoding.Default))
 5             {
 6                 string line = null;
 7                
 8                 char[] seperators = new char[] { ' ', ',', ';', '.', '!', '"' };
 9                 string[] words = null;
10                 while ((line = sr.ReadLine()) != null)
11                 {
12                     line = line.ToLower();
13                     words = line.Split(seperators, StringSplitOptions.RemoveEmptyEntries);
14                     if (words != null && words.Length > 0)
15                     {
16                         for (int i = 0; i < words.Length; i++)
17                         {
18                             if (allWords.ContainsKey(words[i]))
19                             {
20                                 allWords[words[i]] = (int)allWords[words[i]] + 1;
21                             }
22                             else
23                             {
24                                 allWords.Add(words[i], 1);
25                             }
26                         }
27                     }
28                 }
29             }
30             return allWords;
31         }

这个程序第二个问题就是

（2）排序问题，在这里用到了快速排序。

具体思路就是

1.分别设置low、hight指向序列的最左端、最右端；从序列中选一个进行排序（通常选最左端的值low指向的值），存入到value；
2.从hight端开始，查找比value小的，找到后讲该值放入到low指向的存储位中；同时将hight指向当前查到的值所在的位；
3.从low端开始，查找比value大的，找到后将该值放入到hight指向的存储为中，同时low指向当前查到的值所在位；
4.若low位小于hight位，返回2步；否则，将tmp值存入到空出来的low+1指向的位置，退出，返回low所在的位置lposition。
5.以lposition为界，将序列分成两部分，分别对两部分进行排序。

找了图，呵呵O(∩_∩)O~ 神一样的图~~

 1 private void qucikSort(List<WordInfo> allWordInfos, int low, int high)
 2         {
 3             if (low >= high)
 4             {
 5                 return;
 6             }
 7             int pLow = low;
 8             int pHigh = high;
 9             WordInfo value = allWordInfos[low];
10             while (pLow < pHigh)
11             {
12                 while ((WordInfo.Compare(allWordInfos[pHigh], value) <= 0) && pHigh > pLow)
13                 {
14                     pHigh--;
15                 }
16                 if (WordInfo.Compare(allWordInfos[pHigh], value) > 0)
17                 {
18                     allWordInfos[pLow] = allWordInfos[pHigh];
19                     allWordInfos[pHigh] = value;
20                     pLow++;
21                 }
22                 while ((WordInfo.Compare(allWordInfos[pLow], value) >= 0) && pHigh > pLow)
23                 {
24                     pLow++;
25                 }
26                 if (WordInfo.Compare(allWordInfos[pLow], value) <0)
27                 {
28                     allWordInfos[pHigh] = allWordInfos[pLow];
29                     allWordInfos[pLow] = value;
30                     pHigh--;
31                 }
32             }
33             System.Diagnostics.Trace.Assert(pLow == pHigh);
34             qucikSort(allWordInfos, low, pLow - 1);
35             qucikSort(allWordInfos, pLow + 1, high);
36         }

此次快速排序可以将英文单词出现的频率全部从高到低排序出来存储在哈希表的存储桶里。

小插曲：在解决快速排序算法的时候，要感谢我们宿舍的各位亲们，编码抓狂的时候有你们足以O(∩_∩)O~ @我编程我快乐 @韩亚华 @FakerWang

最后再解决一些小问题

（3）控制台输出，文本输入输出，以及遍历出频率最高的10个词打印出来等问题。

 1 private void writeToFile(List<WordInfo> allWordInfos, string outputFilePath)
 2         {
 3             using (StreamWriter sw = new StreamWriter(outputFilePath, false, Encoding.Default))
 4             {
 5                 int i = 0;
 6                 sw.WriteLine("单词频率最高的10个词统计如下");
 7                 foreach (WordInfo wi in allWordInfos)
 8                 {
 9                         sw.WriteLine("{0}:{1}", wi.Word, wi.Count);//输出到文本文件
10                         Console.WriteLine("{0}:{1}", wi.Word, wi.Count);//输出到控制台
11                         i++;
12                         if (i == 10) break;
13                 }
14             }
15         }

行了，差不多了，截图纪念了。。

个人小项目总结：

最后总结下Hashtable的简单操作吧

1.在哈希表中添加一个keyvalue键值对：HashtableObject.Add(key,value);
2.在哈希表中去除某个keyvalue键值对：HashtableObject.Remove(key);
3.从哈希表中移除所有元素： HashtableObject.Clear();
4.判断哈希表是否包含特定键key： HashtableObject.Contains(key);

以后肯定还得用。

这个小程序到这里也就结束了，也就是24号到27号，水平有限没办法。不过还是有个好玩的小插曲的，做完以后才发现我的运行效率是宿舍最快的，我们一起运行了一个5兆的英文文章，最慢的要20秒，我的3秒搞定，阿西巴，这是开挂的节奏啊，好了，差不多睡了，晚安了，各位程序猿和程序媛们~~

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

【C#】list去重（转载）一、查阅文档发布时间：2022-07-10

C#生成eml文件发布时间：2022-07-10

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19188|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9988|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8326|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8695|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8639|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9657|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8624|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7998|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8656|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7535|2022-11-06

客服电话

电子邮件

【学习笔记】C#中HashTable和快速排序的用法，从单词频率统计小程序写起 ...

请发表评论

全部评论

上一篇：

下一篇：

CVE-2022-30203

PacktPublishing/Python-Machine-Learning-

altair-viz/altair: Declarative statistic

sussillo/hfopt-matlab: A parallel, cpu-b

鲁东大学一米网:Win7系统USB驱动器RAM的操

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053