为什么哈希存取比较快?使用它需要付出什么代价

2019-12-30 13:03:54王旭

看看大体流程:
 
从上面的图中,可以看出哈希表可以描述为两个筒子,一个筒子用来装记录的位置编号,另外一个筒子用来装记录,另外存在一套规则,用来表述记录与编号之间的联系。这个规则通常是如何制定的呢?

a)直接定址法:
  我在前一篇文章对GetHashCode()性能比较的问题中谈到,对于整形的数据GetHashCode()函数返回的就是整形   本身,其实就是基于直接定址的方法,比如有一组0-100的数据,用来表示人的年龄
那么,采用直接定址的方法构成的哈希表为:

 

0 1 2 3 4 5
0岁 1岁 2岁 3岁 4岁 5岁

 

.....
这样的一种定址方式,简单方便,适用于元数据能够用数字表述或者原数据具有鲜明顺序关系的情形。

b)数字分析法:

  有这样一组数据,用于表述一些人的出生日期

 

75 10 1
75 12 10
75 02 14

 

分析一下,年和月的第一位数字基本相同,造成冲突的几率非常大,而后面三位差别比较大,所以采用后三位

c)平方取中法

  取关键字平方后的中间几位作为哈希地址

d)折叠法:

  将关键字分割成位数相同的几部分,最后一部分位数可以不相同,然后去这几部分的叠加和(取出进位)作为哈希地址,比如有这样的数据20-1445-4547-3
可以
        5473
+      4454
+        201
=    10128
取出进位1,取0128为哈希地址

e)取余法

  取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。H(key)=key MOD p (p<=m)

f)随机数法

  选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key)=random(key) ,其中random为随机函数。通常用于关键字长度不等时采用此法。

总之,哈希函数的规则是:通过某种转换关系,使关键字适度的分散到指定大小的的顺序结构中。越分散,则以后查找的时间复杂度越小,空间复杂度越高。

二、使用hash,我们付出了什么?