MurmurHash3

2024-03-30 01:36:05
开发
45

二、应用

广泛应用于各开源产品，Java 界中 Redis，Memcached，Cassandra，Hadoop，HBase，Lucene，spark，nginx，常见的大数据库底层，都使用了这个算法作为底层的存储算法。

介绍

MD5 生成的哈希值是 128 比特的。这里的哈希值指的是二进制的值，而不是 HEX 或 base64 格式化后的人类可读的值。通常我们提到的 32 位 MD5 是指由 32 个字符组成的，HEX 格式的 MD5。MurMurHash 算法家族的最新一员为MurMurHash3，支持32位和128位，推荐使用128位的MurMurHash3。是原作者被Google挖去之后基于Murmur2的缺陷做了改进。

32位的，在某些场景下，比如哈希的对象长度小于 128 位，或者存储空间要求占用小，或者需要把字符串转换成一个整数，这一特性就能帮上忙。当然，32 位哈希值发生碰撞的可能性就比 128 位的要高得多。当数据量达到十万时，就很有可能发生碰撞。

贴一个网上的简单 MurMurHash2、MurMurHash3、MD5 的 benchmark：

lua-resty-murmurhash3/README.md at master · spacewander/lua-resty-murmurhash3 · GitHub

这里的结论：MurMurHash3 128 位版本的速度是 MD5 的十倍。有趣的是，MurMurHash3 生成 32 位哈希的用时比生成 128 位哈希的用时要长。原因在于MurMurHash3_128 针对现代 x64 平台cpu进行了优化。

Murmur是一个良好的通用散列函数系列，适用于非加密用法。MurmurHash提供以下好处：

简单（根据生成的汇编指令数量）。

良好的分布（几乎所有键组和铲斗尺寸均通过卡方检验。

好雪崩行为（最大偏差0.5％）。

良好的碰撞阻力（通过Bob Jenkin的frog.c酷刑测试。对于4字节键没有碰撞，没有小的（1到7位）差异）。

在Intel/AMD硬件上表现出色，散列质量和CPU消耗之间的良好折衷。

三、MurmurHash使用

1.导包

Java版：google guava 包中提供了使用工具类：

<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>30.1.1-jre</version>

2.使用

import java.nio.charset.StandardCharsets;
import com.google.common.hash.HashFunction;
import com.google.common.hash.Hashing;
 
public class MurmurHashTest {
 
    public static void main(String[] args) {
        for (int i = 0; i < 100; i++) {
            String hexHashString = getHexHashString("qwerqwerqwer");
            System.out.println(hexHashString);
        }
    }
 
    public static String getHexHashString(String str) {
        HashFunction hashFunction = Hashing.murmur3_128();
        return hashFunction.hashString(str, StandardCharsets.UTF_8).toString();
    }
}

四、性能测试

public class MurmurHashTest {
 
    public static void main(String[] args) {
        long l = System.nanoTime();
        for (int i = 0; i < 10000 * 10000; i++) {
            String hexHashString = getHexHashString("yzh123456qwer杨子");
            // System.out.println(hexHashString);
        }
        long time = System.nanoTime() - l;
        System.out.println("一亿数据，一共花费时间：" + time / (1000 * 1000 * 1000) + "秒");
 
        long ns = time / (10000 * 10000);
        System.out.println("一亿数据，每条数据花费时间：" + ns + "纳秒");
    }
 
    public static String getHexHashString(String str) {
        HashFunction hashFunction = Hashing.murmur3_128();
        return hashFunction.hashString(str, StandardCharsets.UTF_8).toString();
    }
}

结果：

一亿数据，一共花费时间：20秒
一亿数据，每条数据花费时间：200纳秒

MD5的性能测试：

一亿数据，一共花费时间：32秒一亿数据，每条数据花费时间：323纳秒

原文地址:https://blog.csdn.net/Sparkleii/article/details/137016202 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1773766086873976832.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

MurmurHash3

二、应用

三、MurmurHash使用

四、性能测试

相关推荐

最近更新

热门阅读