KMP算法

2024-03-26 00:08:05
开发
62

1 简介

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。 $^{\texttt{[1]}}$

KMP算法的时间复杂度为 $O (n + m)$ 。

原有的传统暴力字符串匹配算法中，当匹配模式串和主串出现错误时，需要退回起始位置，而KMP算法的效率在于，当匹配模式串失败后不会退回，而会根据错误信息继续向后匹配。

KMP算法的提出者之一——唐纳德·克努特（Donald Ervin Knuth） $^{\texttt{[2]}}$ ，是1974年图灵奖获得者，也是计算机排版系统 $\TeX$ $^{\texttt{[3]}}$ 的发明者。他的著作《计算机程序设计的艺术》，被评为可以与《几何原本》《相对论》相提并论。

2 KMP算法

2.1 Next

border（边界）： 指字符串的最长公共前后缀。border的长度必须严格小于原字符串的长度。

例如，字符串 abcdab 的border为 ab。

$Next_i$ ： 指以第 $i$ 个字符结尾的前缀（严格前缀）的border的长度。 $N e x t$ 只针对模式串。

为了方便编程，令字符串和 $N e x t$ 的下标均从 $1$ 开始，并把 $Next_i$ 定义为：字符串下标从 $1\sim i$ 的子串的border的长度。（易知 $Next_1=0$ ）

下标 $i$	1	2	3	4	5	6	7	8	9	10
举例字符串 $s$	a	b	a	b	c	d	a	c	a	b
border	-	-	a	ab	-	-	a	-	a	ab
$N e x t$	0	0	1	2	0	0	1	0	1	2

可以发现：

如果 $s_i=s_{Next_{i-1}+1}$ （如下图所示，红色部分为上一个子串的border的位置，蓝色部分分别是 $s_{Next_{i-1}+1}$ 和 $s_i$ ），则 $Next_i=Next_{i-1}+1$ ；

在这里插入图片描述

如果 $s_i = s_{Next_{Next_{i-1}}+1}$ ，同理， $Next_i=Next_{Next_{i-1}}+1$ ；

如果 $s_i = s_{Next_{Next_{Next_{i-1}}}+1}$ ，同理， $Next_i=Next_{Next_{Next_{i-1}}}+1$ ；

$\dots\dots$

令 $j=Next_{i-1}$ ，不断向前询问是否满足 $s_i=s_{j+1}$ ，满足，则 $Next_i=j+1$ ；反之， $j=Next_j$ 继续询问，直到 $j = 0$ 为止。

代码如下（Next[]和s均从下标为 $1$ 开始）：

void get_next(string s) {
    int i, j;
    for (Next[1] = j = 0, i = 2; s[i]; i++) {
        while (j && s[i] != s[j + 1])
            j = Next[j];
        if (s[i] == s[j + 1])
            j++;
        Next[i] = j;
    }
}

2.2 模式匹配

KMP算法的模式匹配思路是：对于匹配失败的模式串，把位置向后移动，使**模式串匹配部分的前缀border位置与后缀border位置原来所对应的主串位置相对应。**如果无法移动，向右移动 $1$ 位。

下标	1	2	3	4	5	6	7	8	9	10	11	12	说明
举例主串 $s$	a	b	a	c	a	a	b	a	a	b	a	b	-
举例模式串 $p$	a	b	a	b									-
$N e x t$	0	0	1	2									-
操作1	$\color{green}{√}$	$\color{green}{√}$	$\color{green}{√}$	$\color{red}{×}$									匹配错误
			a	b	a	b							border对齐
操作2			$\color{green}{√}$	$\color{red}{×}$									匹配错误
				a	b	a	b						右移 $1$ 位
操作3				$\color{red}{×}$									匹配错误
					a	b	a	b					右移 $1$ 位
操作4					$\color{green}{√}$	$\color{red}{×}$							匹配错误
						a	b	a	b				右移 $1$ 位
操作5						$\color{green}{√}$	$\color{green}{√}$	$\color{green}{√}$	$\color{red}{×}$				匹配错误
								a	b	a	b		border对齐
操作6								$\color{green}{√}$	$\color{red}{×}$				匹配错误
									a	b	a	b	右移 $1$ 位
操作7									$\color{green}{√}$	$\color{green}{√}$	$\color{green}{√}$	$\color{green}{√}$	匹配成功

注：标黄部分表示匹配的部分的border。

可以发现：

如果 $s_i=p_{Next_{i-1}+1}$ （也就是说， $p$ 的前一个border的下 $1$ 位与 $s_i$ 相匹配，此时就匹配成功了一次），模式串移动到 $Next_{i-1}+1$ ；

如果 $s_i=p_{Next_{Next_{i-1}}+1}$ ，模式串移动到 $Next_{Next_{i-1}}+1$ ；

如果 $s_i=p_{Next_{Next_{Next_{i-1}}}+1}$ ，模式串移动到 $Next_{Next_{Next_{i-1}}}+1$ ；

$\dots\dots$

令 $j=Next_{i-1}$ ，不断向前询问是否满足 $s_i=p_{j+1}$ ，满足，则 $j = j + 1$ ；反之， $j=Next_j$ 继续询问，直到 $j = 0$ 为止。

代码如下（Next[]，p和s均从下标为 $1$ 开始）：

void KMP(string s, string p) {
    int i, j;
    for (i = 1, j = 0; s[i]; i++) {
        while (j && s[i] != p[j + 1])
            j = Next[j];
        if (s[i] == p[j + 1])
            j++;
        if (!p[j + 1])
            j = Next[j];
    }
}

3 例题

3.1 剪布条

题目描述

对于给定的花布条和小饰条，计算一下能从花布条中尽可能剪出几块小饰条。

题解

简单明了，模板即可。但注意，不应出现模式串两处匹配后重叠的情况。

#include <bits/stdc++.h>
#define endl '\n'
using namespace std;
const int N = 1e5 + 10;
int n, Next[N], ans = 0;
string s, p;
void get_next(string s) { /*some code...*/ }
void KMP(string s, string p) {
    int i, j, prev = 0;
    for (i = 1, j = 0; s[i]; i++) {
        while (j && s[i] != p[j + 1])
            j = Next[j];
        if (s[i] == p[j + 1])
            j++;
        if (!p[j + 1]) { 
            j = Next[j];
            if (prev + p.size() - 1 <= i) { 
            //避免重叠 prev记录前一次匹配的右端点位置
                prev = i;
                ans++;
            }
        }
    }
}
int main() {
    CLOSE;
    while (cin >> s >> p && s != "#") {
        s = " " + s;
        p = " " + p;
        ans = 0;
        get_next(p);
        KMP(s, p);
        cout << ans << endl;
    }
    return 0;
}

3.2 字符串最大值

题目描述

给出一个长度为 $n$ 的字符串，求出所有前缀的出现的次数×长度的最大值。

题解

不妨这样假设：

长度为 $i$ 的前缀出现了 $cnt_i$ 次，而每次出现的前缀里都有 $2$ 个长度为 $Next_i$ 的border，每个额外拥有一个长度为 $Next_i$ 的前缀，则 $cnt_{Next_{i}}$ 应当累加进去 $cnt_i$ 。从后往前求出 $c n t$ 表即可。

//some code...
get_next(s);
for (int i = s.size() - 1; i >= 1; i--) {
    cnt[i]++;
    cnt[Next[i]] += cnt[i];
    ans = max(ans, cnt[i] * i);
}
//some code...

原文地址:https://blog.csdn.net/jhy20100420zzz/article/details/137026578 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1772294388928614400.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部