class Solution {
public:
string longestDupSubstring(string s) {
}
};
1044. 最长重复子串
给你一个字符串 s
,考虑其所有 重复子串 :即 s
的(连续)子串,在 s
中出现 2 次或更多次。这些出现之间可能存在重叠。
返回 任意一个 可能具有最长长度的重复子串。如果 s
不含重复子串,那么答案为 ""
。
示例 1:
输入:s = "banana" 输出:"ana"
示例 2:
输入:s = "abcd" 输出:""
提示:
2 <= s.length <= 3 * 104
s
由小写英文字母组成原站题解
java 解法, 执行用时: 271 ms, 内存消耗: 53.1 MB, 提交时间: 2023-09-18 11:23:25
class Solution { public String longestDupSubstring(String s) { Random random = new Random(); // 生成两个进制 int a1 = random.nextInt(75) + 26; int a2 = random.nextInt(75) + 26; // 生成两个模 int mod1 = random.nextInt(Integer.MAX_VALUE - 1000000007 + 1) + 1000000007; int mod2 = random.nextInt(Integer.MAX_VALUE - 1000000007 + 1) + 1000000007; int n = s.length(); // 先对所有字符进行编码 int[] arr = new int[n]; for (int i = 0; i < n; ++i) { arr[i] = s.charAt(i) - 'a'; } // 二分查找的范围是[1, n-1] int l = 1, r = n - 1; int length = 0, start = -1; while (l <= r) { int m = l + (r - l + 1) / 2; int idx = check(arr, m, a1, a2, mod1, mod2); if (idx != -1) { // 有重复子串,移动左边界 l = m + 1; length = m; start = idx; } else { // 无重复子串,移动右边界 r = m - 1; } } return start != -1 ? s.substring(start, start + length) : ""; } public int check(int[] arr, int m, int a1, int a2, int mod1, int mod2) { int n = arr.length; long aL1 = pow(a1, m, mod1); long aL2 = pow(a2, m, mod2); long h1 = 0, h2 = 0; for (int i = 0; i < m; ++i) { h1 = (h1 * a1 % mod1 + arr[i]) % mod1; h2 = (h2 * a2 % mod2 + arr[i]) % mod2; if (h1 < 0) { h1 += mod1; } if (h2 < 0) { h2 += mod2; } } // 存储一个编码组合是否出现过 Set<Long> seen = new HashSet<Long>(); seen.add(h1 * mod2 + h2); for (int start = 1; start <= n - m; ++start) { h1 = (h1 * a1 % mod1 - arr[start - 1] * aL1 % mod1 + arr[start + m - 1]) % mod1; h2 = (h2 * a2 % mod2 - arr[start - 1] * aL2 % mod2 + arr[start + m - 1]) % mod2; if (h1 < 0) { h1 += mod1; } if (h2 < 0) { h2 += mod2; } long num = h1 * mod2 + h2; // 如果重复,则返回重复串的起点 if (!seen.add(num)) { return start; } } // 没有重复,则返回-1 return -1; } public long pow(int a, int m, int mod) { long ans = 1; long contribute = a; while (m > 0) { if (m % 2 == 1) { ans = ans * contribute % mod; if (ans < 0) { ans += mod; } } contribute = contribute * contribute % mod; if (contribute < 0) { contribute += mod; } m /= 2; } return ans; } }
python3 解法, 执行用时: 2304 ms, 内存消耗: 23 MB, 提交时间: 2023-09-18 11:23:04
class Solution: def longestDupSubstring(self, s: str) -> str: # 生成两个进制 a1, a2 = random.randint(26, 100), random.randint(26, 100) # 生成两个模 mod1, mod2 = random.randint(10**9+7, 2**31-1), random.randint(10**9+7, 2**31-1) n = len(s) # 先对所有字符进行编码 arr = [ord(c)-ord('a') for c in s] # 二分查找的范围是[1, n-1] l, r = 1, n-1 length, start = 0, -1 while l <= r: m = l + (r - l + 1) // 2 idx = self.check(arr, m, a1, a2, mod1, mod2) # 有重复子串,移动左边界 if idx != -1: l = m + 1 length = m start = idx # 无重复子串,移动右边界 else: r = m - 1 return s[start:start+length] if start != -1 else "" def check(self, arr, m, a1, a2, mod1, mod2): n = len(arr) aL1, aL2 = pow(a1, m, mod1), pow(a2, m, mod2) h1, h2 = 0, 0 for i in range(m): h1 = (h1 * a1 + arr[i]) % mod1 h2 = (h2 * a2 + arr[i]) % mod2 # 存储一个编码组合是否出现过 seen = {(h1, h2)} for start in range(1, n - m + 1): h1 = (h1 * a1 - arr[start - 1] * aL1 + arr[start + m - 1]) % mod1 h2 = (h2 * a2 - arr[start - 1] * aL2 + arr[start + m - 1]) % mod2 # 如果重复,则返回重复串的起点 if (h1, h2) in seen: return start seen.add((h1, h2)) # 没有重复,则返回-1 return -1
golang 解法, 执行用时: 16 ms, 内存消耗: 6.6 MB, 提交时间: 2023-09-18 11:22:02
func longestDupSubstring(s string) string { // 求出后缀数组和高度数组 n := len(s) sa := *(*[]int32)(unsafe.Pointer(reflect.ValueOf(suffixarray.New([]byte(s))).Elem().FieldByName("sa").Field(0).UnsafeAddr())) rank := make([]int, n) for i := range rank { rank[sa[i]] = i } height := make([]int, n) h := 0 for i, rk := range rank { if h > 0 { h-- } if rk > 0 { for j := int(sa[rk-1]); i+h < n && j+h < n && s[i+h] == s[j+h]; h++ { } } height[rk] = h } // 高度数组中的最大值对应的就是最长的重复子串 idx, maxH := 0, 0 for i, h := range height { if h > maxH { idx, maxH = i, h } } return s[sa[idx] : int(sa[idx])+maxH] }