
本文将详细介绍如何在已排序的大数组中高效地查找已排序的子数组。这种查找在很多场景下都有应用,例如数据校验、模式识别等。问题的核心在于如何利用已排序的特性,避免简单的暴力搜索,从而达到更高的效率。
算法思路
考虑到大数组和小数组都是已排序的,我们可以采用以下步骤:
- 二分查找: 在大数组中二分查找小数组的第一个元素。如果找不到,则小数组肯定不包含在大数组中,返回false。
- 线性验证: 如果找到了第一个元素,则从该位置开始,依次比较小数组的后续元素与大数组的对应元素。如果所有元素都匹配,则小数组包含在大数组中,返回true。如果遇到不匹配的元素,则小数组不包含在大数组中,返回false。
时间复杂度分析
- 二分查找的时间复杂度为O(log n),其中n是大数组的大小。
- 线性验证的时间复杂度为O(k),其中k是小数组的大小。
因此,总的时间复杂度为O(log n + k)。为了更准确地表示,可以写成O(max(log n, k))。当n远大于k时,时间复杂度接近O(log n),符合题目要求。
示例代码 (Python)
def contains_sorted_subarray(large_array, small_array):
"""
检查已排序的小数组是否包含在已排序的大数组中。
Args:
large_array: 已排序的大数组。
small_array: 已排序的小数组。
Returns:
如果小数组包含在大数组中,则返回 True,否则返回 False。
"""
n = len(large_array)
k = len(small_array)
# 二分查找小数组的第一个元素
left, right = 0, n - 1
first_index = -1
while left <= right:
mid = (left + right) // 2
if large_array[mid] == small_array[0]:
first_index = mid
break # 找到了第一个元素,跳出循环
elif large_array[mid] < small_array[0]:
left = mid + 1
else:
right = mid - 1
# 如果找不到第一个元素,则小数组不包含在大数组中
if first_index == -1:
return False
# 线性验证后续元素
for i in range(1, k):
if first_index + i >= n or large_array[first_index + i] != small_array[i]:
return False
return True
# 示例
large_array = [-10, -3, 0, 4, 7, 19, 33]
small_array = [4, 7, 19]
result = contains_sorted_subarray(large_array, small_array)
print(f"小数组是否包含在大数组中:{result}") # 输出:小数组是否包含在大数组中:True
large_array = [-10, -3, 0, 4, 7, 19, 33]
small_array = [4, 7, 20]
result = contains_sorted_subarray(large_array, small_array)
print(f"小数组是否包含在大数组中:{result}") # 输出:小数组是否包含在大数组中:False
large_array = [-10, -3, 0, 4, 7, 19, 33]
small_array = [4, 7]
result = contains_sorted_subarray(large_array, small_array)
print(f"小数组是否包含在大数组中:{result}")注意事项
- 该算法依赖于大数组和小数组都是已排序的前提。如果数组未排序,则需要先进行排序。
- 如果小数组为空,则根据实际需求,可以认为它包含在大数组中(返回True),或者不包含(返回False)。上面的代码实现中,小数组为空会返回 True。
- 代码中使用了二分查找,需要注意二分查找的边界条件和退出条件,避免死循环。
- 如果大数组包含重复元素,二分查找可能返回多个相同元素的任意一个位置。这不会影响算法的正确性,因为后续的线性验证会确保所有元素都匹配。
总结
通过结合二分查找和线性验证,我们可以在O(max(log n, k))的时间复杂度内,高效地判断一个已排序的小数组是否包含在一个已排序的大数组中。这种方法在处理大量数据时,可以显著提高效率,避免不必要的计算。










