AI summary
type
status
date
slug
summary
category
tags
icon
password
图这种数据结构有一些比较特殊的算法,比如二分图判断,有环图无环图的判断,拓扑排序,以及最经典的最小生成树,单源最短路径问题,更难的就是类似网络流这样的问题。
那么本文就结合具体的算法题,来说两个图论算法:有向图的环检测、拓扑排序算法
这两个算法既可以用 DFS 思路解决,也可以用 BFS 思路解决,相对而言 BFS 解法从代码实现上看更简洁一些,但 DFS 解法有助于你进一步理解递归遍历数据结构的奥义,所以本文中我先讲 DFS 遍历的思路,再讲 BFS 遍历的思路。

环检测算法(DFS 版本)

207. 课程表

你这个学期必须选修 numCourses 门课程,记为 0 到 numCourses - 1 。
在选修某些课程之前需要一些先修课程。 先修课程按数组 prerequisites 给出,其中 prerequisites[i] = [ai, bi] ,表示如果要学习课程 ai 则 必须 先学习课程  bi 。
  • 例如,先修课程对 [0, 1] 表示:想要学习课程 0 ,你需要先完成课程 1 。
请你判断是否可能完成所有课程的学习?如果可以,返回 true ;否则,返回 false 。
题目应该不难理解,什么时候无法修完所有课程?当存在循环依赖的时候。
其实这种场景在现实生活中也十分常见,比如我们写代码 import 包也是一个例子,必须合理设计代码目录结构,否则会出现循环依赖,编译器会报错,所以编译器实际上也使用了类似算法来判断你的代码是否能够成功编译。
看到依赖问题,首先想到的就是把问题转化成「有向图」这种数据结构,只要图中存在环,那就说明存在循环依赖
具体来说,我们首先可以把课程看成「有向图」中的节点,节点编号分别是 0, 1, ..., numCourses-1,把课程之间的依赖关系看做节点之间的有向边。
比如说必须修完课程 1 才能去修课程 3,那么就有一条有向边从节点 1 指向 3
所以我们可以根据题目输入的 prerequisites 数组生成一幅类似这样的图:
notion image
如果发现这幅有向图中存在环,那就说明课程之间存在循环依赖,肯定没办法全部上完;反之,如果没有环,那么肯定能上完全部课程
好,那么想解决这个问题,首先我们要把题目的输入转化成一幅有向图,然后再判断图中是否存在环。
如何转换成图呢?图有两种存储形式,邻接矩阵和邻接表。这里使用邻接表存储:
先直接套用遍历所有路径的 DFS 代码模板,用一个 hasCycle 变量记录是否存在环,当重复遍历到 onPath 中的节点时,就说明遇到了环,设置 hasCycle = true
注意图中并不是所有节点都相连,所以要用一个 for 循环将所有节点都作为起点调用一次 DFS 搜索算法。其实这个解法已经是正确的了,因为遍历了所有路径,一定可以判定是否成环。但是这个解法无法通过所有测试用例,会超时。那么原因肯定也能猜出来,有冗余计算呗。
哪里有冗余计算呢?我举个例子你就明白了。
假设现在你以节点 2 为起点遍历所有可达的路径,最终发现没有环。
假设另一个节点 5 有一条指向 2 的边,你在以 5 为起点遍历所有可达的路径时,肯定还会走到 2,那么请问,此时你是否还需要继续遍历 2 的所有可达路径呢?
答案是不需要了,因为第一次你没找到环,那么这次也不可能找到环。
那么对症下药就行了:如果我们发现一个节点之前被遍历过,就可以直接跳过,不用再重复遍历了。
解法代码如下:
注意这里两个数组功能并不重复,visited 记录哪些节点被遍历过,而 onPath 记录当前递归堆栈中有哪些节点,它们的作用不同,所以并不重复。
类比贪吃蛇游戏,visited 记录蛇经过过的格子,而 onPath 仅仅记录蛇身。onPath 用于判断是否成环,类比当贪吃蛇自己咬到自己(成环)的场景。
这道题就解决了,核心就是判断一幅有向图中是否存在环。
不过如果出题人继续提问,让你不仅要判断是否存在环,还要返回这个环具体有哪些节点,怎么办?
notion image
最简单直接的解法是,在 boolean[] onPath 数组的基础上,我们再使用一个 Stack<Integer> path 栈,把遍历过程中经过的节点顺序也保存下来。
比如按照上图绿色的遍历顺序,path 从栈底到栈顶的元素就是 [0,4,5,9,8,7,6]。此时又一次遇到了节点 5,那么就可以知道 [5,9,8,7,6] 这部分是环了。

拓扑排序(DFS 版本)

210. 课程表 II

现在你总共有 numCourses 门课需要选,记为 0 到 numCourses - 1。给你一个数组 prerequisites ,其中 prerequisites[i] = [ai, bi] ,表示在选修课程 ai 前 必须 先选修 bi 。
  • 例如,想要学习课程 0 ,你需要先完成课程 1 ,我们用一个匹配来表示:[0,1] 。
返回你为了学完所有课程所安排的学习顺序。可能会有多个正确的顺序,你只要返回 任意一种 就可以了。如果不可能完成所有课程,返回 一个空数组 。
这道题就是上道题的进阶版,不是仅仅让你判断是否可以完成所有课程,而是进一步让你返回一个合理的上课顺序,保证开始修每个课程时,前置的课程都已经修完。
这里我先说一下拓扑排序(Topological Sorting)这个名词,网上搜出来的定义很数学,这里干脆用百度百科的一幅图来让你直观地感受下:
notion image
直观地说就是,让你把一幅图「拉平」,而且这个「拉平」的图里面,所有箭头方向都是一致的,比如上图所有箭头都是朝右的。
很显然,如果一幅有向图中存在环,是无法进行拓扑排序的,因为肯定做不到所有箭头方向一致;反过来,如果一幅图是「有向无环图」,那么一定可以进行拓扑排序。
如果把课程抽象成节点,课程之间的依赖关系抽象成有向边,那么这幅图的拓扑排序结果就是上课顺序
那么关键问题来了,如何进行拓扑排序?是不是又要秀什么高大上的技巧了?
其实特别简单,把图结构后序遍历的结果进行反转,就是拓扑排序的结果
完整代码如下:
那么为什么后序遍历的反转结果就是拓扑排序呢
我这里也避免数学证明,用一个直观地例子来解释,我们就说二叉树,这是我们说过很多次的二叉树遍历框架:
二叉树的后序遍历是什么时候?遍历完左右子树之后才会执行后序遍历位置的代码。换句话说,当左右子树的节点都被装到结果列表里面了,根节点才会被装进去。
后序遍历的这一特点很重要,之所以拓扑排序的基础是后序遍历,是因为一个任务必须等到它依赖的所有任务都完成之后才能开始开始执行

环检测算法(BFS 版本)

刚才讲了用 DFS 算法利用 onPath 数组判断是否存在环;也讲了用 DFS 算法利用逆后序遍历进行拓扑排序。
其实 BFS 算法借助 indegree 数组记录每个节点的「入度」,也可以实现这两个算法。
所谓「出度」和「入度」是「有向图」中的概念,很直观:如果一个节点 x 有 a 条边指向别的节点,同时被 b 条边所指,则称节点 x 的出度为 a,入度为 b
先说环检测算法,过程如下:
  1. 构建邻接表,和之前一样,边的方向表示「被依赖」关系。
  1. 构建一个 indegree 数组记录每个节点的入度,即 indegree[i] 记录节点 i 的入度。
  1. 对 BFS 队列进行初始化,将入度为 0 的节点首先装入队列。
  1. 开始执行 BFS 循环,不断弹出队列中的节点,减少相邻节点的入度,并将入度变为 0 的节点加入队列
  1. 如果最终所有节点都被遍历过(count 等于节点数),则说明不存在环,反之则说明存在环
notion image
解法代码如下:

拓扑排序算法(BFS 版本)

如果你能看懂 BFS 版本的环检测算法,那么就很容易得到 BFS 版本的拓扑排序算法,因为节点的遍历顺序就是拓扑排序的结果
按道理,图的遍历 都需要 visited 数组防止走回头路,这里的 BFS 算法其实是通过 indegree 数组实现的 visited 数组的作用,只有入度为 0 的节点才能入队,从而保证不会出现死循环。
好了,到这里环检测算法、拓扑排序算法的 BFS 实现也讲完了,继续留一个思考题:
对于 BFS 的环检测算法,如果问你形成环的节点具体是哪些,你应该如何实现呢?
  • 最终仍然入度大于 0 的节点,就是 环中的节点,因为它们无法被拓扑排序移除。

名流问题

再来讲一道和标题无关的题目。
经典的「名流问题」:
给你 n 个人的社交关系(你知道任意两个人之间是否认识),然后请你找出这些人中的「名人」。
所谓「名人」有两个条件:
  1. 所有其他人都认识「名人」。
  1. 「名人」不认识任何其他人。
这是一个图相关的算法问题,社交关系嘛,本质上就可以抽象成一幅图。
如果把每个人看做图中的节点,「认识」这种关系看做是节点之间的有向边,那么名人就是这幅图中一个特殊的节点:
notion image
这个节点没有一条指向其他节点的有向边;且其他所有节点都有一条指向这个节点的有向边
或者说的专业一点,名人节点的出度为 0,入度为 n - 1
图有两种存储形式,一种是邻接表,一种是邻接矩阵,邻接表的主要优势是节约存储空间;邻接矩阵的主要优势是可以迅速判断两个节点是否相邻。
对于名人问题,显然会经常需要判断两个人之间是否认识,也就是两个节点是否相邻,所以我们可以用邻接矩阵来表示人和人之间的社交关系。

277. 搜寻名人

只告诉你总人数 n,同时提供一个 API knows 来查询人和人之间的社交关系。返回这个名人的编号,如果不存在,算法返回 -1。
回顾名人的定义,它保证了人群中最多有一个名人。
这很好理解,如果有两个人同时是名人,那么这两条定义就自相矛盾了。
换句话说,只要观察任意两个候选人的关系,我一定能确定其中的一个人不是名人,把他排除
至于另一个候选人是不是名人,只看两个人的关系肯定是不能确定的,但这不重要,重要的是排除掉一个必然不是名人的候选人,缩小了包围圈。
完整代码如下:
时间复杂度为 O(N),空间复杂度为 O(1),已经是最优解法了。