斯隆奖得主：当深度学习和博弈论相结合，能处理哪些社会问题？

1fy07h · 发表于 2024-10-10 13:21:12

5.10

知识分子

The Intellectual

算法与社会福祉的冲突是天然存在的吗？| 图源：pixabay.com

导读

今日，人工智能算法已然渗透到社会生活的方方面面：购物软件依靠算法判断消费者的消费习惯，推送特定商品；打车软件经过算法派单和定价，调配司机运力；社交软件利用算法分析关键词、推送宣传和内容。在这个过程中，尽可能为商场企业产生收益的算法，给社会生活带来便利的同期，亦因隐私、卑视等许多问题饱受诟病。

然则，算法与社会福祉的冲突是天然存在的吗？

卡耐基梅隆大学（CMU）助理教授方飞认为，找对科研方向，算法亦能够帮忙处理有些社会性的问题。她的工作，便是将博弈论、人工智能与现实问题相结合，解决现实中的繁杂问题，例如守护轮渡免受恐怖分子袭击，防止盗猎者在守护区内损伤动物，将即将过期的食品分给需要的人等等。

方飞的工作扎实、稳重，在行业内赢得了不少赞誉。2020年，她入选IEEE“AI十大潜能名人”；2021年得到IJCAI（国际人工智能联合会议）计算机与思想奖；2022年2月，她得到斯隆研究奖，一个奖励职业生涯初期杰出青年学者的奖项。

方飞此刻CMU计算机科学学院软件科研所任职。她认为，有些状况下，企业经过算法在最大化社会总收益时亦能得到较高的利润。而相比于人工智能的其他强应用性行业，AI向善还是一片“蓝海”。她期盼有更加多科研者能加入这个行业，为提高整体社会福利作出贡献。

她说，进入这个行业最重要的，是要有发掘问题的眼睛。

以下是《知识分子》和方飞的对话，行文有删减。

撰文 | 王一苇

责编 | 陈晓雪

● ● ●

方飞，卡耐基梅隆大学（CMU）助理教授，斯隆科研奖得到者

当人工智能与博弈论相结合

知识分子：博弈论是1944年的时候冯·诺依曼和奥斯卡·摩根斯特恩提出的，跟人工智能结合的博弈论科研是什么时候、怎么发展起来的？

方飞：一起始，博弈论重点在经济行业里面（发展），诺贝尔经济学奖得主经常是科研博弈论的。因为计算机的发展，大众很感兴趣在博弈论里什么样的问题是可计算的，或是能有效地计算出结果的，就会去科研区别的激励形式和区别的平衡，看什么样的平衡概念在什么样的博弈中是有效的算法，什么样的问题是NP hard——比较难解的。有了预测，就起始处理计算上的挑战。

安全博弈关联的发展是在2006年，Tuomas Sandholm和Vincent Conitzer两个大牛在Economics and Computation（经济学与计算）会议上发了一篇论文 [1]，说在斯坦伯格平衡其中，在比较简单的问题上，是能够有多项式时间的算法可解的，然则当这个问题延伸到有一方博弈参与者的支付函数或在博弈中的收益有多种可能、类型未知时，这个问题就不可解。

在这之后，我的导师Milind Tambe是最先把博弈论应用到安全行业的。他科研的是在一个详细的问题里可不能够应用斯坦伯格博弈（Stackelberg Game，指存在两方的完全信息动态博弈，双方都是按照对方可能的策略来选取自己的策略）去分析。

例如，咱们想守护洛杉矶的机场。在守护机场的问题里，有守护者亦有攻击者。机场的巡护人员，亦便是防御的这一方，每日都要进行巡逻。那样做为攻击者，可能会花很长的时间去观察巡逻人员的巡逻有什么样的规律，是不是每一个周一都在一号航站楼巡逻，每一个周二都在二号航站楼巡逻之类的，而后按照观察到的这些规律去找巡逻方法里相对的弱点，避免被巡逻人员抓到。她们会有各样各样的攻击，例如说有人会把手枪、步枪等各样各样的武器带进机场。

巡逻人员一方面会在进入机场的多个路口设检测站，另一方面在各个航站楼里面用警犬巡逻，然则由于检测站的数量以及警犬的数量都不足多，因此需要去决定每日去什么样的地区做什么。

由于有这般的不对叫作关系，她们把这个问题建模成一个斯坦伯格博弈：巡逻者这一方是领导者，先去选取一个巡逻策略；而攻击者那方是跟随者，观察领导者的策略以后，再去回复，选取更好的攻击方式回复现有的巡逻方法。

在这个基本上，她们又研发了一系列的模型和算法来去科研这个行业，慢慢作为了最起始的一波安全博弈项目。

我加入Tambe的科研组以后，起始应用更加多的设备学习手段。咱们起始科研移动的目的，例如轮渡是不是亦能够用类似的模型建模，以及能不可找到快速的算法来去求解最好的巡逻方式。

美国的海防在各个渡口都有巡逻。在纽约，巡逻人员其中一部分任务便是要守护曼哈顿岛到史丹顿岛的轮渡。这个问题里，轮渡便是移动的目的，而巡逻人员亦驾着小船在一直移动，咱们想要做的事情便是用博弈论建模，并且去构建一个算法，找到最佳的路线选取。

最起始的模型重点便是两方的斯坦伯格博弈，后来亦有科研多方的。前两年的有些守护动物关联的工作里，守护区的人跟咱们说，有时候会有居民告诉她们，听说盗猎者去哪里盗猎了或是将要去哪里盗猎。当时现有的模型都无办法去思虑这般的原因，咱们就创立新的模型来思虑多于两个博弈者的问题。

知识分子：听上去这个行业实用性非常强。那样博弈论跟AI结合，想要完成的科学目的是什么？

方飞：在我看来，它的科学目的便是期盼能够去找到更有效的、更快速的算法来处理更繁杂或更实质的博弈。博弈论是理论框架，而AI或深度学习是工具，在这个框架下去求解数学问题。全部计算博弈论行业，大众都在做的事情便是期盼有更好更快的算法，能够去求解更繁杂的博弈。

非常多时候，计算和博弈论结合没法找到快速的解。

一种状况是这个博弈太繁杂了，无办法用数学规划求解，由于倘若用数据规划去求解的话，需要几百万的电量、几百万的限制要求，倘若真的在设备上算，光去求解，这个设备的内存就爆掉了。这般的状况下，咱们能够经过深度学习的方式，找到这个大问题里面一个较优的解，或说比较靠近平衡的策略。

第二种状况，有时候在博弈问题里需要思虑人的行径。最传统的博弈论假设所有的人都是理性人，但后来提出，并不是所有人都是完全理性的，此时候就要去理解人的行径模式。设备学习能够帮忙咱们，经过人以往的行径数据来给人的行径建模，在这般的模型下去再去找博弈中其他博弈方的解。

第三种状况是逆向博弈论（inversive game theory）。通常的博弈论的问题是说，我告诉你博弈是这几个人在进行，在区别的状况下，每一个人的收益会是多少，而后问你针对这般一个博弈问题，平衡策略应该是什么。逆向博弈论便是反过来，我能够观察到大众在博弈中采取什么样的行动，问能不可去找到每一个人的收益函数是什么。

在这般一个问题里，有非常多观察数据来描述每一个人的行径和他采取的行动，咱们要去从行动里逆推收益函数，这个时候设备学习亦能够帮忙咱们。

我提的这三个是我自己做过的，都是把设备学习做为工具来处理博弈论里面的问题。还有其他结合博弈论和深度学习的方式。

反过来，亦能够用博弈论去处理设备学习里面的非常多问题。一个例子是卡耐基梅隆大学招学生，最初一轮筛选中，每一个人把申请资料交过来，大众来看。事实上除了人做判断以外，学校有一个算法来判断这个学生是不是值得思虑的，防止有有些被人漏掉。这两条线是完全独立地在做判断，便是说只要人或设备认为这个学生应该值得被思虑，那样就会进入下一轮。

能够想象，在这般的状况下，倘若学生晓得你是用什么样的方式来进行筛选，她们可能会去想办法改变自己的有些行径或分数，按照算法去调节自己的行径。在这般的状况下，咱们其实能够用博弈论去分析（如何处理这个问题）。

知识分子：博弈论和设备学习的结合能够处理那些类型的社会问题？你通常是怎么去找到这些现实社会中的问题和痛点的？

方飞：咱们帮美国海防设计巡逻路线，帮动物守护组织设计护林员的巡护路线。前者是安全性问题，后者与环境的可连续发展关联。还有移动性（mobility）关联的问题，例如交通运输等，咱们亦在科研中。

有一部分是各样各样原因的巧合叠加，另一部分其实是由于咱们之前做过的有些东西，延展到了类似的或是关联的问题。

例如说我博一的时候做了守护轮渡的工作。咱们讲演、发了paper之后，去跟区别的人交流，有人就说到，你们这个问题听起来跟动物守护护林员的巡逻问题挺类似的，有无思虑过把你们的算法应用到那个问题上。这给了咱们动力，去跟关联的专家去交流，认识实质的问题。

我来CMU之后，咱们还做一个新的系列工作，是食品救助。我一起始不晓得匹兹堡有这般一个非营利组织，是有一次在咱们学校会议室里面正好遇到了这个组织的CEO，互发了名片。我去查了一下她们的组织在干什么，发掘尤其有意思。后来我自己亦去给他们做志愿者，又去跟她们交流，跟她们说咱们做了非常多AI关联的工作，期盼瞧瞧咱们的技术有什么能够应用到这个问题里面，能够帮忙你们平台发展得更好。

从这般的讨论起始，慢慢的就有了越来越多真正的工作，咱们此刻在这个方向上已然发了三四篇paper，（算法）亦在她们的系统里面已然用上了，这亦是我尤其高兴的。

食品救助分两个部分，第1个部分是匹配donor和receiver，便是食品捐助者和食品接受者；第二个部分是匹配志愿者去运送食品。例如我当时去做志愿者，CMU的一个咖啡厅有剩下的蛋糕，她们想捐给周边的单身母亲救助站，就在手机APP上说咱们需要志愿者来把食品从CMU的咖啡厅送到救助站去，我一看很高兴，就在我楼上，就赶紧接了这个单，把食品送过去了。

咱们重点科研的是平台和志愿者之间怎么匹配的问题，或说怎么能够帮忙平台更好的找到能够来运送食品的志愿者，怎么样让志愿者在这个过程中得到更好的体验。在这个问题里，咱们的目的便是能够不要发太多的的通告，由于倘若每来一个单就给所有的志愿者发通告的话（会很打扰）。咱们期盼不要发太多的通告，然则又能够提高接单率和缩短期。

新的举荐机制上线以后，总的接单率提升了，平均接单时间减少了。这个问题其实跟打车软件有一点像，亦是有一个派单的过程，然则很不同样的是，这是一个纯志愿者的非营利性平台，给打车软件做的定价策略是完全不可用的。

找到真问题

知识分子：寻找处理方法的过程中，你觉得最困难的事情是什么？

方飞：是找问题。找能够利用人工智能、真的产生价值的问题。

像食品救助这个问题，我一起始做完志愿者之后，觉得全部系统里面有太多能够改进的点了。我当时写了一个很长的邮件给她们CEO，说按照我的经验，一二三四这几个方面都能够改进，而后咱们的人工智能能够在每一个方面做点什么。我提的意见是，你们给志愿者的指点信息太模糊了，需要经过有些智能的方式供给更清楚的指点，例如应该去找谁跟谁对接，在什么地区跟别人见面之类的，另一能够让一个志愿者送多个单。

后来我去跑到她们办公室里面去跟她们聊，她们就说你提的问题都特别有意思，但不是咱们真正关心的点。针对她们的组织来讲，需要看的是更大的方面，她们真正的痛点是，怎么能够让更加多的志愿者来参与，让食品不被浪费，能够即时地送到该送的人手里面。

因此要持续地跟她们讨论，我的学生亦去她们那边实习了两天，帮她们去做派单的工作，体验一下从内部的方向来看派单的过程是什么样子。在持续的讨论中，最后才慢慢找到了一个对她们来讲是非常关心的，针对咱们来讲是人工智能真的能够发挥作用的问题。在我看来这可能是最花时间的一个过程。

另一个我觉得尤其有挑战的便是，怎么能够让她们真的去用你做的这个东西。可能他把数据给你了，而后你做的这个东西看起来挺有趣的，发了论文了，然则他觉得，我无能力去把你这个算法真的实此刻系统里面，咱们太忙了，有其他的事情要做，这个东西可能不是她们的最高优先级。倘若说是一个纯商场的问题，这个工具能够给你的利润加强10个点，她们可能就很积极地去做了，然则公益组织不是这般的，她们有其他方面的思虑。怎么能够说服她们去做实质的测试和应用，在咱们看来亦非是常难的一个点。

咱们的经验便是，首要要充分尊重她们的意愿，积极地跟她们沟通；其次是尽可能减少她们需要付出的成本，包含时间成本、人力成本以及可能的金钱成本。咱们在进行实质测试的时候，最好是把能干的活都干了，她们可能只需要花几个小时来跟咱们开个会，讨论一下方法，而后准许一下咱们上线前的测试是过关了的，就能够上线。这般的话她们就更愿意去做这般的测试。

知识分子：你们的项目好似此刻还是偏公益的占多数有些，是思虑到科研本身的性质，还是你觉得这是最大化效益的工作？

方飞：咱们并无排斥商场化的项目，然则我个人非常期盼能够帮忙处理有些社会性的问题。我开玩笑说咱们在做高级志愿者，帮忙有些政府组织或工业公益组织更好地向社会供给更高质量的服务。

这些问题是对社会来讲是非常重要的，它可能并不必定能够直接产生商场利益，然则这些都是影响非常多人的问题，然则又无非常多人去做。亦能够理解，此刻人工智能这么火，能够想象去业界的话能赚非常多钱，那样当你有这个能力的时候，可能非常多人选取了去挣钱。亦许非常多人是对这件事感兴趣的，然则真正投入去做的人无那样多。我亦期盼咱们能够一方面自己去做有些工作，另一方面亦能够让更加多的人去参与这般的工作。

我在学校里教AI for social good（人工智能向善）的课，亦是期盼能培养更加多的学生去接触这般的问题，处理这般的问题。

知识分子：你刚才亦说了，找问题是一个难点。你怎么看这个行业将来的发展，将来它还能够应用在更加多的行业、更加多的问题上吗？

方飞：我觉得有非常多值得做的问题。我过去三年都在做AAAI（人工智能促进协会）的AI for social impact special track（AI社会影响力专刊）的co-chair（联合主席），咱们每年亦都收到不少的论文，能看到非常多人对这个感兴趣，亦持续地在做这方面的工作。

将来还是有非常多能够做的问题的，例如像联合国的17个可连续发展的目的，咱们此刻的工作可能只触及到其中的四个目的，其实还有非常多其他目的，中间可能亦触及到许多值得去做的问题。

社会总收益 vs 企业利润

知识分子：非常多企业用AI算法提高效率，但亦受到有些诟病。外卖企业里，骑手由于这些算法的规定，或企业本身的策略，福利是在持续下降的。你对关联的AI应用有那些观察，在企业责任或用AI算法来改善的方面，有那些能做的事情吗？

方飞：机构肯定要追求利润的，这肯定是她们的重点目的。那样除了利润之外，博弈论或机制设计里面经常会谈到一个 social welfare，社会福利，所有人的收益之和。

在外卖平台或打车平台，平台的收益加上骑手或是司机以及等餐的人、想要打车的人，所有人的收益之和是需要关注的一个目的函数。咱们之前做优步等打车平台的定价策略的科研的时候，便是把目的设为了最大化社会收益。怎么计算社会收益？例如针对乘客来讲，他很想去这个地区，他愿意花100块钱去，而后他付了50块钱，那样他的收益便是100-50。

咱们很难去跟商场机构说，你们不要关注利润了，来关注社会总收益，这是非常困难的。然则咱们看到的是，什么样的状况下，大众会更关注除了利润以外的目的。

一个是监管，例如保险机构，可能一起始的时候，当无足够的监管的时候，保险机构的定价策略会是有非常有偏见的，当有些事情被爆出来之后监管介入，监管可能就需求你保险的定价策略更公平。那样在这般的状况下，这些机构就会更思虑除了利润以外的社会总收益，例如公平性的问题。

另一个是，有些状况下，咱们能够去向这些机构证明，在你们的问题里，其实最大化社会收总收益是跟最大化总利润是差别非常小的。倘若你去最大化社会总收益，亦能够得到比很强的收益，可能不必定是最大化，然则亦比较接近，但它能够在社会总福利方面有一个更大的提高。咱们科研打车平台的时候做过分析，在必定的假设之下，最大化社会总收益时亦能够得到比较高的利润。

怎样消除数据偏见？

知识分子：在AI科研里，数据是基本，然则亦经常会遇到有些数据不准确或偏见的状况，你的科研会遇到类似的问题吗？怎么去处理这些问题？

方飞：会。拿动物守护的状况来讲，咱们收集的数据就有非常多的问题。例如说现有的数据都是护林员们之前非常辛苦地去巡逻，收集来的。然则她们并不是覆盖了所有的区域，可能某些区域去的比较多，另有些区域去的比较少，这就引起去的比较多的区域，可能有更加多的数据，况且这个地区到底盗猎有多高发，是比较准确的，能有一个相对比较准确的估计；然则对哪些去的比较少的地区，即使她们说我去了，我无找到猎套，并不寓意着那个地方从来无出现过盗猎，可能只是由于她们去的少，去的时候正好没发掘猎套。

况且倘若看总体的数据量，她们去过的所有地区里面找到猎套的点肯定是少的，还是有更加多的时候她们在路上走，什么亦无发掘。这亦说明数据中的不平衡，亦是咱们在设计设备学习算法来学习盗猎者的行径模型的时候需要去处理的挑战。

咱们尝试了各样各样的办法，像最初的一版算法里面，咱们把全部守护区分成多个地块，倘若这个地块它的数据量比很强，能够用稍微繁杂一点的设备学习算法；倘若这个地块数据量不足，咱们就把数据量不足的哪些地块所有的数据所有结合起来，而后去找一个针对数据量需求无那样高的设备学习算法，例如决策树之类的办法去预测。这是一起始的想法。

后来咱们又做了非常多其他的尝试，例如在黄泥河守护区（位置于吉林省），咱们给当地的护林员发过问卷，问她们在咱们划分出来的全部守护区的多个区域里，每一个区域的总体盗猎危害是高还是低，按照她们的回答，咱们去额外采样有些新的数据点放到咱们的数据集里面，这一方面能够帮忙咱们增多更加多的数据，另一方面亦能够纠正这些护林员本身的偏见。

人工智能进入死胡同了吗？

知识分子：近期有一种说法是，AI已然走进了一个死胡同，只适合处理有些存在低危害、存在完美答案的问题。你怎么看这个说法？

方飞：一方面，咱们要承认此刻人工智能还是无那样高级的，是真的无那样厉害。然则我觉得还是有非常多能够做的。

一个是高危害的问题。相对来讲，在高危害问题上，人工智能是辅助人类进行决策的，并不是想要代替人类进行决策，咱们晓得决策是高危害的决策，咱们做的事情是期盼能够给决策者供给更加多信息及更加多的可选方法。

此刻有非常多人在做可解释性的人工智能，必定程度上是想要处理在高危害场景应用AI的问题。

其中一个方向是，最后我不要一个神经网络，我需要的是一个决策树，是能够画出来、人能够直接看得懂的，一个基于规则的归类器。可能它的表现无深度学习那样好，但还是能够有比较好的表现。在我去训练决策树的过程中，可能还是需要深度学习的，只是最后呈现的是一个决策树，这般的话人最少能够看得懂。

还有有些其他路线，例如说我预测或做决策还是用深度学习的模型，然则我去跟人用自然语言解释它在做出这般的预测和决策时，是哪有些特征起到了关键的功效，使得它最后做出了这般的预测或决策。

还有其他各样各样的方向。咱们自己亦在做有些，期盼能够把人工智能里面的有些黑盒子给打开，让关联的决策者能真正地理解AI在做什么，最少能够去检测和验证人工智能找到的这些东西到底有用还是没用，再决定要不要运用它。

当然另一一方面，我觉得AI for social good还无到瓶颈期，还有非常多问题值得去做，因此亦期盼更加多的人能够关注这个方面的科研，能够更愿意去做有些这方面的科研。

当你说非常多问题已然被处理的时候，可能是图像归类、医疗图像识别这般的问题。这些问题做的人可能已然非常多了，做了很久了，已然到了一个非常不错然则再进一步就很困难的地区。然则我觉得AI for social good这块还是蓝海的状态，由于相对图像处理语音处理或自然语言处理，这儿无一个规范的数据集或一个特定的问题，大众要持续去研发越来越好、越来越新的算法，要去认识区别的问题，这个问题里面有什么是AI能够去帮忙处理的，什么样的办法是最合适去处理的，最后怎么做系统性的测试，推动落地。除了算法设计以外，还有非常多其他的工作需要做。

知识分子：在将来2年内或5年内有什么想做的方向，或要进行的工作吗？

方飞：此刻我期盼能够深挖的行业还是动物守护、食品救助和交通运输关联的有些问题。

正在进行中的，一个是咱们正在跟世界自然基金会（WWF）合作动物守护关联的新工作。咱们想帮忙她们自动收集资讯报告和政府报告，找到跟自然守护区和动物守护关联的文案，而后把这些文案整理成可视化的、能够去直接查看和分析的形式，这般能够节省她们的时间。她们此刻是靠人力在做这些事。

这个工作已然起始实地测试了，已然在WWF内部的系统里面用上了，咱们在持续收集反馈，改进工作。这个问题其实无触及到博弈的问题，触及到非常多自然语言处理的东西。

食品救助那块，咱们还是期盼能够把现有的算法落地，而后去探寻新的问题。

咱们还有有些正在进行中的工作是跟网络安全关联的，这个问题里面很显著有博弈。咱们之前做过有些博弈论的模型和算法，此刻还是想导出更好的、更贴近实质的模型，更好的算法。咱们亦期盼咱们做的东西更接近被实质运用的周期。

知识分子：我有一个可能不是很切实质的想法，想到国内近期的疫情，在打疫苗上大众亦是有非常多的犹豫。你的工作有可能处理鼓励大众打疫苗的问题吗？

方飞：倘若已然有有些奖励机制，咱们亦许能够去分析这个机制，或许能够更精细化地奖励，让最后的效果更好，这是有可能的一个方向。

给学习者的意见

知识分子：针对想要来学博弈论跟深度学习结合的方向的学生，你会有给她们什么样的意见呢？

方飞：一个是基本还是要打的。本科周期倘若有能够接触到博弈论关联的课程，以及深度学习、多智能体关联的课程，还是意见去学习一下，尤其是倘若有有些课程的项目，或是自己比较感兴趣的项目能够去做的话，有时候做项目的过程是能帮忙你更好地理解你学到的东西的。这个项目乃至不必定说你最后要发论文，可能便是去做有些对你来讲感兴趣的、有探索性的工作。

知识分子：最后想问一下，你得到斯隆奖有什么感想吗？

方飞：我亦是真的无想到，由于我之前申请过一次，无拿到。今年又申请，我其实并无抱很高期望，后来拿到亦觉得非常荣幸。由于它不只是给计算机行业的，它是给非常多行业的学者，因此好似得到的关注度比较高。

除了我自己获奖这件事让我很惊喜以外，另一一个我觉得挺惊喜的，是今年获奖者的名单里面有非常多的华人或华裔，还有非常多的女生，这个可能是之前我无看到的，说明咱们（华裔）在北美做得挺好的。

参考资料：

[1] V. Conitzer, T. Sandholm, Computing the Optimal Strategy to Commit to, EC’06, June 11–15, 2006, Ann Arbor, Michigan, USA

https://users.cs.duke.edu/~conitzer/commitEC06.pdf

制版编辑|姜丝鸭

4lqedz · 发表于 2024-10-14 00:51:23

你字句如珍珠，我珍藏这份情。

wrjc1hod · 发表于 2024-10-27 11:12:36

外贸论坛是我们的，责任是我们的，荣誉是我们的，成就是我们的，辉煌是我们的。

nykek5i · 发表于 2024-11-8 00:15:26

你的努力一定会被看见，相信自己，加油。

		自动登录	找回密码
密码			立即注册