
AI世代讯 4月10日消息,由创新工场李开复发起的德扑人机大战,今天上午正式结束。在5天比赛里,中国龙之队输给冷扑大师分,堪称惨败。机器人选手“冷扑大师”最终赢得200万元奖金。
在前4天比赛里,中国龙之队和冷扑大师共交战8场次,累计33000手牌。8个场次里,中国龙之队分别输掉14145分、50992分、分、分、分、59938分、42744分、55664分,累计输掉分。
今天上午,中国龙之队再次输掉47343分,保持着连续惨败的势头。虽然此前李开复预测龙之队或有10%的胜率,现在来看这一判断太过乐观。
李开复对腾讯科技表示,冷扑大师是基于博弈论的策略型AI,冷扑大师获胜说明在非完美信息场景里AI也可以战胜人类,将在商业谈判、经济策略等方面具有广阔应用前景。

“冷扑大师”是基于卡内基梅隆大学 教授和博士生Noam Brown所开发的无限德州扑克人工智能系统。今年1月份在美国匹兹堡的比赛中,将四位职业选手挑落马下,赢走接近总数的筹码。
李开复介绍,“冷扑大师”并不基于大数据、深度学习、强搜索等传统AI方法;而是基于博弈论,结合大量的数学和概率,直接在比赛同时动态优化胜率最高的数学模型。
“如果是超级IQ天才,那么‘冷扑大师’就是超级EQ天才。”李开复认为,虽然冷扑大师是目前扑克界的最强AI,但“中国龙之队”并非毫无胜算,因为此前被“冷扑大师”击败的顶级牌手并不懂计算机原理,而此次龙之队全部拥有计算机领域的从业经验,会让比赛保留悬念。
龙之队领队杜悦估计,自己的团队或许只有10%的胜率,这次挑战冷扑大师,主要想让更多的人认识德州扑克的奥妙。赛前发布会后,龙之队旋即出发奔赴海南。
李开复认为,比赛胜负并不是那么重要,而是希望能让更多人了解人工智能,并共同促进人工智能在中国的发展。
之所以发起这场人机扑克对战,李开复称这和他1988年在母校卡内基梅隆大学开发了“奥赛罗”,成为第一个击败黑白棋世界冠军的人机对弈系统背景息息相关。冷扑大师背后的模型,将适用于需要用到战略推理和多方谈判的场景,从企业谈判、商务谈判、外交谈判、甚至到生活面的房屋买卖谈判,十年内都将会部分或全面被人工智能所取代。
李开复指出,人工智能的爆发点即将来临,创新工场全力进入AI领域:“创新工场去年成立了人工智能工程院,现在我们1/2的投资布局都在AI领域,而且现在我的大部分精力并不是放在投资上,而是研究AI。”
创新工场将投资孵化哪些领域的AI项目?面对腾讯科技的提问,李开复表示人工智能的爆发有三大原则:有海量数据、这些数据被标注、在垂直的单一领域。人工智能并不是BAT等巨头的专利,巨头没有布局的细分行业,AI创业公司拥有大好机会。
“创新工场全力寻找全球顶级科学家,全力收集大数据,打造数据平台,并向所有创业者开放。”李开复介绍,创新工场人工智能工程院年底将达到200人左右规模。
此次代表华人出战的六位选手分别是杜悦、许朝军、张淮、童舟、朱亚希和王天建,他们都是国内顶尖德扑玩家。其中领队杜悦此前是人人网集团副总裁,曾在2016年的世界德州扑克大赛WSOP的无限注德州扑克赛事中获得冠军。
已不是人类德扑首次败给机器
今年2月,卡内基梅隆大学人工智能系统在长达20天的鏖战中,打败4名世界顶级德州扑克玩家,这标志着人工智能技术又达到了一个新的高峰。
在国际象棋之后,机器人相继在和围棋游戏上打败人类,人类唯一领先的,就是扑克了。
在一次长达20天的德州扑克大赛上,卡内基梅隆大学开发的人工智能系统打败了4名世界顶级的专业德扑玩家,赢得1,766,250美元筹码。
这据称是人类与机器不断角力道路上的一个新里程碑,人工智能首次以大赌注策略击败了它的人类对手。
卡内基梅隆大学的计算机教授图奥马斯·桑德霍姆( )称,扑克是人类防守智能机器在游戏领域节节胜利的“最后一道防线”。机器打败人类的首例,要追溯到20年前国际象棋大师加里·卡斯帕罗夫(Garry )被IBM的超级电脑击败。
谷歌(微博)旗下的,在英国赞助下开发出最顶尖的人工智能系统,去年开发的一款程序赢了围棋比赛,这被称为是对思维延伸策略游戏的终极测试。
但是,扑克检测的是不同的脑部区域,因为它涉及利用不完整信息做战略决策,而这也更贴近现实世界。
“这也不仅仅是扑克。我们开发的算法…可以处理任何不完整信息的情况,并依此做出最好的策略,” 桑德霍姆先生说,他和博士生诺姆·布朗(Noam Brown)共同开发了这个系统。
这个技术可以应用在各个领域与人类竞争,比如商业谈判、军事战略和大型银行使用的高频交易系统,他说。
这个叫做的人工智能系统,每天10小时连续三周玩扑克中最有挑战性的不限注德州扑克。它起初的表现让人类觉得有希望最终获胜。但是,系统逐渐补救了战术中的漏洞,最终如桑德霍姆描述为“系统大举获胜,结果很显著”。
“比赛到一半的时候,我们真的以为要赢了,”其中一位专业玩家丹尼尔· 麦考利( )说。“我们真的有机会打败它。”
卡内基梅隆大学团队每晚用超级电脑来分析白天的比赛,提高系统性能。系统检测自身在每轮比赛中的弱点,每天补救三个最明显的失误,而不是试图学习对手的制胜战术。
这个方法最终使其出其不意用大赌注智胜它的对手,桑德霍姆称之为系统相对人类“心理承受能力”的优势。
相对其它玩扑克的程序,最主要的提高在于电脑在接近游戏最后时的玩法。先前的系统从头至尾使用单一战术,但是使用额外的反馈回路来实时回应对桌的人类。
“我们用了所有能想到的办法,它实在是太强大了,”另一位扑克玩家杰森·莱斯(Jason Les)说。“它每天的出现都让我们士气低落,最后输的这么惨。我以为我们最后的筹码会非常接近。”
桑德霍姆说,几乎可以肯定要单独成立一家新的创业公司,用背后的技术来开发商业用途。他已经研究了27年的谈判策略。他早先开发过的一款程序被2/3的美国器官移植中心使用来决定哪位病人可以得到新肾的移植。