数据缺失阻碍人工智能研究复制【凤凰彩票登陆

2019-08-28 作者:科学知识   |   浏览(127)

凤凰彩票登陆 1

人工智能这个蓬勃发展的领域正面临着实验重现的危机,就像实验重现问题过去10年来一直困扰着心理学、医学以及其他领域一样。AI研究者发现他们很难重现许多关键结果,这导致了对研究方法和出版协议的新职责。

凤凰彩票登陆 21.顶级学历和学术研究背景,深度学习等领域资深科学家。据媒体报道,薄列峰的学术背景非常令人折服,薄列峰博士2007年获西安电子科技大学博士学位,先后在芝加哥大学丰田研究院和华盛顿大学从事博士后研究。研究内容涉及机器学习、深度学习、计算机视觉、机器人、自然语言处理等多个领域。

在AAAI会议上,加拿大麦吉尔大学计算机科学家Peter Henderson表示,通过反复实验学习设计的AI的性能不仅对所使用的确切代码高度敏感,还对产生的随机“超参数”非常敏感。他在不同条件下运行了这些“强化学习”算法中的几个,发现了截然不同的结果。Henderson说,研究人员应该记录更多的关键细节。“我们正试图推动这个领域有更好的实验程序和评估方法。”

研究人员表示,缺失的原因有很多:代码可能是一项正在进行中的工作,所有权归某一家公司,或被一名渴望在竞争中保持领先地位的研究人员紧紧掌握。代码也可能依赖于其他代码,而其他代码本身未发布。或者代码可能只是丢失了,在丢失的磁盘上或被盗的笔记本电脑上——Rougier称之为“我的狗吃了我的程序”。

从京东金融整体的战略上来说,京东金融将数据 人工智能能力进行对外输出,助力传统金融行业提高效率、降低成本、提高收入,真正实现京东金融的AI对金融业赋能。

目前,心理学通过创造一种有利于复现的文化处理它的再现性危机,AI也开始这样做。2015年,Rougier帮助启动了一个致力于复现的计算机科学杂志ReScience。大型神经信息处理系统会议也已经开始从其网站链接到论文的源代码。

同一个算法学习走路,结果可能不同。图片来源:YUVAL TASSA

2.学术研究和著作众多,享誉海内外。据了解,薄列峰在国际顶级会议和期刊上合计发表论文50余篇。论文总被引用6000余次,H指数38,其中博士学位论文荣获全国百篇优秀博士论文奖,RGB-D物体识别论文荣获机器人会议ICRA最佳计算机视觉论文奖。在国际学术活动方面,薄列峰任华盛顿大学计算机科学与工程学院合聘教授 (Affiliate Faculty),担任过包括NIPS、CVPR、ICCV、ECCV、AAAI、SDM等在内的顶级人工智能会议程序委员会委员。

然而,AI研究人员表示,目前的激励措施仍然不能与可复现性相匹配。他们没有足够时间在每种条件下都测试算法,或者在文章中记录他们尝试过的每个超参数。因为他们面临发论文的压力——每天都有许多未经同行评议的论文发布到arXiv上。

数据缺失阻碍人工智能研究复制

10月16日,京东金融宣布,前亚马逊首席科学家薄列峰博士正式入职京东金融,担任京东金融 AI 实验室首席科学家。价值兄认为,这是京东布局人工智能,吸纳高科技人才的一次非常鲜明的动作。那么这位前亚马逊首席科学家到底有哪些过人之处呢,价值兄认为有以下几大特点:

用同一个算法学习走路,结果可能不同。图片来源:YUVAL TASSA

凤凰彩票登陆 3

10月16日,京东金融宣布,人工智能领域资深科学家薄列峰日前正式加盟京东金融,任京东金融AI实验室首席科学家。

Gundersen认为这种文化需要改变。“这样做并不羞耻。”他说,“这只是说实话。”

研究人员还在AAAI会议上提出了另一种工具帮助复现:一种自动重新创建未发布源代码的系统,它能节省数天或数周的时间。这个系统是一种由小型计算单元层组成的机器学习算法,通过扫描一份AI研究论文,寻找描述神经网络的图表或图示,然后将这些数据解析为图层和连接,并以新代码生成网络。

3.资深、丰富的项目操盘实践经验。据价值兄了解,薄列峰本人除了学历顶级、学术专业等背景优势外,也有着非常丰富的大型企业工作经验。他曾就职于亚马逊,担任首席科学家,负责过Amazon Go无人零售店项目,在其中主攻基础算法研究和工程落地。同时,作为研究团队的核心创始成员,薄列峰领导了多个关键项目的启动、研发和工程落地,近来更负责整个项目的统一化架构设计和开发。

法国国家信息与自动化研究所计算神经科学家Nicolas Rougier说:“这个领域以外的人可能会认为,因为我们有代码,所以重现是有保证的。但完全不是这样。”近日,在美国新奥尔良召开的人工智能协会会议上,重现性问题被提上议程,一些团队对这个问题进行了分析,也有团队提出了减轻这个问题的工具。

而且,Ke正在邀请研究人员尝试复现已发表实验,并提交给即将举行的会议,以实现“可复现性挑战”。Ke说,近100个复现项目正在进行中,大多数是由学生完成的,他们可能因此获得学分。

回答:

去年,加拿大蒙特利尔大学的计算机科学家急于展示一种新的语音识别算法,他们想将其与一个著名科学家开发的基准算法进行比较。唯一的问题是基准算法的源代码没有发布。研究人员不得不从已发表的描述中重建该算法。但是,他们无法让自己的版本与基准算法的要求相匹配。该校博士生Nan Rosemary Ke说:“我们试了两个月,但都没办法成功。”

最根本的问题是研究人员通常不共享他们的源代码。在AAAI会议上,挪威科技大学计算机科学家Odd Erik Gundersen报告了一项调查的结果,该调查针对过去几年在两个AI顶级会议上发表的论文中提出的400种算法。他发现只有6%的研究者分享了算法的代码。只有1/3的人分享了他们测试算法的数据,而只有一半分享了“伪代码”。(许多情况下,包括《科学》和《自然》在内的期刊上发表的AI论文中也没有代码。)

薄列峰于2007年获西安电子科技大学博士学位,先后在芝加哥大学丰田研究院和华盛顿大学从事博士后研究。研究内容涉及机器学习,深度学习,计算机视觉,机器人,自然语言处理等多个领域。他在国际顶级会议和期刊上合计发表论文50余篇。论文总被引用6000余次,H指数38,其中博士学位论文荣获全国百篇优秀博士论文奖,RGB-D物体识别论文荣获机器人会议ICRA最佳计算机视觉论文奖。在国际学术活动方面,薄列峰任华盛顿大学计算机科学与工程学院合聘教授 (Affiliate Faculty),担任过包括NIPS、CVPR、ICCV、ECCV、AAAI、SDM等在内的顶级人工智能会议程序委员会委员。

此外,许多人也不愿意报告失败的复现。例如,在ReScience上,所有公布的复现项目迄今为止都是正面的。Rougier说,他也尝试过发表一些失败项目,但年轻研究人员往往不希望批评高级研究员,失败项目也就无人提起了。这就是为什么Ke拒绝透露她想用作基准的语音识别算法背后的研究人员的原因之一。

荷兰埃因霍芬理工大学计算机科学家Joaquin Vanschoren创建了另一个存储库:OpenML。它不仅提供算法,还提供数据集和超过800万个实验运行及其所有相关详细信息。“你运行实验的确切方式充满了无证的假设和决定,这些细节大多不在论文里。”Vanschoren说。

问题:近日,前亚马逊首席科学家薄列峰博士正式入职京东金融,担任京东金融AI实验室首席科学家,BAT都开始在AI领域引进高端人才,京东也没落下,薄列峰就是其引进的高端人才之一。薄列峰其人在亚马逊任首席科学家时,国内甚少听说,他在亚马逊做过哪些重要的事情?加入京东又会带来哪些影响?

而且,Ke正在邀请研究人员尝试复现已发表实验,并提交给即将举行的会议,以实现“可复现性挑战”。Ke说,近100个复现项目正在进行中,大多数是由学生完成的,他们可能因此获得学分。

另一方面,假设你可以获得并运行原始代码,它仍然可能无法达到预期。在机器学习领域,计算机从经验中获取专业知识,算法的训练数据可以影响其性能。 Ke指出,“每跑一次的结果都充满了随机性,你可能真的非常幸运,跑出一个非常好的数字。研究报告通常就是这个。

在加入京东金融之前,薄列峰就职于亚马逊(Amazon)西雅图总部,担任首席科学家(Principal Scientist),领导研究团队,从事Amazon Go无人零售店的基础算法研究和工程落地。Amazon Go利用计算机视觉,深度学习和传感器融合技术打造即拿即走的全新购物体验。作为研究团队的核心创始成员,薄列峰领导了多个关键项目的启动、研发和工程落地,近来更负责整个项目的统一化架构设计和开发。

人工智能这个蓬勃发展的领域正面临着实验重现的危机,就像实验重现问题过去10年来一直困扰着心理学、医学以及其他领域一样。AI研究者发现他们很难重现许多关键结果,这导致了对研究方法和出版协议的新的责任感。

此外,许多人也不愿意报告失败的复现。例如,在ReScience,所有公布的复现项目迄今为止都是正面的。Rougier说,他也尝试过发表一些失败项目,但年轻研究人员往往不希望批评高级研究员,失败项目也就无人提起了。这就是为什么Ke拒绝透露她想用作基准的语音识别算法背后的研究人员的原因之一。

回答:

人工智能面临“再现”危机 数据缺失阻碍复制研究

法国国家信息与自动化研究所计算神经科学家Nicolas Rougier说:“这个领域以外的人可能会认为,因为我们有代码,所以重现是有保证的。但完全不是这样。”近日,在美国新奥尔良召开的人工智能协会会议上,重现性问题被提上议程,一些团队对这个问题进行了分析,也有团队提出了减轻这个问题的工具。

另一方面,假设你可以获得并运行原始代码,它仍然可能无法达到预期。在机器学习领域,计算机从经验中获取专业知识,算法的训练数据可以影响其性能。Ke指出,“每运行一次的结果都充满了随机性,你可能真的非常幸运,运行出一个非常好的数字。研究报告通常就是这个。”

在AAAI会议上,加拿大麦吉尔大学计算机科学家Peter Henderson表示,通过反复实验学习设计的AI的性能不仅对所使用的确切代码高度敏感,还对产生的随机数“超参数”也非常敏感。他在不同的条件下运行了这些“强化学习”算法中的几个,发现了截然不同的结果。Henderson说,研究人员应该记录更多的关键细节。“我们正试图推动这个领域有更好的实验程序和评估方法。”

荷兰埃因霍温理工大学计算机科学家Joaquin Vanschoren创建了另一个存储库:OpenML。它不仅提供算法,还提供数据集和超过800万个实验运行及其所有相关详细信息。“你运行实验的确切方式充满了未公开的假设和决定,这些细节大多不在论文里。”Vanschoren说。

去年,加拿大蒙特利尔大学的计算机科学家们急于展示一种新的语音识别算法,他们想将其与一个著名科学家开发的基准算法进行比较。唯一的问题是基准算法的源代码没有发布。研究人员不得不从已发表的描述中重建该算法。但是,他们无法让自己的版本与基准算法的要求相匹配。该校博士生Nan Rosemary Ke说:“我们试了2个月,但都没办法成功。”

研究人员表示,缺失的原因有很多:代码可能是一项正在进行中的工作,所有权归某一家公司,或被一名渴望在竞争中保持领先地位的研究人员牢牢掌握。代码也可能依赖于其他代码,而其他代码本身未发布。或者代码可能只是丢失了,在丢失的磁盘或被盗的笔记本电脑上——Rougier称之为“我的狗吃了我的程序”。

Gundersen认为这种文化需要改变。“这样做并不羞愧。”他说,“这只是说实话。”

《中国科学报》 (2018-02-27 第3版 国际)

目前,心理学通过创造一种有利于复现的文化处理它的再现性危机,AI也开始这样做。2015年,Rougier帮助启动了一个致力于复现的计算机科学杂志ReScience。大型神经信息处理系统会议也已经开始从其网站链接到论文的源代码。

最根本的问题是研究人员通常不共享他们的源代码。在AAAI会议上,挪威科技大学计算机科学家Odd Erik Gundersen报告了一项调查的结果,该调查针对过去几年在两个AI顶级会议上发表的论文中提出的400种算法。他发现只有6%的研究者分享了算法的代码。只有1/3的人分享了他们测试算法的数据,而只有一半分享了“伪代码”。(许多情况下,包括《科学》和《自然》在内的期刊上发表的AI论文中也没有代码)

然而,AI研究人员表示,目前的激励措施仍然不能与可复现性相匹配。他们没有足够时间在每种条件下都测试算法,或者在文章中记录他们尝试过的每个超参数。因为他们面临发论文的压力——每天都有许多未经同行评议的论文发布到arXiv上。

研究人员还在AAAI会议上提出了另一种工具帮助复现:一种自动重新创建未发布源代码的系统,它能节省数天或数周的时间。这个系统是一种由小型计算单元层组成的机器学习算法,通过扫描一份AI研究论文,寻找描述神经网络的图表或图示,然后将这些数据解析为图层和连接,并以新代码生成网络。

本文由凤凰彩票登陆发布于科学知识,转载请注明出处:数据缺失阻碍人工智能研究复制【凤凰彩票登陆

关键词: 凤凰彩票登陆