第一句子大全,网罗天下好句子,好文章尽在本站!

引入多感官数据学习 华人学者摘得2021 UT-Austin最佳博士论文奖

时间:2014-07-02

今年 5 月,德克萨斯大学奥斯汀分校UTAustin研究生院公布了 2021 年度各个专业和学生奖项的获奖者

友情提示:本文共有 1718 个字,阅读大概需要 4 分钟。

机器之心报道

编辑:蛋酱

UT-Austin 本年度的最佳博士论文奖获得者 Ruohan Gao,目前是斯坦福大学的博士后研究员。

今年 5 月,德克萨斯大学奥斯汀分校(UT-Austin)研究生院公布了 2021 年度各个专业和学生奖项的获奖者。这些奖项旨在表彰研究生院成员在学术、教学和专业服务方面的卓越表现。

在本年度的评选中,华人学者 Ruohan Gao 的博士学位论文《Look and Listen: From Semantic to Spatial Audio-Visual Perception》获得了 Michael H. Granof 奖。

杰出博士论文奖设立于 1979 年,旨在表彰出色的研究以及鼓励最高的研究、写作、学术水平。每年颁发三个奖项,其中一篇会被选中获得该校的最佳论文奖「Michael H. Granof 奖」。杰出论文奖获得者将获得 5000 美元奖金,Granof 奖获得者获得 6000 美元奖金。

Ruohan Gao

Ruohan Gao2015 年于香港中文大学(CUHK)信息工程系获得一等荣誉学位,导师为刘永昌(Wing Cheong Lau)教授。

博士期间,Ruohan Gao 师从 Kristen Grauman 教授。他的研究兴趣是计算机视觉、机器学习、数据挖掘等,特别是视频中的多模态学习和多模态下的 embodied learning。2021 年初,Ruohan Gao 从德克萨斯大学奥斯汀分校获得博士学位。

目前,Ruohan Gao 是斯坦福大学视觉与学习实验室(SVL)的博士后研究员。

此外,Ruohan Gao 还获得过谷歌博士生奖研金(Google Ph.D Fellowship)、Adobe 研究奖研金(Adobe Research Fellowship)等荣誉。

这篇论文研究了什么?

论文链接:https://ai.stanford.edu/~rhgao/Ruohan_Gao_dissertation.pdf

理解场景和事件本质上是一种多模态经验。人们通过观察、倾听 (以及触摸、嗅和品尝) 来感知世界,特别是物体发出的声音,无论是主动产生的还是偶然发出的,都提供了关于自身物理属性和空间位置的有价值的信号,正如钹在舞台上撞击,鸟在树上鸣叫,卡车沿着街区疾驰,银器在抽屉里叮当作响……

尽管通过「看」,也就是根据物体、行为或人的外表检测的识别取得了重大进展,但它往往不能够「听」。在这篇论文中,作者证明了与视觉场景和事件同步的音频可以作为丰富的训练信号来源,用于学习 (视听) 视觉模型。此外,作者开发了计算模型,利用音频中的语义和空间信号,从连续的多模态观测中理解人、地点和事物。

当前大多数计算机视觉系统的现状是从大量「无声」数据集的标记图像中学习,而该论文研究目标是既要会倾听,又要了解视觉世界。

作者表示,受到人类利用所有感官对世界进行感知的启发,自己的长期研究目标是建立一个系统,通过结合所有的多感官输入,能够像人类一样感知世界。在论文的最后一章,作者概述了在此博士论文之外希望追求的未来研究方向。

图 1.2: 音频本身是一个监督信号,用于语义和空间理解。

研究的首要目标是从视频和嵌入智能体中复现视听模型: 当多个声源存在时,算法如何知道发声对象是什么以及在哪里?这些视听模型如何在传统的视听任务有所提升?为了解决这些问题,该研究利用了音频中的语义和空间信号,从连续的多模态观测中理解人、地点和事物(图 1.2)。

这篇论文研究了以下四个重要问题,以逐步接近视听场景综合理解的最终目标:

同时观看和聆听包含多个声源的未标记视频,以学习音视频源分离模型(第 3 章、第 4 章和第 5 章);

利用音频作为预览机制,在未修剪的视频中实现高效的动作识别(第 6 章);

利用未标记视频中的视觉信息推断双耳音频,将平面单声道音频「提升」为空间化的声音(第 7 章);

通过回声定位学习空间图像表征,监测来自与物理世界的声学互动(第 8 章)。

作者表示,本论文对视听学习的研究,体现了无监督或自监督的多感官数据学习对人工智能的未来发展具有积极而重要的意义。

更多细节请参见论文原文。

本文如果对你有帮助,请点赞收藏《引入多感官数据学习 华人学者摘得2021 UT-Austin最佳博士论文奖》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

...研院所。 第十二期AI未来说·青年学术论坛(百度奖学金博士生特别专场)已于2020年1月5日下午在北京市百度科技园 K6 报告厅举行。复旦大学桂韬为大家带来报告《当NLP邂逅Social Media--构建计算机与网络语言的桥梁》。桂韬,复...

2023-06-01 #经典句子

36氪首发 | 人工智能大数据公司「新译科技」完成5000万元 Pre-A 轮融资 侧重人工

36氪首发 | 人工智能大数据公司「新译科技」完成5000万元 Pre-A 轮融资 侧重人工

...等国内和国际上从事自然语言处理的顶级实验室的硕士和博士研究人员。清华投资后,又引入海内外清华从事这方面的专业人员。36氪首发 | 人工智能大数据公司「新译科技」完成5000万元 Pre-A 轮融资 侧重人工智能文本领域 B 端 ...

2018-11-27 #经典句子

2019 自然语言处理前沿论坛 百度NLP技术全揭秘

2019 自然语言处理前沿论坛 百度NLP技术全揭秘

...人机对话百度 NLP 主任研发架构师、UNIT 技术负责人孙珂博士:对话系统的应用技术探索近几年来,随着智能对话逐步深入到各行各业,用户已经可以在车载、音箱、客服、机器人等场景感受到智能对话给大家的生活带来的便捷...

2023-08-11 #经典句子

《Nature》第6篇正刊!南京大学刘晓峻 程营课题组首次实现非厄米拓扑耳语回廊

《Nature》第6篇正刊!南京大学刘晓峻 程营课题组首次实现非厄米拓扑耳语回廊

...29日,南京大学物理学院刘晓峻教授、程营教授,张志旺博士后联合西班牙马德里卡洛斯三世大学Johan Christensen教授作为共同通讯作者在全球顶级科研期刊《Nature》杂志发表了题为“Non-Hermitian topological whispering gallery”的研究论文...

2010-02-20 #经典句子

EMNLP 2021大奖公布!包揽最佳长 短论文 华人学者成最大赢家

EMNLP 2021大奖公布!包揽最佳长 短论文 华人学者成最大赢家

...语言学硕士学位,目前正在剑桥大学语言技术实验室攻读博士,现在是博士二年级,师从Nigel Collier教授。个人主页:http://fangyuliu.me/about刘方宇三个主要的研究方向是:多模态(将语言与知识和感知联系起来)、自监督(研究没...

2020-02-26 #经典句子

写好主题语句让段落清晰度倍增

写好主题语句让段落清晰度倍增

...而言,XXX专业的本科生男女比例是9:1,硕士生比例是5:1,博士生则是5:3。可见,本科生男女比例是博士生男女比例的5.4倍。(证据与说明型型)这项结果验证了Robert(2012)的理论。Robert理论指出,随着...,Y会达到上限,进一步增...

2022-12-01 #经典句子

独家:“论文致谢刷屏”博士演讲干货

独家:“论文致谢刷屏”博士演讲干货

来源:经济学家圈来源 | InfoQ编者按:近日,黄国平博士论文《致谢》刷屏。文中,黄国平回顾了自己走出小山坳,与命运抗争的故事。全文波澜不惊,却能直击人心,堪称现代版《送东阳马生序》。有网友评论说,“他活成了...

2022-12-21 #经典句子

留学论文写作如何正确划分段落?

留学论文写作如何正确划分段落?

...年,他的学位论文工作达到了毕业要求,以优异成绩通过博士论文答辩并取得博士学位。 c.证据与说明型(evidence and illustration)用例子支持主题和论点。对于某些工科专业,学历越高,性别失衡现象越不严重。举例而言,XXX专业的...

2023-11-22 #经典句子