2016-02-08
浏览次数
随着2016年第三天中英产业联盟系列对话活动的开展,积聚在杭城的各界留英同学迸发出各种激情。元月7日晚,海归中心特邀在英国高盛公司工作的富玉博士作为主要分享者为海归中心会员、在杭留英同学做了一次关于机器学习的小型交流。富玉博士分享了她在博士、博士后阶段的研究方向——机器学习。
活动预告发布后,包括留英同学在内的各界朋友纷纷响应,如留英同学张扬因为研究生就读人工智能方向,虽然目前创业项目与之暂时无关,但他还是很想了解一下当前机器学习达到的阶段,有哪些研究课题,已经商业化的有哪些;而英国谢菲尔德博士生吴粤同学,由于从事5G通信网络研究以及大数据与通信网络的结合,目前希望从事健康大数据以及智能城市的相关创新创业工作,更对此表示出浓厚兴趣;亦有留美同学沈煜斌在哥伦比亚大学学习了数据处理的机器学习,以及贝叶斯模型中的机器学习应用,在京东数字营销部门也做过相应工作;留德同学谢峰毕业于慕尼黑工业大学工业集成工作,从事过机器人、智能工厂、传感器应用,做过机器人可靠性等研究。除此之外,也有从事投资分析的浙大校友李慧卿同学,关心人工智能的商业模式——如何依托算法,技术为基础,实现产品化,在实际应用中依赖真实数据采集,通过系统学习,让知识又促进产业发展,实现正向循环。
机器学习是人工智能、计算机科学的分支学科。它对已知数据信息进行分析和学习从而对未知信息做出判断和处理。机器学习已被广泛的应用到各行各业,如:医疗诊断、大数据分析、机器人控制、产品质量监控和自动驾驶等。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。
以机器智能判断化学成分毒性为例,一个以领域知识为主来建立判别系统的科研机构可以由20名以上的博士及博士后组成的团队,把历史科研文献收集起来,通过文献分析和给出的实验结论证据来建立化学成分毒性判别系统。其优点是判别原因清晰,理论依据明了。其缺点是,系统建立慢,需要有丰富的业内知识的科研人员花费大量精力和时间查找分析大量文献来找到判断依据,而且目前此系统的正确率并不高,维持在百分之六十到百分之七十之间。利用机器学习模型对当前已知的化学结构和其毒性进行学习从而对新的结构的毒性进行判断。其大量的减少了对人工的需求,缩短了判断系统的建立时间,而且准确性能达到百分之八十以上高于前面的专家系统。
数据挖掘/机器学习有能力找出已知数据中潜在信息和规律,但是他的局限性除了技术/专业环节以外,还有很多限制因素,如伦理、人性、政治等。在大数据和高计算的时代,例如我们通过深度学习算法上的突破对样本进行训练、优化、迭代和压缩,这些都是机器学习从理论到应用中的发展。
作为多领域交叉学科,机器学习的突破仍需要建立在其他学科突破的基础之上,我们对这个领域仍然需要更多的探索。深度学习会成为人工智能实现的最佳途径吗?它的未来又在哪里?也许某一天机器学习可以读懂人类的情感,对未来进行预测,是数据和更有决策间的桥梁。
本次分享内容离科普稍有距离,因此部分参会同学无法插话,但业内人士却收获多多,乃至次日在“海归中心机器学习小组”微信群中,讨论仍继续着。
比如,做过信息抓取分类项目,目前从事汽车行业的杨亦斌先生问及对关于影响因子的筛选,汽车行业常用田口法,要求各因子的累积贡献率>70%或更高。问富博士在机器学习中如何筛选确定因子?富博士解释到,在分享会上简单提过的特征向量提取是机器学习的一大研究领域,所以有很多不同的方法。有的不参与学习,例如计算各变量之间的概率相关性;有的参与学习,例如比较直观的前筛选和后筛选: 逐个添加或删除特征产量看他们对学习结果的影响程度。启发出杨亦斌先生觉得“尽管聚类分析、协方差分析、灵敏度分析可以看看因素的重要度、相关性。但是这也是仅供参考,大部分统计学习方法,还不具有可解释性,或者解释起来很牵强,你很难知道它为什么会是这个趋势。”
本次活动由浙大校友柴英果女士落实在玉古路149号9楼会议室,浙江大学国家大学科技园谭国珍老师提供了各种干果零食,博瑞客的杨金燕女士提供了部分抹茶糕点,浙大博士生邱剑提供了赣南甜橙。活动由海归中心秘书处顾东东召集并主持。
中英产业联盟系列对话源于2012年,是海归中心与中英HiTECH论坛共同打造的交流平台。这将是海归中心的重要品牌活动之一,与之相关的还有中德科技论坛系列活动(与德国莱茵论坛共同主办)、中法文化论坛系列沙龙(与法兰西论坛共同主办)等。海归中心希望通过这些品牌活动,将世界主要国家的优秀成果分享到海归中心及合作伙伴的朋友,提升大家对世界前沿科技、文化的认知。
部分记录/ 齐铭鑫 ,2016年1月8日于杭州小和山
完善补充/ 顾东东,2016年1月8日于杭州白马驿
内容审核/ 富玉,2016年1月14日于伦敦