科研：专家欲破婴儿学习语言之谜并非最先会叫妈妈

逍遥右脑 2017-05-13 10:30

罗伊在客厅10个区域收集声音资料

人类如何学会语言？小婴儿是如何从外界接受语言信号，逐渐建立起自己的语言能力，与人交流？这些一直都是科学家们非常感兴趣的，但又一直找不到一个普遍认可的答案。美国的一名科学家为了解决这个问题，决定观察婴儿学习语言的过程。

据英国广播公司(BBC)5 月19日报道，美国麻省理工学院教授迪布?罗伊喜获贵子后，决定借此便利观察他的儿子是如何学习语言的，将通过三年的录音、录像等手段记录下这个宝贵的过程，并希望通过数据分析最终获得人类初生如何学习语言的答案。记录已经开始十一个月，本报记者通过邮件采访了罗伊教授，向他了解开始和进展情况。

14个麦克风 11部全方位摄像机记录婴儿成长过程

罗伊教授和他的研究小组把这一计划称为Human Speechome(人类家庭语言)计划。11个月前当罗伊教授的儿子出生后离开医院，这个计划便启动了。14个麦克风和11个全方位摄像机将在这个新生儿来到这个世界的最初三年里一直保持工作状态。在罗伊的儿子醒着的时间里，他的一切活动和发音都被这些设备记录。监视系统在早上八点打开直到晚上十点关闭，每天收集大约350吉伯的压缩数据。

这11部全方位数字摄像机和14个麦克风隐藏在各个房间的天花板上，包括厨房、餐厅、客厅、游戏室、门口、健身房、三个卧室、走廊和卫生间。摄像机可以捕捉到房里发生的任何可能是潜在的婴儿学习语言的因素，每秒钟可以记录14个画面，任何微小的动作都被记录。不过，由于现有技术的程度限制，诸如眨眼等非常细微的面部表情都还无法被捕捉，这些表情都被认为是学习语言非常重要的线索。

14个麦克风组成层级式录音系统，记录这所房子里任何的声音资料。在记录声音的过程中，录音系统会自动地将噪音削弱。14个麦克风可以把所有房间的声音记录，通过14个频道刻录到CD盘中。当房间中没有杂音时，即使是轻声的耳语都不会被漏掉。

经过计算，3年的记录工作将记录下33.8万小时的数据，其中包括14.2万小时的视频和19.6万小时的音频。

庞大系统共同绘制一幅幼儿经历的感官刺激的完整图画

罗伊教授介绍说，数据搜集工作结束后，隐藏在天花板里的数据线将会把这些数据资料传送到麻省理工学院媒体实验室的一个巨大容量的磁盘储存系统中，该系统储存容量达到5千兆。所有的图像都会通过10台串联的电脑进行大规模数据分析，而声音数据将会储存在地下室的一个标本取样器中。

据罗伊教授介绍，目前对语言进行数据分析有两个途径。第一个是通过自动语言识别器转录，但是即使是最好的自动语言识别器出错率也很高，很多噪音也可能被作为有用信息转录。因此还有第二种途径是通过人工转录，通过人工识别，是婴儿产生的声音，还是噪音，尽量减小转录过程中的误差。而现今的一些转录设备用于大量的语音转录工作都不是很理想。罗伊教授和他的研究组在这些转录设备的基础上自行设计了一套系统，可以自动识别长时间记录中的语音，通过数学运算，描绘出类似于光谱的声音图像。在有声音活动的区域，该系统会将声音自动记录重放进行转录。根据之前的实验，每一分钟的对话，都需要2.5分钟的转录时间。

这些不同的各个系统将共同完成一幅幼儿经历的感官刺激的完整图画，这样就可建立一个可以取代罗伊教授儿子的模型。（马佳）

对话

婴儿并非最先会叫妈妈

北京科技报：您的试验开始了多久了？目前有什么新进展吗？

罗伊教授：我们的数据收集工作已经开始了11个月。已经得到了非常有用的数据，我的儿子在数千小时中，在家中呀呀学语的记录。这些都将用于语言发展的研究。

北京科技报：在中国普通人都会认为孩子们学说话最早说出的词语是“妈妈”，您认为是这样吗？这是不是应认为这个词语发音简单？

罗伊教授：其实这并不是婴儿最早学会的单词，即使是中国。但是“妈妈”这个词确实很简单，你是对的，因此这个词出现的也很早。

北京科技报：在你的家里安装那么多的机器，你们会不会觉得不自在？如果遇到有隐私问题，怎么办？

罗伊教授：开始确实不是很自在，但现在已经习惯了。所有的音频和视频记录都可以由人工控制，安装在墙上的微型触摸控制器可以在必要时分别开关音频或视频的记录。这样的微型控制器一共有八个，都安在灯的开关旁边。另外，我们还可以通过“哎呀”按钮控制，擦除任何一段不需要的记录。

北京科技报：人们在知道有设备在进行拍摄记录时，会不会故意地去和婴儿对话，影响结果的客观性？

罗伊教授：通常在实验中，观察者对实验的影响只会持续24到48个小时。我们的记录工作已经进行了相当长的一段时间，这种影响应该已经不是一个问题了。

北京科技报：在记录工作结束后，你们将如何进行分析，数据的那一部分是研究婴儿学习语言的有用资料吗？

罗伊教授：我们将通过计算机建立模型，并复制我的孩子在学习语言中的单词和语法。这些模型将帮助我们分析学习的整个过程。

北京科技报：您是什么时候开始涉足人类语言这个领域的？是什么激发您这个想法？

罗伊教授：我在十年前就有了这个想法，那时我在做我的博士论文，题目就是“语言获取模型”。

北京科技报：为什么数据记录的时间是3年而不是更短或者更长呢？

罗伊教授：2到3年这个时间是学习第一个单词到简单的语法出现的一个临界时间，这段时间是我们研究关注的重点时期。

北京科技报：关于婴儿如何学会语言有很多争论，您能介绍一下有哪些吗？您支持哪一种观点？

罗伊教授：这个问题非常复杂，很难用简短的语言说清楚。但非常明显的是，天生的语言结构与环境造就的语言结构都是起到重要作用的。我们的研究计划就是想要在这方面打开一扇新的大门。这项计划将为研究人类语言获取过程的研究提供一个自然、丰富、纵向的参考。通过超过30万小时的记录，我们先要建立一个模型并计算出幼儿获取语言的精确过程。我们希望这项技术除了可以研究人类的语言学习过程外，还可以应用于像个人视频或分析从监视器中获得的影像资料这样的其他领域。北京科技报

科研：专家欲破婴儿学习语言之谜并非最先会叫妈妈

逍遥右脑在线培训课程推荐