专家欲破婴儿学习语言之谜

人类如何学会语言？小婴儿是如何从外界接受语言信号，逐渐建立起自己的语言能力，与人交流？这些一直都是科学家们非常感兴趣的，但又一直找不到一个普遍认可的答案。美国的一名科学家为了解决这个问题，决定观察婴儿学习语言的过程。

据英国广播公司(BBC)5 月19日报道，美国麻省理工学院教授迪布·罗伊喜获贵子后，决定借此便利观察他的儿子是如何学习语言的，将通过三年的录音、录像等手段记录下这个宝贵的过程，并希望通过数据分析最终获得人类初生如何学习语言的答案。记录已经开始十一个月，本报记者通过邮件采访了罗伊教授，向他了解开始和进展情况。

14个麦克风 11部全方位摄像机记录婴儿成长过程

罗伊教授和他的研究小组把这一计划称为Human Speechome(人类家庭语言)计划。11个月前当罗伊教授的儿子出生后离开医院，这个计划便启动了。14个麦克风和11个全方位摄像机将在这个新生儿来到这个世界的最初三年里一直保持工作状态。在罗伊的儿子醒着的时间里，他的一切活动和发音都被这些设备记录。监视系统在早上八点打开直到晚上十点关闭，每天收集大约350吉伯的压缩数据。

这11部全方位数字摄像机和14个麦克风隐藏在各个房间的天花板上，包括厨房、餐厅、客厅、游戏室、门口、健身房、三个卧室、走廊和卫生间。摄像机可以捕捉到房里发生的任何可能是潜在的婴儿学习语言的因素，每秒钟可以记录14个画面，任何微小的动作都被记录。不过，由于现有技术的程度限制，诸如眨眼等非常细微的面部表情都还无法被捕捉，这些表情都被认为是学习语言非常重要的线索。

14个麦克风组成层级式录音系统，记录这所房子里任何的声音资料。在记录声音的过程中，录音系统会自动地将噪音削弱。14个麦克风可以把所有房间的声音记录，通过14个频道刻录到CD盘中。当房间中没有杂音时，即使是轻声的耳语都不会被漏掉。

经过计算，3年的记录工作将记录下33.8万小时的数据，其中包括14.2万小时的视频和19.6万小时的音频。

庞大系统共同绘制一幅幼儿经历的感官刺激的完整图画

罗伊教授介绍说，数据搜集工作结束后，隐藏在天花板里的数据线将会把这些数据资料传送到麻省理工学院媒体实验室的一个巨大容量的磁盘储存系统中，该系统储存容量达到5千兆。所有的图像都会通过10台串联的电脑进行大规模数据分析，而声音数据将会储存在地下室的一个标本取样器中。

据罗伊教授介绍，目前对语言进行数据分析有两个途径。第一个是通过自动语言识别器转录，但是即使是最好的自动语言识别器出错率也很高，很多噪音也可能被作为有用信息转录。因此还有第二种途径是通过人工转录，通过人工识别，是婴儿产生的声音，还是噪音，尽量减小转录过程中的误差。而现今的一些转录设备用于大量的语音转录工作都不是很理想。罗伊教授和他的研究组在这些转录设备的基础上自行设计了一套系统，可以自动识别长时间记录中的语音，通过数学运算，描绘出类似于光谱的声音图像。在有声音活动的区域，该系统会将声音自动记录重放进行转录。根据之前的实验，每一分钟的对话，都需要2.5分钟的转录时间。