第十八章 语义识别的难点
“宁总,官网流量突然大增!”
“超过预期了吗?”
“超了……五倍!”一直关注着流量的程序员大喊了出来。这远远超过预期!
宁熙言脸上无喜无忧,在宣传效果超过预期的时候,她就知道了会有这样的结果,因此一点也不吃惊。
“很好,现在就逐步放出消息吧。”
超越时代公司官网同样也是十分简洁。原版的官网是白色背景墙上有一个占据大半个屏幕的树影,以及一个树枝上的人影,除此之外再无他物。
这个官网是罗辑设计的,灵感来源自然是脑海中的科技树。按照罗辑的设想,每一个枝杈都应该可以点击,并且每一个枝杈都代表是一个时代,这样才符合他脑海里的东西。
宁熙言虽然不太理解这么设计的原因,但是感觉这个方案很具有科幻感,十分符合公司的定位,也没有太多的意见。
不过由于简洁的太过分,第一次点进来的人,估计都不知道怎么浏览信息,就是额外添加了些元素。在背景墙上添加了一些浅绿色的绿叶虚影,而人影所在的树枝的绿叶则是深绿色的。
这样就给人一种十分明显的提示,这地方是可以点击的。
“这太炫酷了!”正操作着鼠标的朱成兴奋的叫了起来,他没有在第一时间浏览信息,反而来回在树叶上点了数次。
这个主页设计的很有感觉,和国内最大化给予用户视觉饱满度的设计截然不同,在看惯了那种不放过任何空白的网站之后,这种变化让朱成有些不太适用,但是却感觉很轻松。
“就凭这个官网,我相信语音识别是这家公司做的。”作为华夏网民,最烦的就是网站在页面上设置广告,而这种设计风格明摆着不会这么干。要是想租广告位,全部设置成模块就好了,这种浪费空间的方式该少赚多钱啊?
朱成是个苹果用户,最初在网上看到这个信息的时候是不信的,以为又是那些不良记者写来博人眼球的。不过随着时间的推移,语音软件愈演愈烈,朱成半信半疑的下载了电脑版,然后找了个播报文录音放了起来。让他感到不可思议的一幕出现了,在三秒钟的延迟之后,他从电脑上看到了那篇文章。
震撼!
他比其它人看的到的东西更多,这款软件不仅识别率高,并且还保证了用户的自由度。不用按键说话,说完之后也不需要等待软件是否识别正确,这款软件的写入速度完全比跟的上说话速度。
朱成在用软件上测试了一天,感觉有些遗憾,因为这只是个样品,并且还没有苹果版的。然后他在网上找到了原帖,然后顺藤摸瓜的找到了超越时代的官网。
再次点击一回树叶后,朱成没在继续下去,开始浏览起信息来。
点击树叶之后,出现的一根树枝的放大版。与简单的首页不同,这个二级页面中多了很多信息。
“智能小语1.0七天后正式上线!”朱成很快就看到了顶端的信息。
“暂时推出的软件分个人版和企业版。个人版免费使用,企业版有为期七天的试用期。”
在软件的下方还分别有个简介。个人版对于生活方面的识别会更加精准,而企业版更注重于会议,可支持多人同时录入,抗噪音能力也更强,并且还可以选择去口语化,使会议内容更接近书面格式。
网页里面的信息不多,很快朱成就看完了。对于七天后软件的发布十分期待,语音录入可是懒人必备的神器啊,以后估计都不用打字了。
“智能小语,也可以叫语音输入法吧?”
如果不用打字了,是不是意味着键盘也没用了?那笔记本岂不是可以做的更薄?不对,没了键盘不就成了平板么?朱成想到了这一点,感觉自家的电脑城可以多进一些平板电脑了。
在外界因为语音识别而震惊的时候,罗辑所在的机房却只能听到敲键盘的声音。尽管语音识别已经做了出来,但对于写代码而言意义不大。真正能将罗辑从这些繁重的任务中解救出来的只有语义识别!
开发语义识别,就如同罗辑预料的那样,并不是一块好啃的骨头。
更何况是中文体系上的语义识别,这比其它语言要难上几个级别。光是分词这一项,就能让人死掉不少脑细胞。中文不同于单词组成的拉丁文,拉丁文单词间的空格可以大幅度减少电脑的识别难度,而中文却不行。
在中文里面,一句话就有很多意思。别说电脑了,有时候就连人也不好分辨。比如那句著名的“下雨天留客天天留我不留”,在没有标点符号的情况下,它至少有七种意思。对于电脑而言,别说这种地狱级的分词,哪怕是一些人们看来再简单不过的句子也很难分辨。
比如“华科大学生前来应聘”,电脑可能会理解为“华科大学,生前,来应聘”。
中文语义识别的第一个难点,也可以说是最大的难点便在这里。怎样的分词算法才是最完美的?
罗辑在科技树中找到了方案,一种基于统计学模型的算法,构建一个三维矩阵,选取概率最高的一个。xy轴是任意两个词语的组合,而z轴则是场景状态,根据语气和语态选取的最佳方案。
“不过这需要联网。”罗辑琢磨了一下,这似乎是目前最好的方案,虽然他的本意是打造一个可用于线下服务的智能,但是以现在的设备存储能力想要存下大量的语料库,根本就是天方夜谭。电脑肯定是不行的,光脑还差不多。
“联网就联网吧,在程序里预留一些常用算法,断网勉强也能用。”
解决了第一个问题之后,罗辑又陷入了瓶颈。他蓦然想起中文还有一点很蛋疼,那就是没有和英文一样可用于区分人名地名的大小写。
要是仅仅这样也就罢了,关键是有些人的名字起就是一个词语,如果分词程序有智能的话,它一定会把这些人拖出去砍死。比如高峰、汪洋、罗辑……
“这……还是不要砍死了,半残就好。”
罗辑马上停止了抱怨了,再困难也要解决不是?
“到底要怎么做?”
罗辑觉得自己有些天真了,一开始以为有了科技树绝对可以快速的解决问题,可事实上并非如此。之前做无线充电器时,都要用到机械方面的知识,而难度比无线充电更大的语义识别,其交叉的学科只会更多。
“语义识别要什么?电脑编程、统计分析、数据建模……还有语言学?”罗辑看到科技树上显示的内容完全傻眼了,前面的只要的理科内容,不管多难他都不怕,可偏偏最后一项他却没有办法。
让罗辑去看文科知识,那比杀了他还难受。可不学语言学,怎么可能做的出语气识别?
罗辑抓破脑袋也没有想出代替方案,这似乎是唯一的解决方法。想想也是,对语言不熟悉的人又怎么做的出语义识别?作为社交白痴的罗辑,自己都听不太明白别人的话,又怎么让电脑也“听”的懂?
学习语言学?
罗辑硬着头皮只看了一会,就感觉头大如斗,就像熬了好几个通宵,困意如潮水般一波波涌来,怎么也挡不住。
这道是个催眠的好方法,罗辑有些哭笑不得。
“只能走一步看一步了。”罗辑决定先将这个问题搁置,等其他能解决的都解决了,再回头来考虑这个问题。
先搭建模型吧。
语义解析得到步骤和前两步很想,都需要一定量的数据支持。好在有小音的帮助,不需要罗辑去亲自搭建语料库,不然光是这一个工程就能让开发时间延长几倍。
繁琐的数据积累永远是最费时间的,不过幸好小音的智能程度提高了,她能替罗辑执行的工作也越来越多,可以说只要语义识别完成,她就和电影里的那些黑科技差不多了。
研发的过程对于别人也许是枯燥的,但对罗辑来说却是让人兴奋不已的。因为在拥有了科技树之后,他基本不会做无用功,任何研究都有一个明确的方向,所以他的研究每时每刻都在向目标推进。
半个月之后,罗辑在属于自己的机房里长出了口气。现在上他能解决问题都解决了,自动分词系统也趋于实用,至少不会出现乌龙了。一些带有歧义的句子也能分析出来。
比如“独立自主和平等互利的原则”这句话,电脑就能做出两种分析,“独立自主和,平等互利的原则”以及“独立、自主、和平等互利原则”。
但是对于人名应该怎么处理?总不可能用穷举法吧?也就是将所有的名字都输入资料库,但这又会出现一个问题,因为你永远不知道那些父母会起怎样的名字。去公安部找身份证信息?这不现实,先不提这难度有多大,光是暴露了用户隐私这一条,就能让公司陷入万劫不复。
更何况罗辑还很嫌弃身份证信息的更新速度,办张证都要好几个月!这对于一分钟都嫌长的互联网而言,根本就是无法忍受的好吗?
罗辑感觉头都大了,难道非得去学什么语言学吗?真要去学的话,那个效率不敢想象。如果说罗辑的理科学习效率是一百的话,文科大约就只有二十了。
同时能做出语义识别的知识,也绝对不会简单。
这么想的话,想要做出完整的语义识别根本,不得花好几个月?罗辑倒不是嫌时间太长,只是一想到要看这么久的文科就觉得蛋疼。
罗辑从小就养成了独立思考的能力,长大后更是形成了孤独思考的习惯,加之性格使然,就更加的不会找人帮忙了。
“头疼……”
在罗辑还在苦思冥想的时候,手机久违的响了起来。罗辑的手机很少有人拨打,一般情况除了父母,也就没谁了。
“辅导员?”
罗辑愣了一下,随后惊醒过来,自己貌似半个月没去上课了。别说是华科,就算是三本学校也不会容忍这种情况发生。罗辑不知道该怎么解释,只好硬着头皮接通了电话。
还未开口,那边就传来了辅导员的声音“罗辑同学吗?”
“是我。”
“是这样的,接下来的几天有考试不要忘记了。”
罗辑迷糊的点了点头,差点忘记了自己还是学生这茬,考试什么的更是忘得一干二净。
“好的辅导员,谢谢你的提醒。”
罗辑对他的辅导员并不熟悉,只是在领奖学金的时候有接触。这次他才觉得自己的辅导员很好说话,居然没有提旷课的事。这让罗辑松了口气的同时,又更加头疼了。
真是祸不单行。
语义识别工作出现困难不说,居然还要考试?罗辑感觉自己根本静不下心来复习啊。