宠文网

滑动解锁:解密技术基因,揭秘数字世界

宠文网 > 外国小说 > 滑动解锁:解密技术基因,揭秘数字世界

第1章 软件开发

书籍名:《滑动解锁:解密技术基因,揭秘数字世界》    作者:帕斯.底特律
    《滑动解锁:解密技术基因,揭秘数字世界》章节:第1章 软件开发,宠文网网友提供全文无弹窗免费在线阅读。!



让我们从每天使用的App入手,探索身处的技术世界。奈飞[1]和微软Excel带给我们的感觉非常不同,但它们都是由相同的基础模块所构成的。事实上,所有App都是由这些相同的基础模块所构成的。想知道这些基础模块是什么吗?你不妨继续读下去。



谷歌搜索是如何工作的?


每当你用谷歌搜索时,搜索引擎会在互联网上梳理超过30万亿个网页,然后为你的问题提供前10个结果的链接。在92%的情况下,你会点击第1个页面中前10个结果中的1个。在30万亿个的网页中找出与你的问题最相关的10个网页,这真的很难,这就像要求你在纽约的街头找到不知什么时候丢的1枚1分钱硬币一样。然而,谷歌搜索引擎在平均半秒内就能熟练地完成这项工作。那么,谷歌搜索引擎是如何做到的呢?

实际上,谷歌搜索引擎并不是在你每次问它问题的时候访问互联网上的每个网页。谷歌搜索引擎将关于网页的信息存储在数据库中(类似Excel中的信息表),然后使用读取这些数据库的算法来决定向你显示什么。算法是对一系列操作指令的简称。例如,人们可能用一种“算法”来制作花生酱三明治,而谷歌搜索则用一种算法根据你在搜索栏中输入的内容来查找网页。

抓取

谷歌算法的逻辑是,首先,建立一个包含了互联网上所有网页信息的数据库。为建立这个数据库,谷歌使用被称为“网页蜘蛛”(也被称为“网络爬虫”)的程序在网页上“爬行”,直到“网页蜘蛛”“爬过”所有网页(或者至少是谷歌所认为的所有网页)。“网页蜘蛛”从谷歌选择的几个网页开始爬行,并且将这几个网页添加到谷歌的网页列表中,这被称为“索引”。然后,“网页蜘蛛”跟踪这些网页上包含的所有链接,找到一组新的网页,再将这组网页添加到索引中。“网络爬虫”不断跟踪新的网页上的所有链接,以此类推,直到它找不到新的网页为止。

这个过程一直都在进行。谷歌不断在索引中添加新网页,或者在网页发生变化时更新网页。这个索引数据库非常庞大,有超过1亿GB的数据量。你如果想把这些数据存储在容量为1  024GB的外置硬盘上,将需要10万块外置硬盘。如果把这些硬盘摞起来,大约会有1600米高。

关键词搜索

所谓关键词搜索,就是当你使用谷歌搜索时,搜索引擎获取你要查询的关键词(你在搜索栏中键入的文本),然后从索引中为你查找出最相关的网页。

谷歌搜索具体会怎么做呢?最简单的方法是,查找关键词在哪里出现,就像按“Ctrl+F”或“Cmd+F”(对应苹果公司的Mac系列电脑)组合键从一个巨大的Word文档中查找某个单词一样。事实上,20世纪90年代的搜索引擎就是这样工作的,它们会在索引中搜索你要查询的关键词,并且显示那些出现关键词最多的网页。这些网页被称为具有关键词密度的网页。

但是这种做法很容易导致荒唐的搜索结果。例如,在搜索“糖果士力架”时,你可以想象到士力架官方网站“snickers”应是被列在第一位的搜索结果。但是,如果搜索引擎只是计算“士力架士力架士力架士力架”出现在网页上的次数,那么任何人都可以创建一个只显示“士力架”的网站,然后,该网站在搜索结果中的排名就蹿到了顶部。显然,这种简单的关键词密度搜索的方法是不可行的。

网页排名

谷歌搜索引擎的核心创新技术并不是关键词密度搜索,而是一种名为“网页排名”的算法,它的创始人拉里·佩奇和谢尔盖·布林在1998年的博士论文中发表了他们所创建的这个算法。佩奇和布林注意到,可以通过查看链接到一个网页的重要网页来评估这个网页的重要性。就像在派对上,当某个人的周围都是很受欢迎的人,你可以断定这个人也很受欢迎。网页排名系统根据链接到该网页的其他网页的网页排名评分给每个网页打分,而这些网页的得分取决于链接到它们的网页,以此类推。这是用线性代数来计算的。

例如,如果我们做一个关于亚伯拉罕·林肯的新网页,最初,这个网页的网页排名很靠后。如果某个不知名的博客给我们的网页添加了链接,我们网页的网页排名就会得到小幅提升。网页排名更关注的是链接的质量而不是数量,因此,即使有几十个不知名的博客链接到我们的网页,我们网页的排名也不会得到太多的提升。但是如果《纽约时报》的一篇文章(其网页排名可能很高)链接到我们的网页,我们网页的网页排名将获得巨大提升。

一旦谷歌搜索引擎在索引中找到了所有提到你搜索信息的网页,它将使用几个标准对它们进行排序,其中包括前面提到过的网页排名。谷歌还有很多其他排序标准:它会考虑网页最近的更新时间;忽略看起来像垃圾网站的网站,如我们在前面提到的只显示“士力架士力架士力架士力架”的网站;考虑你所在的位置,例如,如果你在美国搜索“Football”,谷歌会返回美国职业橄榄球大联盟,但如果在英国搜索,谷歌返回的则是英超联赛。

与谷歌“斗智斗勇”

然而,网页排名也有缺陷。为了提高网页排名,垃圾网站的制造者会创建包含大量不相关链接的所谓的“链接农场”,就像垃圾网站滥用关键词密度(与“士力架士力架士力架士力架”网站类似)一样。如果某个网站的所有者想要提高网页排名,可以付钱给链接农场,让链接农场包含他们网页的链接,这将人为地提高其网页的网页排名。不过,谷歌如今在捕捉和过滤链接农场方面已经做得相当好了。

还有一些更主流的与谷歌博弈的方式。为了帮助网站的所有者破解谷歌的搜索算法,并且确保他们的网站出现在谷歌搜索结果的靠前位置,一个名为搜索引擎优化(简称SEO)的行业应运而生。SEO最基本的形式是,让更多的网页链接到你的网页。SEO的技术含量更高。例如,它可在网页“名称”标签和“标题”标签中放入适当的关键词,或者让站点的所有网页相互链接。

不过,谷歌公司的搜索算法也一直在变化。据悉,谷歌公司每年都会推出500次以上的小更新。偶尔还有重大更新。在每次更新之后,SEO专家都会想方设法利用算法的变化来重新取得“先手”。例如,谷歌公司在2018年改变了算法,转而青睐那些在移动设备上更快加载的网站,这使得SEO的专家们都转而建议网站所有者使用名为“移动网页加速”(简称AMP)的谷歌工具制作精简版的网页内容,以提升网页排名。