[ad_1]
最具发人深省的演讲之一 TechSEO助推器 是NTENT首席技术官Ricardo Baeza-Yates博士的主题演讲。标题为“搜索和推荐系统中的偏见”。
扰流板警报:偏差严重;根据用户意图交付和货币化最相关的内容是一件好事。
现在,在2016年6月加入NTENT之前,Baeza-Yates博士在Yahoo Labs担任了10年研究副总裁,最终晋升为首席研究科学家。
他是ACM和IEEE院士,拥有500多种出版物,数以万计的引文,多项奖项和多项专利。
他还与人合着了几本书,其中包括“现代信息检索”,这是最广泛使用的搜索教科书。
因此,他的演讲并非挥舞无礼,无根据或耸人听闻。这是专家对影响搜索和推荐系统的大多数偏见进行的仔细检查。
这包括数据,算法和用户交互方面的偏差-重点放在与相关性反馈循环(例如排名)相关的偏差上。
Baeza-Yates博士没有指责Google,YouTube和亚马逊存在偏见,并敦促公正,公正和无偏见的政客采取严厉行动,而是有条不紊地涵盖了已知的技术,以缓解大多数偏见-包括网站搜索和推荐系统中的偏见。这可能会使电子商务企业损失大量金钱。
什么是偏见?
Baeza-Yates博士首先定义了三种不同类型的偏见:
-
统计的:与先前的分布(可能未知)的重大系统偏差。
-
文化:我们一生中获得的解释和判断现象。
-
认知:偏离规范或理性的系统模式。
现在,大多数搜索和推荐系统的批评家都将注意力集中在文化偏见上,包括:性别,种族,性别,年龄,宗教,社会,语言,地理,政治,教育,经济和技术。
但是,许多人将样本的结果推断到整个人群中,却没有考虑统计偏差,包括收集过程,采样过程,有效性,完整性,噪音或垃圾邮件。
另外,在测量偏见时存在认知偏见。
例如,一种认知偏见是确认偏见,它是一种以肯定一个人先前的信念或假设的方式来搜索,解释,偏爱和回忆信息的趋势。
那么,这对搜索和推荐系统有何影响?
好吧,大多数Web系统都通过使用隐式用户反馈进行了优化。但是,用户数据在一定程度上受到这些系统所做选择的偏见。
例如,我们只能单击显示给我们的东西。
由于这些系统通常基于机器学习,因此它们会学习加强自己的偏见,产生自我实现的预言和/或次优解决方案。
例如,用户的个性化设置和过滤器气泡可以为推荐系统创建回声室。
此外,这些系统有时会相互竞争。因此,一个系统的改善(例如,用户体验)可能仅仅是使用不同(甚至反相关)优化功能的另一个系统的退化(例如,获利)。
什么是公平的?
Baeza-Yates博士还解决了“什么是公平的?”这个问题。
这是一个非技术性的问题。
他使用三个孩子观看足球比赛的图像来说明两者之间的区别:
-
平等,假设每个人都从站在相同高度的盒子中受益。这就是平等待遇的概念。
-
公平,认为每个孩子都应该得到他们需要在篱笆上看到的盒子。这就是“平权行动”的概念。
-
正义,这使所有三个孩子都可以不用盒子就能看到游戏,因为解决了不平等的原因(木栅栏)。这是消除系统性障碍的概念。
因此,搜索和推荐系统的用户需要认识到消除偏差不仅仅涉及使工程师调整其算法。它还要求用户注意自己的文化和认知偏见。
而且这还意味着搜索和推荐系统不需要完美,它们只需要比不知道自己偏见的人更好。
偏见无处不在!
然后,Baeza-Yates博士分享了一些研究,发现我们大多数人都不会想到的地方存在偏见。如果他对产生点击诱饵感兴趣,那么这些发现将成为头条新闻。
但是,他演讲的大部分内容都可以在他的文章中找到,“网上偏见”,于2018年6月在ACM通讯中发表。
并且,在他的主题演讲中,它们作为支持他分析的其他案例研究。
例如,Baeza-Yates,Castillo&López的一项研究于2005年在《网络度量》上发表,发现链接中存在经济偏见。 (特别是,它发现与西班牙有更多经济联系的国家与西班牙的网站有更多的链接。)
2012年在Language Connect博客上发表的另一项研究发现Web内容存在语言偏见。 (尽管大约27%的互联网用户说英语,但排名前100万的网站中55.4%的网络内容是英语。)
Baeza-Yates和Saez Trumper于2015年在ACM超文本中发表的第三项研究发现,用户生成的内容存在活动偏差。 (忘了“人群的智慧。”在2008年的一次小样本调查中,只有7%的Facebook用户生成了50%的帖子,到2013年,亚马逊用户的4%生成了50%的电影评论,Twitter用户的2%在2009年产生了50%的推文,而只有0.04%的维基百科编辑者产生了50%的英文推文。
搜索和推荐系统中的偏见如何影响您?
现在,这项研究中的某些研究比污垢还古老。因此,如果您使用站点搜索和推荐系统,那么偏见对您今天有何影响?
好吧,Baeza-Yates博士提供了几个真实的例子。
首先,他研究了许多站点搜索和推荐系统中的“人气偏见”。
那是什么?
好吧,如果您只在网站上推荐一些最受欢迎的商品,那么很可能会削弱尚未有时间成为热门商品的新商品的销售-这相当于在电子商务中吃了玉米籽。
或者,如果您有其他不受欢迎的其他待售商品的长尾销售,但总体上产生了您的大部分收入,那么在网站搜索和推荐系统中自我实现的“人气偏见”预言将使您一家规模较小的公司,所售商品少得多。
Baeza-Yates博士说,存在针对“大众化偏见”的部分解决方案,尤其是在使用个性化设置的系统中。其中包括将您今天要展示的一个或多个热门商品替换为其他商品,以提高所展示内容的多样性,新颖性和偶然性。
但是,无论您做什么,都希望通过赋予长尾巴来避免回声腔。并且您要避免“富人致富,穷人致贫”的综合症。
接下来,他研究了网络交互尤其是电子商务方面的偏见。数据和算法偏差包括:
- 展示偏见(即哪些物品可以曝光)。
- 位置偏差(哪些项目显示在页面的右上角)。
- 社会偏见(其中包括四星级或五星级评论)。
- 以及其他互动偏见(即,只有通过滚动才能看到哪些项目)。
但是,等等,还有更多!也存在自我选择偏见,包括:
- 排名偏差(用户认为排名较高的商品是更好的选择)。
- 点击偏好(在某项目上的点击被视为积极的用户反馈)。
- 鼠标移动偏差(将鼠标悬停在某个项目上被认为是积极的用户反馈)。
现在,Baeza-Yates博士在主题演讲中以亚马逊为例,但这种偏见却在其他网站上出现。
不过,亚马逊现在提供了许多 自助广告解决方案,包括赞助商产品,赞助商品牌,赞助商展示广告(处于测试版),商店,展示广告,视频广告,自定义广告或 Amazon DSP解决方案。
因此,考虑到他们的搜索和推荐系统中的所有偏见,您是否应该在亚马逊上做广告?
好吧,即使Baeza-Yates博士没有解决这个主题,您也应该测试和衡量各种关键字, 定位选项 如果您确实开始在亚马逊上投放广告,以确保您在正确的时机上找到正确的信息,并在正确的玉米迷宫中找到合适的人。
重要要点
Baeza-Yates博士以两个要点结束了他的主题演讲。
首先是针对搜索和推荐系统的设计者。他们涵盖:
-
数据
- 在可能/需要时分析已知和未知的偏差,偏差或缓解。
- 针对问题的困难/稀疏区域收集更多数据。
- 删除与有害偏见直接/间接相关的属性。
-
相互作用
- 确保用户始终意识到偏差。
- 给用户更多控制权。
-
设计与实施
- 让专家/同事/用户对流程的每个步骤都提出质疑。
-
评价
- 你不要骗自己了!
在TechSEO Boost的观众中,他分享了以下信息:
- 系统是我们的一面镜子–好的,坏的和丑陋的。
- Web会放大所有内容,但始终会留下痕迹。
- 我们需要意识到自己的偏见。
- 我们必须意识到这些偏见,并加以制止,以制止恶性的偏见周期。
- 有很多开放(研究)问题!
然后,Baeza-Yates博士打趣道:“有偏见吗?”
图片积分
后期图像1:作者摄于2019年12月
后期图片#2-3:Ricardo Baeza-Yates博士