[ad_1]
最具發人深省的演講之一 TechSEO助推器 是NTENT首席技術官Ricardo Baeza-Yates博士的主題演講。標題為「搜索和推薦系統中的偏見」。
擾流板警報:偏差嚴重;根據用戶意圖交付和貨幣化最相關的內容是一件好事。
現在,在2016年6月加入NTENT之前,Baeza-Yates博士在Yahoo Labs擔任了10年研究副總裁,最終晉陞為首席研究科學家。
他是ACM和IEEE院士,擁有500多種出版物,數以萬計的引文,多項獎項和多項專利。
他還與人合著了幾本書,其中包括「現代信息檢索」,這是最廣泛使用的搜索教科書。
因此,他的演講並非揮舞無禮,無根據或聳人聽聞。這是專家對影響搜索和推薦系統的大多數偏見進行的仔細檢查。
這包括數據,演算法和用戶交互方面的偏差-重點放在與相關性反饋循環(例如排名)相關的偏差上。
Baeza-Yates博士沒有指責Google,YouTube和亞馬遜存在偏見,並敦促公正,公正和無偏見的政客採取嚴厲行動,而是有條不紊地涵蓋了已知的技術,以緩解大多數偏見-包括網站搜索和推薦系統中的偏見。這可能會使電子商務企業損失大量金錢。
什麼是偏見?
Baeza-Yates博士首先定義了三種不同類型的偏見:
-
統計的:與先前的分布(可能未知)的重大系統偏差。
-
文化:我們一生中獲得的解釋和判斷現象。
-
認知:偏離規範或理性的系統模式。
現在,大多數搜索和推薦系統的批評家都將注意力集中在文化偏見上,包括:性別,種族,性別,年齡,宗教,社會,語言,地理,政治,教育,經濟和技術。
但是,許多人將樣本的結果推斷到整個人群中,卻沒有考慮統計偏差,包括收集過程,採樣過程,有效性,完整性,噪音或垃圾郵件。
另外,在測量偏見時存在認知偏見。
例如,一種認知偏見是確認偏見,它是一種以肯定一個人先前的信念或假設的方式來搜索,解釋,偏愛和回憶信息的趨勢。
那麼,這對搜索和推薦系統有何影響?
好吧,大多數Web系統都通過使用隱式用戶反饋進行了優化。但是,用戶數據在一定程度上受到這些系統所做選擇的偏見。
例如,我們只能單擊顯示給我們的東西。
由於這些系統通常基於機器學習,因此它們會學習加強自己的偏見,產生自我實現的預言和/或次優解決方案。
例如,用戶的個性化設置和過濾器氣泡可以為推薦系統創建回聲室。
此外,這些系統有時會相互競爭。因此,一個系統的改善(例如,用戶體驗)可能僅僅是使用不同(甚至反相關)優化功能的另一個系統的退化(例如,獲利)。
什麼是公平的?
Baeza-Yates博士還解決了「什麼是公平的?」這個問題。
這是一個非技術性的問題。
他使用三個孩子觀看足球比賽的圖像來說明兩者之間的區別:
-
平等,假設每個人都從站在相同高度的盒子中受益。這就是平等待遇的概念。
-
公平,認為每個孩子都應該得到他們需要在籬笆上看到的盒子。這就是「平權行動」的概念。
-
正義,這使所有三個孩子都可以不用盒子就能看到遊戲,因為解決了不平等的原因(木柵欄)。這是消除系統性障礙的概念。
因此,搜索和推薦系統的用戶需要認識到消除偏差不僅僅涉及使工程師調整其演算法。它還要求用戶注意自己的文化和認知偏見。
而且這還意味著搜索和推薦系統不需要完美,它們只需要比不知道自己偏見的人更好。
偏見無處不在!
然後,Baeza-Yates博士分享了一些研究,發現我們大多數人都不會想到的地方存在偏見。如果他對產生點擊誘餌感興趣,那麼這些發現將成為頭條新聞。
但是,他演講的大部分內容都可以在他的文章中找到,「網上偏見」,於2018年6月在ACM通訊中發表。
並且,在他的主題演講中,它們作為支持他分析的其他案例研究。
例如,Baeza-Yates,Castillo&López的一項研究於2005年在《網路度量》上發表,發現鏈接中存在經濟偏見。 (特別是,它發現與西班牙有更多經濟聯繫的國家與西班牙的網站有更多的鏈接。)
2012年在Language Connect博客上發表的另一項研究發現Web內容存在語言偏見。 (儘管大約27%的互聯網用戶說英語,但排名前100萬的網站中55.4%的網路內容是英語。)
Baeza-Yates和Saez Trumper於2015年在ACM超文本中發表的第三項研究發現,用戶生成的內容存在活動偏差。 (忘了「人群的智慧。」在2008年的一次小樣本調查中,只有7%的Facebook用戶生成了50%的帖子,到2013年,亞馬遜用戶的4%生成了50%的電影評論,Twitter用戶的2%在2009年產生了50%的推文,而只有0.04%的維基百科編輯者產生了50%的英文推文。
搜索和推薦系統中的偏見如何影響您?
現在,這項研究中的某些研究比污垢還古老。因此,如果您使用站點搜索和推薦系統,那麼偏見對您今天有何影響?
好吧,Baeza-Yates博士提供了幾個真實的例子。
首先,他研究了許多站點搜索和推薦系統中的「人氣偏見」。
那是什麼?
好吧,如果您只在網站上推薦一些最受歡迎的商品,那麼很可能會削弱尚未有時間成為熱門商品的新商品的銷售-這相當於在電子商務中吃了玉米籽。
或者,如果您有其他不受歡迎的其他待售商品的長尾銷售,但總體上產生了您的大部分收入,那麼在網站搜索和推薦系統中自我實現的「人氣偏見」預言將使您一家規模較小的公司,所售商品少得多。
Baeza-Yates博士說,存在針對「大眾化偏見」的部分解決方案,尤其是在使用個性化設置的系統中。其中包括將您今天要展示的一個或多個熱門商品替換為其他商品,以提高所展示內容的多樣性,新穎性和偶然性。
但是,無論您做什麼,都希望通過賦予長尾巴來避免回聲腔。並且您要避免「富人致富,窮人致貧」的綜合症。
接下來,他研究了網路交互尤其是電子商務方面的偏見。數據和演算法偏差包括:
- 展示偏見(即哪些物品可以曝光)。
- 位置偏差(哪些項目顯示在頁面的右上角)。
- 社會偏見(其中包括四星級或五星級評論)。
- 以及其他互動偏見(即,只有通過滾動才能看到哪些項目)。
但是,等等,還有更多!也存在自我選擇偏見,包括:
- 排名偏差(用戶認為排名較高的商品是更好的選擇)。
- 點擊偏好(在某項目上的點擊被視為積極的用戶反饋)。
- 滑鼠移動偏差(將滑鼠懸停在某個項目上被認為是積極的用戶反饋)。
現在,Baeza-Yates博士在主題演講中以亞馬遜為例,但這種偏見卻在其他網站上出現。
不過,亞馬遜現在提供了許多 自助廣告解決方案,包括贊助商產品,贊助商品牌,贊助商展示廣告(處於測試版),商店,展示廣告,視頻廣告,自定義廣告或 Amazon DSP解決方案。
因此,考慮到他們的搜索和推薦系統中的所有偏見,您是否應該在亞馬遜上做廣告?
好吧,即使Baeza-Yates博士沒有解決這個主題,您也應該測試和衡量各種關鍵字, 定位選項 如果您確實開始在亞馬遜上投放廣告,以確保您在正確的時機上找到正確的信息,並在正確的玉米迷宮中找到合適的人。
重要要點
Baeza-Yates博士以兩個要點結束了他的主題演講。
首先是針對搜索和推薦系統的設計者。他們涵蓋:
-
數據
- 在可能/需要時分析已知和未知的偏差,偏差或緩解。
- 針對問題的困難/稀疏區域收集更多數據。
- 刪除與有害偏見直接/間接相關的屬性。
-
相互作用
- 確保用戶始終意識到偏差。
- 給用戶更多控制權。
-
設計與實施
- 讓專家/同事/用戶對流程的每個步驟都提出質疑。
-
評價
- 你不要騙自己了!
在TechSEO Boost的觀眾中,他分享了以下信息:
- 系統是我們的一面鏡子–好的,壞的和醜陋的。
- Web會放大所有內容,但始終會留下痕迹。
- 我們需要意識到自己的偏見。
- 我們必須意識到這些偏見,並加以制止,以制止惡性的偏見周期。
- 有很多開放(研究)問題!
然後,Baeza-Yates博士打趣道:「有偏見嗎?」
圖片積分
後期圖像1:作者攝於2019年12月
後期圖片#2-3:Ricardo Baeza-Yates博士