什麼是BERT? -白板星期五

[ad_1]

關於新的Google演算法更新有很多宣傳和錯誤信息。 BERT到底是什麼?它如何工作?為什麼它對我們作為SEO的工作有影響?加入我們自己的機器學習和自然語言處理專家小甜甜布蘭妮·穆勒(Britney Muller),她將確切地解釋BERT是什麼以及它對搜索行業的意義。

單擊上方的白板圖像,在新選項卡中打開高解析度版本!

視頻轉錄

嘿,莫茲迷。歡迎使用《星期五白板》。今天,我們談論著BERT的所有事情,而我為能夠真正為所有人分解這一點感到非常興奮。我沒有聲稱自己是BERT專家。我剛剛做了很多研究。我已經能夠採訪該領域的一些專家,我的目標是設法使這些信息更容易理解。

目前,您無法對BERT進行優化,因此行業中發生了很多混亂。儘管這是絕對正確的,但您不能,您只需要為用戶編寫非常好的內容,我仍然認為我們很多人都進入了這個領域,因為我們天生就好奇。如果您想了解更多有關BERT的知識,並希望能夠更好地向客戶解釋它,或者希望圍繞BERT進行更好的對話,那麼我希望您喜歡這個視頻。如果沒有,這也不適合您,那也很好。

請注意:不要過度宣傳BERT!

我很高興能跳進去。我要說的第一件事是我能夠坐下來 艾莉森·艾丁格,他是自然語言處理研究人員。她是芝加哥大學的教授。當我與她交談時,主要要講的是不要過度宣傳BERT是非常非常重要的。現在發生了很多騷動,但與人類理解語言和上下文的方式仍然相去甚遠。因此,我想記住這一點很重要,我們並沒有過分強調此模型可以做什麼,但是它仍然非常令人興奮,並且在NLP和機器學習中是非常重要的時刻。事不宜遲,讓我們直接進入。

BERT來自哪裡?

我想為大家提供BERT來自何處以及去向的更廣闊背景。我認為很多時候這些公告都是轟炸行業的炸彈,本質上是一系列電影中的靜止畫面,我們在電影前後都沒有得到完整的報道。我們只得到一個靜止幀。因此,我們收到了BERT公告,但讓我們回到過去。

自然語言處理

傳統上,計算機無法理解語言。它們可以存儲文本,我們可以輸入文本,但是對於計算機而言,理解語言始終異常困難。自然語言處理(NLP)隨之而來,研究人員正在該領域開發特定的模型來解決各種類型的語言理解問題。有兩個示例稱為實體識別,分類。我們看到情緒,回答問題。傳統上,所有這些東西都是由單個NLP型號出售的,因此看起來有點像您的廚房。

如果您考慮一下廚房中使用的餐具之類的單個模型,它們都具有非常出色的特定任務。但是當BERT出現時,它簡直就是廚房用具的全部。經過微調後,它確實是一種可以很好地完成十多種或十一種自然語言處理解決方案的廚房用具。這是該領域令人興奮的差異。這就是人們對此感到非常興奮的原因,因為他們不再擁有所有這些一次性的東西。他們可以使用BERT來解決所有這些問題,這很有意義,因為Google會將其納入他們的演算法中。超級,超級刺激。

BERT往哪裡去?

標題在哪裡?這要去哪裡艾莉森說,

「我認為我們將在相同的軌道上發展一段時間,以構建更大,更好的BERT變體,這些變體將以BERT強大的方式變得更強大,並且可能具有相同的基本局限性。」

已經有大量的BERT不同版本,我們將繼續看到越來越多的版本。看到這個空間的方向將會很有趣。

BERT如何變得如此聰明?

我們如何看待BERT如何變得如此聰明的非常簡單的看法?我覺得這東西很有趣。 Google能夠做到這一點真是令人驚訝。 Google將Wikipedia文本和大量資金用於計算能力的TPU,它們將它們組裝在V3吊艙中,如此龐大的計算機系統可以為這些模型提供動力。他們使用了無監督的神經網路。關於它如何學習以及如何變得更聰明的有趣之處在於它需要任意長度的文本,這很好,因為語言在我們說的方式上,在文本的長度上是相當任意的,並將其轉錄為向量。

它將需要一段文本並將其編碼為向量,該向量是固定的數字字元串,有助於將其轉換為機器。這發生在一個我們甚至無法想像的非常荒誕的三維空間中。但是它的作用是將上下文和同一區域中我們語言中的不同事物放在一起。與Word2vec相似,它使用了稱為屏蔽的技巧。

因此,它將採用不同的句子進行訓練,並且將掩蓋一個單詞。它使用此雙向模型查看其前後的單詞,以預測被屏蔽的單詞是什麼。它會一遍又一遍地執行此操作,直到功能極其強大為止。然後可以對其進行微調以完成所有這些自然語言處理任務。真的,在這個空間里真是令人興奮,很有趣。

簡而言之,BERT是第一個深度雙向的。這意味著僅查看實體和上下文前後的單詞,無監督的語言表示形式,在Wikipedia上進行過預培訓。因此,可以以各種方式使用的是這個非常漂亮的經過預先訓練的模型。

BERT不能做什麼?

艾莉森·艾丁格(Allyson Ettinger)撰寫了一篇非常出色的研究論文,名為 BERT不能做什麼。您可以使用一個Bitly鏈接直接轉到該鏈接。她的研究最令人驚訝的收穫是否定診斷領域,這意味著BERT不太擅長理解否定。

例如,用羅賓輸入的是a…它預測的鳥是對的,那很好。但是當羅賓進入時並沒有……它也預示著鳥。因此,在BERT沒有看到否定示例或上下文的情況下,仍然很難理解這一點。還有很多更有趣的外賣。我強烈建議您檢查一下,真的很好。

您如何優化BERT? (你不能!)

最後,您如何優化BERT?再一次,你不能。通過此更新來改善您的網站的唯一方法是為用戶編寫非常棒的內容並實現他們所尋求的意圖。因此,您不能,但是我只想提一件事,因為老實說我無法從中解脫,是YouTube視頻中的Jeff Dean,我們會鏈接到它,這是一個 Jeff Dean的主題演講 在談到BERT時,他進入了自然問題和自然問題理解。對我來說,最大的收穫就是這個例子,好吧,假設有人問了一個問題,您可以在飛行模式下撥打和接聽電話嗎? Google的自然語言翻譯層正在嘗試理解所有這些文本的文本塊。這是很多話。這有點技術性,很難理解。

通過這些層,利用諸如BERT之類的東西,他們就無法從所有這種非常複雜,冗長而令人困惑的語言中回答任何問題。它在我們的空間中確實非常強大。考慮諸如特色片段之類的東西;考慮諸如一般SERP功能之類的事情。我的意思是,這可能會開始對我們的領域產生巨大影響。因此,我認為重要的是要對所有事情的前進方向以及該領域的發展狀況進行一番脈動。

我真的希望您喜歡這個版本的Whiteboard Friday。如果您對下面的問題或意見有任何疑問,請告訴我,我希望下次再見。非常感謝。

視頻轉錄 通過 Speechpad.com

相關文章