對於 DuckDuckGo 調整虛假消息排行的一些雜想

作者:   發佈於:   #MakeLoveNotWar #StandWithUkraine

在東京時區 3 月 10 日,duckduckgo 創辦人 @yegg 在推特上公告了這樣的一篇推文

Like so many others I am sickened by Russia’s invasion of Ukraine and the gigantic humanitarian crisis it continues to create. #StandWithUkraine️

At DuckDuckGo, we've been rolling out search updates that down-rank sites associated with Russian disinformation.

也就是說接下來在 DuckDuckGo 的搜尋結果裡面,有些特定網站 ———— 那些跟俄羅斯虛假消息相關的網站 ———— 會直接被拉到搜尋排行的後方去。

就個人模糊的記憶來說,這可能是 DuckDuckGo 首度對搜尋排行進行調整,至少是首次有公開說的。(有沒有非公開的我就不得而知了。)

以搜尋引擎的維護工作而言,手動調整排行並不是一件簡單的事情,或者說調整本身不難,但是其成效是好是壞,有不少情形都是未知的。如果仍希望搜尋結果對使用者是「有幫助的」的話,任意依照公司員工喜好來調整排行,是很有可能會導致某些搜尋結果的資訊量減少,變成對使用者沒有幫助。從而漸漸地流失使用者。

如果快速瀏覽以下這世間對這件公告的回應,不難得出以下幾點簡單的觀察:

  1. 失望。#DuckDucoGone。立刻改用 [其他] 搜尋引擎!
  2. DuckDuckGo 憑什麼決定那些消息是虛假的?
  3. 使用者有能力自行判斷,搜尋引擎作為「工具」,無需多此一舉!
  4. 「DuckDuckGo 收了 CIA 的錢嗎?」
  5. DuckDuckGo 失去了中立性,也不再不偏頗!

..... 諸如此類的批判真是源源不絕。

作為一個長期使用者,也作為一個曾經實做與維護過搜尋引擎的程式設計師,就結論而言,我認為這種「排行調整」是不可免的,甚至大部分時候是「隱含,與搜尋核心密不可分的」。

不過,在對 DuckDuckGo 這舉動進行評論之前,不妨先來理解一下幾件基本的事情:

  1. DuckDuckGo 的主要運作原理是「搜尋代理」,雖然也有自家網頁爬蟲 DuckDuckBot,但搜尋結果的主要來源是 Bing 與其他數百家後端搜尋引擎
  2. DuckDuckGo 的主要賣點是「隱私」。以代理人的角色,把使用者的真身藏起來,不讓後端得知。
  3. 各後端搜尋引擎都各有各的偏頗方向,並且偏頗程度多半不為外人所知。或許一定程度上營運者自己都不一定知道。
  4. 不少搜尋引擎要把排行榜做到很「準」的方法,很大程度上是透過完整的搜尋紀錄來對搜尋結果進行微調來實做出來的。也就是所謂的「客製化」結果。兩個不同使用者就算搜尋了同樣的關鍵字,其結果也不一定會是一模一樣。可能會是同一集合,但前後順序不同。
  5. 「排行的調整」基本上是就是等價於維護搜尋結果的品質。只是有不少調整方式是對一群使用者有益,但對另一群有害。因此每次微調基本上要追求的是整體傷害的最小化,以及整體受益的最大化。

而 DuckDuckGo 實做其「隱私」這項賣點的方式正是成為「代理人」這個身份,同時自身又不去對使用者的搜尋行為做記錄。簡單的說就是,如果你每次要搜尋東西時,用的都是小明的電腦去 Bing/Google 搜尋,那麼 Bing/Google 再怎麼會追蹤會記錄,它所能觀察到的「使用者」其實是「你 + 小明」的一個綜合體,但它不見得有辦法能細分出那是兩個個體。那如果全世界有一億人都是透過小明的電腦去 Bing/Google 搜尋,那在 Bing/Google 那裡的紀錄看起來,就會統合成一份一億人的綜合體,其搜尋行為或許基本上就是個世間的「平均行為」,既無法細分,亦夠有代表性了。

也就是說,如果有什麼專門散佈虛假消息的網站混上了搜尋榜前十位。對於有充分利用使用者搜尋紀錄來做排行榜的客製化的大企業,被影響的使用者群可能只是其全體的一部分,不太可能是全體。搜尋紀錄與虛假消息網站較類似的那群使用者,或許就會常常看到那網站出現在搜尋結果當中,同時也會有某群使用者基本上看不到那虛假網站的出現。

但對於 DuckDuckGo 或各家主打隱私的搜尋代理人來說,虛假消息網站所造成的傷害範圍就會較廣。畢竟少了能針對目前使用者去做排行榜微調的條件(為了強調隱私這個賣點而不留任何紀錄),也就是說其下所有的使用者都會受到類似程度的影響。

當然,以虛假消息基本上是類似「不看也罷的垃圾訊息」的這個性質而言,所有做搜尋引擎的企業都不會希望其網頁爬蟲去爬到這類內容。如果每天爬回來的內容都是低品質的,那自然無法提供高品質的搜尋結果出來。因此所有有在維護搜尋品質的企業,應該都花了不少時間在「清理垃圾」。

那麼這個所謂「清理垃圾」的行為,算不算是一種「偏頗」呢,或者說「不中立」呢?

相比好幾年前大家都很容易在搜尋時會不小心點到所謂的「內容農場」網站,最近內容農場在搜尋結果裡面的出現頻率,確實有在下降。雖然其所記載的文字不見得都是虛假的,但這種有時虛實參半,有時在段落間充滿了無關的灌水文字,然後整頁都是廣告的這種網站,平均來說應該沒有人覺得那種網站「品質很好」吧?還有一類是冒名頂替的釣魚網站那就更不用說了,現在所有在維護網際網路搜尋引擎的企業必定都是花了很多力氣在排除這種釣魚網站的。

雖然搜尋結果的變化也有可能是由於網站自然消滅或新生所構成的自然現象,但更大一部分也是由於近年 Google 不斷在調整內容農場網站的排名(或排除),以及建構了不少明文規則。或許一方面來說,我們可以指責 Google 利用其特殊地位將一種「產業」給抹殺了,但另一方面而言,我們也可以對這種維護網際網路整體品質的作為給予一些讚賞。

或許有不少人很不贊同這樣的做法,認為這有失公平,並且不中立,內容農場也不全都是粗製濫造云云。但我得說:如果內容農場類型網站真的對世界有益,那就再用 AI 或剪下貼上做幾千幾萬個出來吧,然後再來看看是否全人類都能因此活得健康快樂了哦。(嗯,這是我個人偏頗的見解。)

也就是說,就算 DuckDuckGo 不對排行做任何調整,其所使用的後端搜尋引擎或許也已經做了某種調整。那還是在 DuckDuckGo 可以控制的範圍之外。

所以當 DuckDuckGo 主事者出來公告說要將關於俄羅斯方面的虛假消息的排名給降低時,對我而言那就只是他們明確地將他們的「垃圾處理規則」的其中一條給公告了出來而已。

但確實,當他們說要這麼做之後,這個事實查核的過程及判斷是否夠公道,就是件必須讓各界來注意的事情了。以及這個調整是否有退場機制、是否有開源能讓人參與的過程、是否對整個使用者群體有益、效果如何評估等等事項,都是應當關注的題目。

另一方面,考慮到目前烏俄戰爭仍在進行,如果有其他搜尋引擎公司這時出來說:「我們保持中立,不修改排行!所有俄羅斯方面的虛假消息在我們這裡都找得到!」的話,那還真是奇行種啊。(說不定有成為詭異行銷手法的潛力。)