增長黑客成長之路上,想比大家對A/B測試已經很熟悉了,但聽過、實踐過A/A測試的同學舉個手我看看,喏,還沒多少人。這篇文章我們就來講講A/A測試。

什麼是A/A測試?

A/A測試可以理解成對兩個相同版本進行的A/B測試。通常,這樣做的目的是為了驗證正在使用的工具運行試驗在統計上是公平的。在A/A測試中,如果測試正確進行,控制組和實驗組應該沒有任何區別。

在沒做A/A測試之前,你可能什麼都不知道,這裏的邏輯是這樣的:如果樣本的A/A測試結果達到統計顯著,那麼A/B測試工具或測試方案就是不可信的。

如果說A/B測試用來測試比較幾個方案的優劣,那麼A/A測試就是驗證A/B測試及工具置信度的有效方式。

為什麼進行A/A測試?

既然A/A測試的兩個版本變量沒有任何變化,為什麼還要花時間精力來做?

商業活動中,通常我們使用一切數據工具的目的,無外乎:用測量推動決策優化,同時用正確的決策獲取比競爭對手更大的市場。可能通過數據能獲取的決策信息點有很多,那麼通過A/A測試來確保你得到的數據能用來自信地作出決定,減小決策失誤。

通常情況下我們做A/A測試的目的有下面幾個:

  1. 保證精確的流量分配,換句話說,驗證隨機性實際上是通過確保每次試驗產生的計數與統計範圍相似
  2. 識別假陽性結果的頻率(假陽性結果也可以理解為測試結果中的虛假繁榮,有相當的誤導性)
  3. 確定方差“泡沫”幫我們更好的理解其他測試結果

關於假陽性

A/A測試能被用來理解假陽性結果的頻率。簡單講,如果你在測試中採用95%置信水平,那麼20次結果可能會出現1次假陽性結果。這時候通過A/A測試,就能驗證轉化率的顯著差異,比如,你運行20次A/A測試,其中有2次結果明顯不同,這意味着假陽性的比例可能高於5%。

方差“泡沫”

A/A測試能幫助確定轉化率中的方差“泡沫”,最小化對未來測試的影響。除了技術上的有效性,A/A測試能讓“泡沫”在可接受範圍內。

比如,如果A/A測試中的泡沫是0.1%,測試轉化率是3%,那麼你可以接受的範圍就是2.9%-3.1%。如果你看到0.1%的提升,那麼你就知道這樣的結果是沒有意義的。

A/A測試的時候,你不知道什麼時候新變量和默認變量的轉化率差別結果能達到統計顯著。因此,A/A測試中的任何錯誤或置信度不應被用來作為未來測試的基準,因為A/A測試中本不應有轉化率的明顯差異。

需要注意的是,有可能只是因為隨機性,導致A/A測試的兩個試驗結果有所不同,而不是工具或測試方案本身的問題。當然,隨着樣本量的增大,這種差別會逐漸降低。這是因為,小樣本下的結果是不可信的,小樣本從總體上意味着可能存在分配不均的數據段。要消除這點,就需要A/A測試運行足夠長的時間,以及有足夠的樣本規模。

計算測試持續時間

測試持續時間是兩個因素的函數:

  • 達到一個可接受的樣本大小所需的時間
  • 變量之間的不同表現差異大小

如果一個變量引起了50%的變化,測試就不必運行很長時間。這種情況,即使是在小樣本下,也可以忽略統計誤差。

如何設置A/A測試?

A/A測試好在不必做任何創造性的或研发上的工作。當設置A/B測試時,你需要在A/B測試軟件上編程來改變、隱藏或刪除頁面的某些部分,對A/A測試來說這些都是不需要的。

A/A測試面臨的挑戰是正確的選擇運行測試的頁面,通常做A/A測試的頁面都應該有兩個特點:

  1. 相對較高的流量。網頁流量越多,越早看到變量的對比。
  2. 訪客可以從頁面購買或註冊。我們希望根據最終目標來校驗我們的A/B測試工具。

出於這些原因,通常我們會在網站主頁上運行A/A測試。

運行A/A測試的成本

運行A/A測試的唯一成本:機會成本。有的人寧願把A/A測試上投入的時間和流量用來多做幾次A/B測試也不是沒有道理的。

應該考慮運行A/A測試的唯一種情況:

1.你剛安裝了一個新的測試工具或更改了測試工具設置。

2.你發現了A/B測試與數據分析工具結果之間存在差異。

參考文章:

  1. blog.analytics-toolkit.com/2014/aa-aab-aabb-tests-cro/
  2. blogs.oracle.com/marketingcloud/optimization-shorts:-aa-testing
  3. www.optimizely.com/optimization-glossary/aa-testing/

 

本文由 Zoran @吆喝科技(微信:appadhoc)授權發佈於人人都是產品經理,未經作者許可,禁止轉載。