作業(yè)幫打造百萬級QPS常態(tài)化鏈路壓測診斷平臺

近期,TOP100全球案例研究峰會于北京國際會議中心召開。作業(yè)幫作為在線教育領域的典型案例成功入選,作業(yè)幫產研中臺組測試負責人王俊星出席會議,并于工具鏈建設分會場向與會嘉賓展示了作業(yè)幫百萬級QPS常態(tài)化鏈路壓測診斷平臺。

作業(yè)幫打造百萬級QPS常態(tài)化鏈路壓測診斷平臺

據了解,TOP100全球案例研究峰會是由msup公司主辦的全球頂級技術峰會,至今已成功舉辦9屆。本屆TOP100全球案例研究峰會邀請到Amazon、LinkedIn、IBM、百度、阿里、騰訊、字節(jié)跳動等130位一線技術大咖和業(yè)界專家,并由18位垂直專題領域的業(yè)界專家擔當聯席主席,負責專題案例評審、甄選,最終形成120件案例和18個專題。對于案例評選,TOP100更崇尚專業(yè)的力量和案例落地實踐,致力于讓聽眾有所收益,保證發(fā)布的案例學習榜單富有學習價值。

此次作業(yè)幫成功入選TOP100全球案例,是權威機構對作業(yè)幫作為領先在線教育平臺技術實力的肯定。王俊星表示,一直以來作業(yè)幫以全鏈路壓測模型的迭代升級賦能多樣化場景,保證線上千萬級并發(fā)直播上課的穩(wěn)定性。未來,作業(yè)幫將繼續(xù)融通各項技術及團隊能力,深耕壓測平臺架構優(yōu)化等基礎建設,保證作業(yè)幫線上服務穩(wěn)定性達到99.99%,實現穩(wěn)定的優(yōu)質教育資源供給,以輻射千萬孩子的學習征程,踐行教育使命和愿景。

千萬學生學習場景存在解構風險,壓測成必由之路

今年年初,在“停課不停學”的號召下,教育部鼓勵老師和學生“在家上學”。隨之而來的是通過互聯網音視頻與知識建立連接的方式在全國范圍內迅速普及,在線教育用戶規(guī)模呈井噴式增長,2020年被稱為“在線教育爆發(fā)之年”。

作為在線教育企業(yè)獨角獸之一,作業(yè)幫超級APP聚集效應在今年持續(xù)增強。易觀3月數據顯示,作業(yè)幫是中國唯一月活過億的教育類APP,在流量維度保持行業(yè)領先之勢。隨著用戶規(guī)模不斷增長,保證系統穩(wěn)定性、有效破解千萬學生學習場景的解構風險成為作業(yè)幫面臨的首要任務。

王俊星在會上表示,教育是容不得半點馬虎與妥協的,為滿足所有學生和家長對于從在線獲取知識的期待,我們必須保證系統的穩(wěn)定性。因此,作業(yè)幫開始發(fā)力系統穩(wěn)定性評估路徑的探索。在調研業(yè)界各大公司的穩(wěn)定性方案和開源壓測框架后,作業(yè)幫基于自身業(yè)務場景,選擇了自研全鏈路壓測模型的解決方案。據了解,該模型必須與作業(yè)幫業(yè)務場景高度契合才能有效保證系統的正常運行,既涵蓋雙師角色、學生交互復雜場景的復用、切換,同時必須將服務架構、私有協議的特殊性納入考量范圍。

然而,扣住在線教育的脈搏并非一朝之間。盡管參與人數眾多,每項操作均為精心設置,整個團隊視熬夜為常態(tài),但早期壓測仍未取得預期效果。“壓測結果與現實存在巨大偏差,團隊的心情只能用一句歌詞形容:多么痛的領悟,別再為壓測受苦。”對于初次嘗試的失敗,王俊星回憶道。

不同于傳統線下行業(yè)可以模擬出一個對等的生產環(huán)境,互聯網行業(yè)的壓測難以實現同級別的服務集群。數據構造不真實、場景臆想正是壓測架構脆弱的關鍵所在。此外,壓測工具缺乏安全性、人力投入成本大等問題亦亟待解決。因此,對于在市場賽道完美承受高壓檢驗,作業(yè)幫還有更長的路要走。

安全先行、場景還原,作業(yè)幫推出自研壓測平臺

對于作業(yè)幫人來說,壓力測試不僅是關乎業(yè)績和增長的技術命題,更是與跨城鄉(xiāng)、跨地域的全中國中小學生相關的教育供給命題。為此,作業(yè)幫解鎖了自研壓測平臺的進階關卡。

首先,產研團隊在壓測的探索上達成了安全先行的共識,將“服務與數據隔離”設定為核心思想,研發(fā)、測試、運維共同建設將方案落地。具體而言,依托于日志服務,對數據進行清洗和脫敏,數據經過壓測平臺后產生壓測標記,在業(yè)務網關分發(fā)到各業(yè)務集群,業(yè)務模塊根據壓測標記,進行基礎業(yè)務服務和數據的隔離。

對于場景模擬和數據構造的真實性,團隊目前已從最初的捉襟見肘轉向能夠游刃有余地發(fā)揮技術優(yōu)勢的階段。隨著平臺投入使用后,對大家的衍生使用需求,如數據預熱需求、高壓下的持續(xù)穩(wěn)定性測試等,進行了優(yōu)化支持,以滿足壓測多樣化需求。

而在模擬場景的塑造上,作業(yè)幫則分為兩大板塊,生成不同的設計思路。一方面,對大型售賣活動,采取了多場景鏈路壓測疊加參數化的方式進行梯度發(fā)壓,并基于漏斗型用戶行為模型,達成預期的成果;另一方面,對復雜教學場景的支持,復雜性主要體現在技術復雜性(涉及到私有技術架構、長連接和流媒體協議),數據和交互的復雜性即雙師教學的業(yè)務形態(tài)(每個學生都是一個獨立的個體,有各自的行為序列;主講與輔導老師各司其職并實時同步學生狀態(tài),使主講及時調整教學內容,保證學生的課堂收獲)。因此作業(yè)幫自研了學生節(jié)點、主講節(jié)點、輔導老師節(jié)點模型,依托真實的日志將不同角色的行為序列化,最后注入模型,實現教學場景的仿真。

作業(yè)幫打造百萬級QPS常態(tài)化鏈路壓測診斷平臺

王俊星表示:“作業(yè)幫是做教育的,因此對直播課場景傾注了更多心血。我們必須嚴格把控視頻流的同步性、互動的實時性及到達率,保證教學質量與學生的體驗,而場景還原是做足攻防和破壞性演練的基礎。當翻山越嶺跨過這道坎之后,作業(yè)幫仍要繼續(xù)尋求壓測技術的向上突破。”

高效的常態(tài)化平臺體系加持,作業(yè)幫穩(wěn)定輸出教育價值

對于在線教育技術團隊而言,每次活動或開課節(jié)點都是一場硬仗,平臺服務層面的“風平浪靜”一般源自于底層技術團隊壓測的無數次“驚心動魄”。為緩解人員運維壓力,提高效率,作業(yè)幫團隊從壓測平臺的發(fā)壓階段切入,切實提高重大事件的平臺承受能力。

作業(yè)幫打造百萬級QPS常態(tài)化鏈路壓測診斷平臺

王俊星介紹道,作業(yè)幫對于發(fā)壓側進行了結構性調整優(yōu)化,基于2PC思想和流水線形式處理鏈路,大大提升單節(jié)點發(fā)壓能力,減少了設備投入和運維成本。發(fā)壓的安全上也會進一步優(yōu)化,很快我們就會與業(yè)務支撐系統打通,觸發(fā)閾值熔斷并與自動化平臺聯動以達到服務探活的目的,使壓測風險進一步降低。

同時,為了解決高并發(fā)數據結果統計瓶頸,作業(yè)幫還會對計算引擎進行優(yōu)化,通過分級計算、分布式部署,解決數據匯總壓力,提升集群水平擴展性。

效率的提高除了對源頭進行管控,也離不開中間層面的調度程序優(yōu)化。對此,作業(yè)幫豐富節(jié)點管理,增加節(jié)點屬性,并針對特殊壓測場景,獨立申請壓測節(jié)點,使節(jié)點分配更加高效合理,避免互相影響。

目前,集安全、擬真、效率于一體的百萬級QPS常態(tài)化鏈路壓測診斷平臺已初步具備了抗風險能力,對千萬孩子的教育資源流通產生強大的輻射作用。未來,作業(yè)幫還將聚焦系統薄弱環(huán)節(jié)預判板塊,持續(xù)建設內置學習模型,全面打造自動化、領先行業(yè)的賦能平臺。

談及壓測平臺的研發(fā)心得,王俊星表示,“用技術完美承接瞬時流量也許能無差別地讓每一位工程師產生成就感,而用科技落實教育理念則是作業(yè)幫人的獨有標簽。對我們而言,教育容不得半點馬虎與妥協,我們必須保證每一位學生的體驗和課堂收獲,讓優(yōu)質教育觸手可及。今后,我們將繼續(xù)投入優(yōu)質教育資源的穩(wěn)定供給之中,輻射千萬孩子的學習征程,踐行教育使命和愿景。”

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )