開(kāi)源搜索引擎國(guó)產(chǎn)化替代,Transwarp Scope助力企業(yè)打造自主可控搜索平臺(tái)

開(kāi)源搜索引擎國(guó)產(chǎn)化替代勢(shì)在必行

科技自立自強(qiáng)是時(shí)代發(fā)展的迫切需要和必然選擇。二十大報(bào)告強(qiáng)調(diào),“集聚力量進(jìn)行原創(chuàng)性引領(lǐng)科技攻關(guān),堅(jiān)決打贏關(guān)鍵核心技術(shù)攻堅(jiān)戰(zhàn)”。從中興等一系列高新技企業(yè)被制裁,到今年俄烏沖突發(fā)生后,多家科技公司宣布暫停在俄羅斯的所有業(yè)務(wù),包括芯片、軟件、云服務(wù)等斷供事件,都在警示我們要擺脫被科技制裁風(fēng)險(xiǎn)的唯一出路就是要自主研發(fā),實(shí)現(xiàn)真正的自主可控。

1、開(kāi)源協(xié)議變更帶來(lái)商業(yè)風(fēng)險(xiǎn)

Elasticsearch是一款開(kāi)源搜索引擎,憑借著先發(fā)優(yōu)勢(shì)和早期的積累,被用于多種檢索類業(yè)務(wù)場(chǎng)景,并占據(jù)了一定的市場(chǎng)。2021年初, Elastic公司決定將這款開(kāi)源軟件的 Apache License 2.0 變更為雙授權(quán)許可,即Server Side Public License (SSPL) 和 Elastic License。其核心條款是“如果將程序的功能或修改后的版本作為服務(wù)提供給第三方,那么必須免費(fèi)公開(kāi)提供服務(wù)源代碼”。這意味著不法分子可以獲得其源代碼并研究其漏洞,給企業(yè)用戶帶來(lái)巨大的安全風(fēng)險(xiǎn)。

2、開(kāi)源軟件存在“被制裁”風(fēng)險(xiǎn)

Apache 軟件基金會(huì)和GitHub官網(wǎng)都有公開(kāi)說(shuō)明,產(chǎn)品和技術(shù)受到美國(guó)的出口法律和法規(guī)限制。盡管此類軟件的使用是免費(fèi)的,但它的許可協(xié)議仍然存在諸多限制,包括禁止受制裁的國(guó)家使用原本對(duì)公眾免費(fèi)開(kāi)放的代碼。受美國(guó)出口管制的俄羅斯在近期俄烏事件中將這方面風(fēng)險(xiǎn)徹底暴露。

3、安全工具出口和漏洞分享禁令政策陸續(xù)出臺(tái)

2021年美國(guó)商務(wù)部和安全局發(fā)布最新控制措施,禁止美國(guó)公司向中國(guó)和俄羅斯等“有問(wèn)題”的國(guó)家出口和轉(zhuǎn)售網(wǎng)絡(luò)安全產(chǎn)品。

今年6月份,美國(guó)商務(wù)部和安全局又發(fā)布了一項(xiàng)針對(duì)網(wǎng)絡(luò)安全領(lǐng)域的出口管制規(guī)定,未經(jīng)審批禁止向中國(guó)分享安全漏洞。簡(jiǎn)單的說(shuō),就是美國(guó)實(shí)體與中國(guó)政府相關(guān)的組織和個(gè)人合作時(shí),如果發(fā)現(xiàn)潛在安全漏洞和信息,不能直接公布,要先經(jīng)過(guò)美國(guó)商務(wù)部審核。這意味著如果繼續(xù)使用國(guó)外軟件,那安全問(wèn)題將掌握在別人手里。

Elasticsearch數(shù)據(jù)泄露事件頻發(fā),安全能力不足

1、Elasticsearch數(shù)據(jù)泄露事件頻發(fā)

在過(guò)去幾年內(nèi),Elasticsearch 數(shù)據(jù)泄露事件頻發(fā),甚至一個(gè)月被曝6次數(shù)據(jù)泄露。

去年,受美國(guó)出口管制的巴林,暴露的Elasticsearch集群中近200萬(wàn)條信息被泄露,包含有關(guān)人員的敏感信息。

而作為美國(guó)出口管制重點(diǎn)對(duì)象的俄羅斯,近幾年發(fā)生多起Elasticsearch數(shù)據(jù)泄露事件。

* 2019年,2000萬(wàn)條個(gè)人信息和稅務(wù)記錄在網(wǎng)上曝光,任何擁有網(wǎng)絡(luò)瀏覽器的人都可以訪問(wèn);

* 2021年底,Elasticsearch服務(wù)器再次發(fā)生數(shù)據(jù)泄露,超過(guò)8.7億條記錄或147GB個(gè)人信息數(shù)據(jù)在網(wǎng)上曝光;

* 2022年6月,俄羅斯金融領(lǐng)域也發(fā)生了一起駭人的數(shù)據(jù)泄露事件,130GB的數(shù)據(jù)集包含俄羅斯人的付款,發(fā)票和其他財(cái)務(wù)敏感信息,甚至包括政府方面的日志數(shù)據(jù);

在國(guó)內(nèi),今年某漫畫閱讀平臺(tái)也遭遇數(shù)據(jù)泄露,黑客從不安全的Elasticsearch數(shù)據(jù)庫(kù)中竊取了2300萬(wàn)用戶帳戶敏感信息。

此外,根據(jù)Group-IB報(bào)告顯示,2021年網(wǎng)絡(luò)上暴露的 Elasticsearch 實(shí)例超過(guò)10萬(wàn)個(gè),約占2021年暴露數(shù)據(jù)庫(kù)總數(shù)的30%。

2、數(shù)據(jù)保護(hù)能力不足

Elasticsearch 開(kāi)源版本是不具備數(shù)據(jù)保護(hù)功能的,看似免費(fèi),但不安全。用戶必須付費(fèi)獲得Gold+許可才能獲得相關(guān)的安全保護(hù)功能,且不同的安全功能對(duì)應(yīng)不同的收費(fèi)標(biāo)準(zhǔn)。

3、數(shù)據(jù)有丟失風(fēng)險(xiǎn)

為了滿足數(shù)據(jù)入庫(kù)性能要求,Elasticsearch在數(shù)據(jù)層采用了簡(jiǎn)單的主從最終一致性模型。當(dāng)主副本出現(xiàn)故障時(shí),從副本和主副本不能保證數(shù)據(jù)的強(qiáng)一致性,從副本的數(shù)據(jù)有可能不是最新的。以此為基礎(chǔ)恢復(fù)數(shù)據(jù),很有可能導(dǎo)致部分?jǐn)?shù)據(jù)丟失。

星環(huán)科技自主研發(fā)的國(guó)產(chǎn)搜索引擎TranswarpScope

Transwarp Scope是星環(huán)科技自主研發(fā)的企業(yè)級(jí)分布式搜索引擎,提供PB級(jí)海量數(shù)據(jù)的交互式多維檢索分析服務(wù),支持百萬(wàn)級(jí)高并發(fā)和毫秒級(jí)低延時(shí)檢索業(yè)務(wù),覆蓋模糊匹配,精確查詢,多維檢索等各類檢索類場(chǎng)景,滿足數(shù)據(jù)檢索多樣化需求。

* 海量日志存儲(chǔ)與檢索Scope在數(shù)據(jù)存儲(chǔ)做了多層優(yōu)化,輕松滿足海量檢索數(shù)據(jù)的存儲(chǔ),支持大規(guī)模數(shù)據(jù)的入庫(kù),而且架構(gòu)穩(wěn)定,數(shù)據(jù)提供一致性和多副本容災(zāi)。此外,底層的搜索模塊通過(guò)分區(qū),索引排序等各類優(yōu)化手段,滿足大體量數(shù)據(jù)的快速精確檢索,實(shí)現(xiàn)毫秒級(jí)檢索和讀寫互不影響,非常適合電信、安全、能源等領(lǐng)域的檢索需求。

* 一站式檢索平臺(tái)Scope支持結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化小對(duì)象數(shù)據(jù)的分級(jí)存儲(chǔ)與毫秒級(jí)檢索響應(yīng),提供完備的分區(qū)優(yōu)化機(jī)制和高并發(fā)檢索能力。一站化服務(wù)使得業(yè)務(wù)無(wú)需通過(guò)不同數(shù)據(jù)庫(kù)產(chǎn)品的組合來(lái)實(shí)現(xiàn)復(fù)雜檢索場(chǎng)景,一套產(chǎn)品滿足多類需求。高并發(fā)非結(jié)構(gòu)化數(shù)據(jù)靈活檢索等業(yè)務(wù)均可通過(guò)Scope滿足。

1、國(guó)產(chǎn)自研搜索引擎,自主可控

Transwarp Scope通過(guò)了工信部源代碼掃描測(cè)試,并于2019年上榜由信息技術(shù)應(yīng)用創(chuàng)新工作委員會(huì)編制的國(guó)產(chǎn)軟硬件技術(shù)圖譜。

2、國(guó)產(chǎn)軟硬件適配

Scope已完成與主流信創(chuàng)生態(tài)廠商的適配互認(rèn)工作,支持適配長(zhǎng)城飛騰、華為泰山、龍芯等服務(wù)器架構(gòu),同時(shí)滿足麒麟,UOS等操作系統(tǒng),滿足信創(chuàng)要求和國(guó)產(chǎn)化替換需求。

3、兼容Elasticsearch接口,多生態(tài)兼容,實(shí)現(xiàn)低成本平滑遷移

Transwarp Scope兼容常用Elasticsearch的接口,可實(shí)現(xiàn)Elasticsearch業(yè)務(wù)的平滑遷移。星環(huán)科技提供多種數(shù)據(jù)遷移方案,用戶可根據(jù)實(shí)際情況靈活選擇。經(jīng)過(guò)大量項(xiàng)目的實(shí)踐和經(jīng)驗(yàn),星環(huán)科技建立了成熟標(biāo)準(zhǔn)的Elasticsearch平滑遷移方法論,通過(guò)調(diào)研評(píng)估、方案測(cè)試和上線保障“三步”策略,全程保障數(shù)據(jù)與業(yè)務(wù)的平滑遷移。

除了兼容以上Elasticsearch接口,Scope還兼容PostgreSQL協(xié)議以及Spark等大數(shù)據(jù)產(chǎn)品的接入。同時(shí),Scope還提供完備的SQL語(yǔ)法支持,滿足傳統(tǒng)數(shù)據(jù)庫(kù)遷移到Scope的需求,通過(guò)星環(huán)科技SQL編譯器QUARK實(shí)現(xiàn)大數(shù)據(jù)基礎(chǔ)平臺(tái)TDH內(nèi)部的完整數(shù)據(jù)流轉(zhuǎn)方案。

ROI、擴(kuò)展性、穩(wěn)定性、安全性、數(shù)據(jù)讀寫/恢復(fù)/一致性等全面超越開(kāi)源搜索引擎

1、硬件和運(yùn)維成本

Elasticsearch單節(jié)點(diǎn)支持的數(shù)據(jù)量最多到20TB左右,在項(xiàng)目實(shí)踐中客戶通常在每臺(tái)服務(wù)器上部署多個(gè)Elasticsearch實(shí)例,而如此多的實(shí)例將會(huì)帶來(lái)不穩(wěn)定問(wèn)題,觸發(fā)節(jié)點(diǎn)失聯(lián),運(yùn)維成本高。反之,如果每臺(tái)服務(wù)器配置較少容量的磁盤,那么用戶將付出非常高的硬件成本。而當(dāng)節(jié)點(diǎn)數(shù)超過(guò)100時(shí),同樣會(huì)有穩(wěn)定性問(wèn)題。

這兩類方案,運(yùn)維成本和硬件成本變成了魚和熊掌不可兼得,讓用戶陷入兩難的境地。

星環(huán)科技Transwarp Scope對(duì)內(nèi)存進(jìn)行創(chuàng)新優(yōu)化,提高單集群?jiǎn)喂?jié)點(diǎn)容量上限,單實(shí)例可突破至百TB的數(shù)據(jù)存儲(chǔ),是Elasticsearch的5倍以上,大大降低用戶硬件成本。

在提高單實(shí)例存儲(chǔ)容量,降低集群規(guī)模的同時(shí),Scope通過(guò)多進(jìn)程架構(gòu),充分利用集群cpu/內(nèi)存資源,讀寫壓力分流,滿足更高的并發(fā)需求,提高集群穩(wěn)定性的同時(shí)降低運(yùn)維成本。

2、集群擴(kuò)展性

Elasticsearch在集群擴(kuò)展上存在瓶頸,其采用的P2P架構(gòu)和排隊(duì)模型處理一些狀態(tài)同步和元數(shù)據(jù)改變等操作時(shí),效率比較低。在項(xiàng)目實(shí)踐中,當(dāng)節(jié)點(diǎn)(或?qū)嵗?規(guī)模超過(guò)100個(gè)時(shí),會(huì)遇到穩(wěn)定性問(wèn)題,特別是多種任務(wù)并發(fā)的情景下,集群壓力大,容易觸發(fā)節(jié)點(diǎn)接連失聯(lián)的問(wèn)題。

星環(huán)科技Transwarp Scope采用多進(jìn)程架構(gòu),充分利用集群cpu/內(nèi)存資源,讀寫壓力分流,滿足更高的并發(fā)需求以及提升穩(wěn)定性,單集群在200以上節(jié)點(diǎn)規(guī)模下穩(wěn)定運(yùn)行,同時(shí)保障性能無(wú)衰減。

3、全方位數(shù)據(jù)安全保障

Transwarp Scope內(nèi)置配套的安全授權(quán)、用戶權(quán)限控制等相關(guān)安全功能,可以有效保障系統(tǒng)數(shù)據(jù)和訪問(wèn)上的安全。

在用戶權(quán)限認(rèn)證上,基于SASL提供plain與gssapi兩種認(rèn)證方式,對(duì)應(yīng)傳統(tǒng)的用戶名密碼認(rèn)證方式和基于Kerberos的登錄驗(yàn)證方式。其中kerberos可依賴于TDH平臺(tái)的安全服務(wù)Guardian,同時(shí)提供用戶組概念,便于通過(guò)平臺(tái)實(shí)現(xiàn)統(tǒng)一管理與操作。

在數(shù)據(jù)權(quán)限上,基于角色的訪問(wèn)控制(RBAC)機(jī)制,使用戶能夠通過(guò)將權(quán)限分配給角色并將角色分配給用戶或組來(lái)授權(quán)用戶,支持Index level Security &Database level Security。

在數(shù)據(jù)加密上,Scope支持基于SSL/TLS兩類協(xié)議進(jìn)行數(shù)據(jù)加密,確保數(shù)據(jù)傳輸過(guò)程的安全。

4、數(shù)據(jù)讀寫性能

Elasticsearch在數(shù)據(jù)讀寫性能方面存在不足,如壓縮率不足,數(shù)據(jù)膨脹率高,讀寫策略優(yōu)化不足等都大大降低了數(shù)據(jù)讀寫的效率。數(shù)據(jù)讀寫性能受限,直接影響查詢操作的并發(fā)度和數(shù)據(jù)入倉(cāng)的效率。

星環(huán)科技Transwarp Scope對(duì)讀寫線程資源的管理更嚴(yán)格、更精細(xì),使讀寫性能更優(yōu),數(shù)據(jù)批量寫入速度相對(duì)Elasticsearch提升40%,讀寫分離的特性大幅提升查詢的穩(wěn)定性。

5、數(shù)據(jù)恢復(fù)性能

Elasticsearch缺乏“增量數(shù)據(jù)”的概念,當(dāng)單點(diǎn)發(fā)生故障進(jìn)行數(shù)據(jù)恢復(fù)時(shí),采用全量數(shù)據(jù)拷貝方式恢復(fù)數(shù)據(jù),工作量大,往往需要小時(shí)級(jí)的時(shí)間才能恢復(fù)服務(wù),嚴(yán)重影響服務(wù)的正常進(jìn)行。星環(huán)科技Transwarp Scope具有很強(qiáng)的容災(zāi)和數(shù)據(jù)恢復(fù)能力。Scope基于Raft協(xié)議保證數(shù)據(jù)的一致性,同時(shí)提供多副本支持,重啟恢復(fù)時(shí)間在TB級(jí)數(shù)據(jù)量下控制在分鐘級(jí),不到Elasticsearch的1/10,大幅降低了服務(wù)不可用時(shí)間。

此外,Scope支持跨數(shù)據(jù)中心的多活部署,使得重要業(yè)務(wù)在多數(shù)據(jù)中心交互和流轉(zhuǎn),還支持主備集群的實(shí)時(shí)數(shù)據(jù)同步,滿足主備集群的failover和switchover。

6、數(shù)據(jù)一致性

Elasticsearch主本和副本之間同步采用P2P架構(gòu)和排隊(duì)模型實(shí)現(xiàn)主從最終一致性。當(dāng)主副本出現(xiàn)故障時(shí),從副本和主副本不能保證數(shù)據(jù)的強(qiáng)一致性,很有可能導(dǎo)致部分?jǐn)?shù)據(jù)丟失。

Transwarp Scope基于自主研發(fā)的分布式數(shù)據(jù)庫(kù)管理系統(tǒng)TDDMS,采用shared-nothing架構(gòu),通過(guò)多副本機(jī)制實(shí)現(xiàn)數(shù)據(jù)服務(wù)高可用,使用raft協(xié)議保證副本之間的數(shù)據(jù)一致性,保障數(shù)據(jù)不丟失。此外,TDDMS支持彈性擴(kuò)縮容、自動(dòng)故障恢復(fù)、權(quán)限控制、多租戶與冷熱數(shù)據(jù)分層存儲(chǔ)等功能。

7、售后服務(wù)

Elasticsearch是開(kāi)源產(chǎn)品,用戶需自己探索和解決問(wèn)題,無(wú)法獲取有效的服務(wù)保障。用戶需要購(gòu)買企業(yè)版才能獲得相應(yīng)的服務(wù),且在國(guó)內(nèi)沒(méi)有原廠技術(shù)研發(fā)人員,很難保障SLA。Transwarp Scope的產(chǎn)品提供方星環(huán)科技是國(guó)內(nèi)廠商,具有非常強(qiáng)大的研發(fā)、技術(shù)支持與服務(wù)能力,提供強(qiáng)大的原廠服務(wù)保障能力,保障用戶售后無(wú)憂。

星環(huán)科技TranswarpScope助力某政府單位平滑替換Elasticsearch

1、客戶挑戰(zhàn)

某政府單位原先使用開(kāi)源Elasticsearch,隨著內(nèi)部系統(tǒng)數(shù)據(jù)量的高速增長(zhǎng),總數(shù)據(jù)量超幾十PB,單張表達(dá)百億條級(jí)別,在不斷擴(kuò)容下節(jié)點(diǎn)數(shù)達(dá)Elasticsearch上限,穩(wěn)定性經(jīng)常出現(xiàn)問(wèn)題,同時(shí)當(dāng)集群出現(xiàn)問(wèn)題時(shí),Elasticsearch重啟需要小時(shí)級(jí)別,集群恢復(fù)速度慢。在性能問(wèn)題方面,讀寫資源無(wú)法隔離,拖累查詢性能,系統(tǒng)設(shè)計(jì)為讀寫兩套集群。

2、解決方案

基于星環(huán)科技大數(shù)據(jù)基礎(chǔ)平臺(tái)TDH構(gòu)建大規(guī)模數(shù)據(jù)綜合搜索平臺(tái),Slipstream做實(shí)時(shí)數(shù)據(jù)引擎,清洗分析并入庫(kù)到Hyperbase與Scope的綜合搜索庫(kù)中,提供基于幾十PB數(shù)據(jù)量的快速查詢和搜索能力,集群規(guī)模達(dá)200個(gè)節(jié)點(diǎn)。

3、項(xiàng)目成果

融合人、地、物、事、組織與視頻/圖片等因素,通過(guò)星環(huán)TDH構(gòu)建一站式搜索平臺(tái),實(shí)現(xiàn)了PB級(jí)數(shù)據(jù)統(tǒng)一存儲(chǔ)、檢索滿足海量數(shù)據(jù)毫秒級(jí)響應(yīng),高并發(fā)、快速統(tǒng)計(jì)、字段精確與模糊查詢等復(fù)雜組合場(chǎng)景,指定條件查詢1s內(nèi)返回并支持上千并發(fā),并通過(guò)單節(jié)點(diǎn)存儲(chǔ)容量比開(kāi)源高5倍的優(yōu)勢(shì),降低了客戶硬件投資成本。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )