時間:2022-02-16 04:27:12
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇編碼技術論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
關鍵詞:網絡編碼無線網絡信息交換
一、網絡編碼技術與傳統網絡的差異
在傳統的計算機網絡數據傳輸過程中,要借助路由器進行數據傳遞,根據數據的目標地址,路由器將數據包向各個鏈路發送。由于沒有統一的安排和協調,在同一鏈路中會出現很多數據包,必須排隊等待通過的情況,這就制約了計算機網絡的傳輸速度和效率的提升。2000年,新型網絡編碼技術一經出現就得到了廣泛關注。網絡編碼技術著力解決的問題是有效地將同時到達路由器的數據同時發送出去,不讓數據產生擁塞,從而提高數據傳輸速度。
二、網絡編碼技術在無線網絡中的應用
2.1網絡編碼的概念
網絡編碼是一種融合了路由和編碼的信息交換技術,它的核心思想是在網絡中的各個節點上對各條信道上收到的信息進行線性或者非線性的處理,然后轉發給下游節點,中間節點扮演著編碼器或信號處理器的角色。
2.2網絡編碼應用于無線網絡的優勢
網絡編碼融合了路由和編碼的概念,使網絡節點不僅可以對數據進行存儲轉發,還可以進行編碼處理,已證明了使用線性網絡編碼已經能足夠達到網絡多播容量。但網絡編碼的好處不止這些,尤其是當網絡編碼應用于無線網絡時。網絡編碼首先應被應用在無線網絡環境。無線網絡的特性是不可靠性和廣播特性,使網絡編碼非常適合應用在無線網絡上,因為無線鏈路的不可靠性和物理層廣播特性非常適合使用編碼的方法。應用網絡編碼,可以解決傳統路由、跨層設計等技術無法解決的問題,提高網絡編碼在無線網絡中的應用。無線網絡的廣播特性使其非常適合使用網絡編碼,當一個節點傳輸一個數據包給它的一個鄰居節點時,它的其它鄰居節點也可以接收到這個數據包。因此,當一個節點的鄰居節點對不同的數據包感興趣時,可以將這些數據包編碼后再一起傳輸,這樣子可以使其所有的鄰居節點都收到感興趣的數據包并可以節約無線資源。
應用網絡編碼,可以解決傳統路由、跨層設計等技術無法解決的問題,提高網絡性能。網絡編碼在無線網絡中的應用可以提高網絡的吞吐量,尤其是組播吞吐量??梢詼p少數據包的傳播次數,降低無線發送能耗。當網絡部分節點或鏈路失效時采用隨機網絡編碼,最終在目的節點仍然能恢復原始數據,增強網絡的容錯性和魯棒性。網絡編碼對無線網絡的性能改善主要體現在提高網絡編碼的吞吐量上,網絡編碼已經被證明對于提高某些網絡的吞吐量有著很大的作用。運用網絡編碼可以在很大程度上提高網絡吞吐量,但是同時會增加網絡的復雜性。不少研究者在研究提高無線網絡的組播吞吐量的同時,研究如何降低因采用網絡編碼帶來的復雜性。在網絡狀況惡劣的條件下,網絡編碼和路由之間組播吞吐量的差別不大,網絡編碼的優勢體現在降低網絡復雜性上;在網絡狀況較好的條件下,網絡編碼相對于路由方法,在很大程度上,提高了組播吞吐量。這為根據網絡狀況動態調整網絡編碼算法提供了可能。
2.3網絡編碼如何提高無線網絡的安全性
網絡編碼在提高無線網絡的安全性研究方面亦取得了一定的成果。在無線網絡組播中,對于數據包的惡意修改的檢測,過去是使用基于消息認證碼或者數字簽名的方法?;诰W絡編碼產生了一種基于數據包的隨機網絡編碼檢測策略,這種方法計算量小,而且檢測概率可以根據通信控制開銷、網絡編碼復雜程度和檢測時間這些因素進行調控。但這種方法亦存在不足。這種方法要求接收節點需要預先獲得至少一個沒有被惡意修改過的數據包,并且數據包的內容不能被攻擊者知曉,因此,這種方法對抗攻擊效果不好。
無線網絡廣播重傳處理中,多個接收節點中的任意一個節點的丟包都要求源節點重傳數據包,需要廣播發送較多的重傳次數.本文將隨機線性網絡編碼技術應用在無線網絡廣播重傳中,提出一種新穎的廣播重傳方法(RLNCBR)。該方法中,源節點記錄多個接收節點中丟包最多的接收節點丟包數,再按照隨機線性網絡編碼的方法編碼組合該丟包數個線性編碼包。源節點廣播重傳,接收節點采用運算編碼線性組合的方法獲得信息包數據。數學分析表明,該方法能保證所有接收節點的編碼可解性,同時重傳次數可達到理論最優性。模擬測試結果表明:與傳統重傳方法相比,RLNCBR有效地減少了信息包的平均傳輸次數,提高了傳輸效率。
三、網絡編碼在無線網絡的應用發展方向
網絡編碼正在給現有的網絡帶來革命性的變化:網絡編碼從用來達到有線網絡中的組播容量,發展到在有線和無線網絡中提高吞吐量、節省能量、增強魯棒性和安全性,甚至改變網絡結構、改變網絡協議設計方法。網絡編碼在無線網絡中的應用還存在著以下的幾個問題:網絡編碼的具體實現和降低網絡編碼的復雜性?,F在已經提出了很多網絡編碼方法,有集中式線性網絡編碼和分布式隨機網絡編碼,但是如何在實際網絡環境中實現網絡編碼,需要考慮許多實際應用問題,例如同步、控制開銷等。網絡編碼在實際網絡環境中如何實現是一個很迫切的問題。采用網絡編碼可以在很大程度上提高網絡性能,但設計和實現上的復雜性也隨之增加。如何在不顯著增加網絡開銷,綜合考慮效率和性能的前提下,實現網絡編碼問題是將來需要進行深入研究的方向。
四、結束語
無線網絡環境由于環境的多變性,使得數據包在傳輸過程中更加容易丟失。目前,重傳常被用來實現無線廣播的錯誤處理,普通重傳方法思想基于發送方通過反饋得到接收方的出錯情況,重傳出錯的數據報文來恢復出錯的報文。:
網絡編碼技術是近十年來飛速發展的一個研究課題。雖然還沒有應用到實際的通信網絡中,但已引起了較大的關注,比如美國軍方已經意識到網絡編碼技術的優勢,已經撥款研究網絡編碼技術在移動自組網(MobileAdHocNetwork)中的應用。因此,我們也應當及時跟蹤國際上的網絡編碼技術的發展趨勢。同時,結合各種應用深入思考網絡所涉及的各種安全技術問題。
參考文獻
[1]范明,盂小峰.數據挖掘概念與技術[M].機械工業出社,2001.8.
[2]胡國強.數據挖掘在遠程教育決策支持系統的運用[J].開放教育研究,2003,(5)44-45.
[3]YEUNGRW,ZHANGZ.Distributedsourcecodingforsatellitecommunications[J].IEEETransactionsonInformationTheory,1999,45(3):1111-1120.
關鍵詞: H.264標準;視頻壓縮;視頻編碼
0 引言
以數字視頻的采集、壓縮、處理為核心的現代視頻監控技術,采用先進圖像處理芯片對視頻進行壓縮處理,把智能圖像處理技術用于圖像顯示、監控成為嵌入式視頻監控系統的重點研究方向[1]。無論是MPEG1、MPEG2或者是MPEG4、H.263都已經無法滿足運動圖像壓縮的要求,這時新一代的H.264標準便被制定,H.264作為新一代的編碼方式,有效提升了視頻壓縮率,僅需原先的一半帶寬即可播放相同質量的視頻,而且視頻編碼的碼率更加靈活,架構主要包括,幀內預測、幀間預測、轉換、量化、去區塊濾波器、熵編碼等模塊,下面將研究H.264視頻編碼的關鍵技術及其應用前景。[2]
1 H.264壓縮標準
H.264是兩個組織專家ITU-T和ISO為多媒體傳輸設計的數字視頻編碼標準[3],全稱是MPEG-4AVC,翻譯成中文意思是“活動圖像專家組-4的高等視頻編碼”,或稱為MPEG-4Part10。各種分辨率的視頻圖像格式都可以被H.264視頻編碼標準支持,包括sub-QCIF、QCIF、CIF、4CIF、16CIF等[4]。H.264是一種視頻壓縮標準,同時也是一種被廣泛使用的高精度視頻的錄制、壓縮和格式。H.264比其他編碼標準有著更高的視頻質量和更低的碼率,被廣泛用于網絡流媒體數據、各種高清晰度電視陸地廣播以及衛星電視廣播等領域。H.264的特點是能低碼率、高清晰持續提供較高的視頻質量,能大大加強圖像的編碼效率和改善圖像數據在網絡中的傳輸效率。[1],使網絡更加靈活、適應性更強,最大的好處就是節約了成本,彌補了技術差距,讓存儲與視頻管理變得更高效。
2 H.264編碼器的結構和特點
H.264只是規定了輸入碼流的格式及編碼之后輸出比特流的句法結構,其標準的編碼思路是混合編碼模式,以幀間和幀內預測來清除空間和時間的冗余分量,用變換和量化編碼來清除頻域冗余分量。H.264視頻編碼在一定情況下提高了視頻壓縮編碼性,其視頻解碼與編碼實現的過程相反,依據幀內編碼進行逆量化,反變換,重構幀,最后經塊濾波器平滑濾波后得到重建圖像,[1]H.264編碼器的功能組成框圖如1。
3 H.264編碼器關鍵環節分析
3.1 幀內預測 比起H.263,H.264提供了更多不同的工具來降低碼率,以編碼單位來說,h.264中每個宏塊(macroblock/mb)大小都是固定的16×16像素,能夠實現高分辨率視頻的壓縮,對于幀間編碼來說,它允許變換塊的大小根據運動補償塊的大小進行自適應的調整;對于幀內編碼來說,它允許變換塊的大小根據幀內預測殘差的特性進行自適應的調整。
3.2 幀間預測 H.264標準與早期標準不同之處在于,它所使用的是塊結構運動補償,運算精度精確到1/4像素點上。[8]不僅如此,H.264標準還使用了多幀預測的方法,能夠明顯改善預測增益。[5]
3.3 整數變換與量化 H.264中整型變換與之前的MPEG系列標準所采用的DCT變換都有區別:
①它是整形變換(所有的操作都為整數運算,不存在解碼精度損失)。②用整數算術變換可以確保編解碼之間實現零失配。③變換的核心運算部分只用到加法和移位運算,不需要乘除運算。④到量化器的縮放乘積因子為整數,減少了乘積因子的數據位數。[4]量化的目的是減小信號的值域,以更少的比特來表示信號,從而達到減少數據量的目的。H.264中量化的步長總共有52種,其按照12.5%遞增,并且變換系數的讀取有雙掃描和之字形兩種方式。
3.4 熵編碼 熵編碼是對數據的冗余信息進行壓縮的方法,變長編碼和Huffman編碼相結合進行,以較短的字長表示出現概率較大的數據,較長的字長表示出現概率較小的數據來達到降低數據量的目的。
CAVLC是一種變長編碼。先對變換系數進行zig-zag掃描。用行程碼(L,V)表示掃描以后的數據,V代表數值,L代表該數出現的次數。因為視頻塊在整形變換和量化后,大部分變換系數成為0,只有很少的數據在低頻部分,用行程數L代表連續出現的0的個數,V代表0串后挨著的非零值,接著對L和V分別采用Huffman編碼進一步壓縮,有不同的碼表可以查詢亮度塊和色度塊。行程編碼大大降低了編碼的碼字字長。CABAC是一種二進制算術編碼,其通過構建模型來預測當前的視頻信號。相對于CAVLC編碼,CABAC的編碼效率更高,更節省碼率。[4]
3.5 碼率控制 H.264視頻編碼標準雖然對于編碼器的結構實現模式沒有具體的規定,但編碼器實現的核心問題要解決編碼器的結構、相應的視頻編碼如何控制。H.264編碼器采用基于拉各朗日Lagrangian優化算法的率失真優化模型實現視頻編碼的控制,其實現方法簡單而且效率高。[5]
H.264編碼標準由于以上關鍵技術的支持,獲得了較高性能編碼,但編碼器復雜度增加,約為MPEG2的4倍,MPEG4的2倍。其高復雜度原因有兩個方面,一是編碼選項復雜,二是計算量高。具體內容有宏塊的劃分及搜索模式的組合的選取、高精度亞像素運動補償和多參考頓預測,H.264更細化,更精確的數據壓縮導致了計算量高。[6]
4 應用前景
H.264作為一種具有高效壓縮性能的視頻壓縮編碼技術,其在制定的過程中就充分參考和吸收了H系列和MPEG系列的優秀研究成果,修改或重新制定了其中不合理的部分,使其有很好的壓縮性能。H.264能夠比H.263和MPEG-4大約省去50%的碼率。[7]H.264的高效的視頻壓縮能力和優異的網絡適應性,為視頻數據傳輸的可靠性提供了保障,其可廣泛應用于數字攝像、英特網、數字視頻錄像、DVD及電視廣播等領域的圖像壓縮。
5 結束語
網絡視頻監控系統要達到良好的監控效果,僅提高攝像頭的分辨率是不行的,只有通過改善數字視頻的壓縮技術,降低視頻傳輸的誤碼率,提高視頻的質量,才能推動網絡視頻走向智能化。[1]H.264標準的推出是視頻編碼標準的一次重要的進步,盡管其算法復雜,但是能夠大幅度提高編碼效率,使得應用范圍更加的廣泛。
參考文獻:
[1]李紅京.基于H.264視頻壓縮技術的網絡視頻傳輸系統設計[J].河北工業科技,2011,28(4):236-239.
[2]齊淋淋,向健勇,唐巍.H.264視頻壓縮關鍵技術及其應用前景[J].電子科技,2005(10)13-16.
[3]黨曉軍,尹俊文.基于H264的嵌入式視頻監控系統研究[J].計算機技術與應用進展,2008:407-412.
[4]劉繼紅,孫海龍,屈鵬.TD-MBMS中H.264視頻壓縮的實現過程[J].信息通信,2008,4:14-16.
[5]牛建民.H.264視頻壓縮算法應用研究[M].同濟大學工程碩士學位論文,2007,5.
[6]蔣文倩.基于H.264視頻采集與無線傳輸系統的設計與實現[M].武漢理工大學碩士學位論文,2013,3.
關鍵詞:H.264,運動估計,整像素預測
1、引言
H.264是一種高性能的視頻編解碼技術, 它是ITU-T的VCEG(視頻編碼專家組)和ISO/IEC的MPEG(活動圖像編碼專家組)的聯合視頻組(JVT:joint video team)開發的一個新的數字視頻編碼標準,它既是ITU-T的H.264,又是ISO/IEC的MPEG-4的第10 部分。論文寫作,整像素預測。
作為新一代的視頻編碼標準,它具有很高的數據壓縮比率和優異的性能,廣泛應用于視頻會議、視頻點播、高清視頻、移動播放器等多個領域。
H.264最大的優勢是具有很高的數據壓縮比率,在同等圖像質量的條件下,H.264的壓縮比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。論文寫作,整像素預測。和MPEG-2和MPEG-4ASP等壓縮技術相比,H.264壓縮技術將大大節省用戶的下載時間和數據流量收費。論文寫作,整像素預測。尤其值得一提的是,H.264在具有高壓縮比的同時還擁有高質量流暢的圖像。
在H.264的編碼芯片結構中,相比幀內,幀間(Inter Prediction)編碼的效率高,但是運算復雜度也比較高。幀間編碼的核心運算部分是“ME”(motion estimation)即運動估計,占用最多的邏輯與時鐘資源。幀間預測的運動估計過程分為整像素運動估計(IME)和分像素運動估計(FME),首先找到整像素的最佳MV,然后再進行分像素的搜索。除了巨大的計算復雜度,編碼過程也很長,包括預測,重構和熵編碼。
2、運動估計運算
H.264幀間預測是利用已編碼視頻幀/場和基于塊的運動補償的預測模式。由于引入了1/4像素精度、多種分割預測等先進技術,在獲得更高壓縮率的同時,其算法復雜度也大大提高,使得幀間預測編碼耗時占到整個編碼計算時間的50%以上,若采用全軟件實現高清圖像的實時編解碼,明顯力不從心,這就要求使用高性能的硬件編解碼器來完成高清實時編解碼任務,這也是本人研究的主要內容。
編碼宏塊(16x16象素)可以分割成不同大小的塊像數據,例如16x16、16x8、8x16、8x8、8x4、4x8、4x4等七種模式。而“ME”的再對各種宏塊分割方式下的每個塊象素進行預測運算,然后由后續模塊統計和比較出最優的分割方式。
運動估計包括整像素預測(IME)和分像素預測(IME)兩部分,這兩部分是串行的。每一個宏塊,只有在IME 做完之后,找到最佳整像素MV,再進行FME。
在進行IME計算時,首先要計算MVP,對于一個塊象素,預測運算就是在參考幀中搜索出最佳匹配(即兩者差異最小)的同尺寸塊象素作為當前塊的參考區域。如果在整個參考幀的范圍下進行全面的搜索,固然可以得到最為匹配的區域,但是復雜度太大。事實上,相鄰塊在參考幀中的匹配區域一般位置比較接近。綜合考慮算法復雜度,編碼效果,資源使用等方面,幀間預測做了如下處理:首先根據周邊塊的Mv值預測出當前塊的Mv值,即Mvp,然后在Mvp所指參考幀中象素點周邊搜索最佳塊象素。
MVP的搜索過程如圖2所示,假定E為當前的宏塊、宏塊分割或者亞宏塊分割,除了16x8和8x16,MVP為A、B、C的MV的中值;對于16x8分割,上面部分MVP由A預測,下面部分MVP由B預測;對于8x16分割,左面部分MVP由B預測,右面部分MVP由C預測。論文寫作,整像素預測。以MVP作為搜索的起點。
圖2 MVP 計算
IME在進行當前宏塊MB(x)的MVP計算的時候,前面的宏塊MB(x-1)包含分像素的MV還未得到,這個時候我們無法得到準確的A,所以我們此時以MB(x-1)的16x16分割搜索時所得到的整像素MV來代替A,并把據此計算得到的MVP作為搜索的起點。
3、IME模塊及功能
IME模塊的架構如下圖所示
圖3 IME模塊架構圖
IME的主要功能是:
(1)數據:把原始和參考YUV從inter_config模塊中取出,為PS和FME模塊準備預測所需數據;
(2)控制:控制幀間預測的過程
IME的模塊劃分及各自功能:
Pipe_ctrl:不同分割間的搜索和選擇 將不同分割方式的順序搜索改為并行,用兩條水線來實現加速 Pipe0:進行P16x16,P8x16,P4x8 ;Pipe1:進行P8x8,P16x8,P8x4,4x4由兩條共同完成(為了減少pipe0的等待時間,把pipe1的部分工作放到pipe0中)
MVp_ctrl:每種分割的具體搜索過程
(1)計算MVp值
(2)控制reg_ctrl模塊的數據存取
Reg_ctrl:為相連模塊準備數據
(1)為整像素準備數據,傳輸給PS模塊;
(2)為分像素搜索準備數據,傳輸給FME模塊;
(3)為重構準備數據,傳輸給FME模塊
4、與IME模塊相關的主要功能模塊
圖3中與IME工作相關的有兩個主要的部分,一個是Inter_config 模塊,還有一個是PS模塊,它們在系統中起著重要的作用。論文寫作,整像素預測。
1. Inter_config模塊及功能描述
Inter_config模塊,即幀間數據調度模塊,其數據傳送如圖4所示,Inter_config模塊有兩部分功能:一是為IME服務,把IME所需的數據從DDR取到Sram;二是為Loop Filter服務,把LoopFilter模塊的deblock運算所需要的一部分數據從DDR取到Sram以及將deblock運算后的宏塊數據存入DDR。
圖4 Inter_config模塊數據傳送
Inter_config模塊與IME有關的工作包括:
1)取原始YUV數據,Luma部分直接拉給IME_Reg_o,Chroma部分存入Sram0。
2)為IME準備計算所需的9個宏塊的Luma數據,并存入Sram0和Sram1。
3)將這9個宏塊的Chroma數據準備到Sram1中,用于Chroma資料拼接之用。
4)接收到IME_ChromaStart_i信號有效后,開始FME運算所需Chroma數據的相關準備工作。包括:①從Sram0中取Chroma的原始YUV送給IME;②從Sram0中取Chroma3x3Mb數據并進行拼接(將每個block對應的2x2像素,向右向下擴展,變成3x3像素)后送給IME。論文寫作,整像素預測。
5)把最后一行的5個mv(當前Mb最后一行的block的4個mv及右側相鄰的1個mv)存入Sram0,作為下一宏塊行進行Mvp預測所需數據。
2. PS模塊功能描述
PS模塊,即預測選擇模塊,本模塊主要用于選擇當前編碼宏塊的最佳預測方式,幀內預測還是幀間預測;若是幀間預測還需給出宏塊的最佳分割以及分割的最佳MV,除此之外,還需求殘差值,用于后面的重建。其主要功能如下:
1)接收IME模塊的整像素亮度值,以進行整像素搜索,找出最佳的整像素MV;
2)將兩套流水線所得出的cost進行比較,選出最佳partition;
3)接收inter_ctrl模塊中IME模塊的亞像素亮度值,以進行亞像素搜索,找出最佳的亞像素MV以及cost,并與最佳的整像素MV的cost相比較,選擇最佳的MV;
4)將選出的最佳的cost與intra_ctrl中的最佳的cost,比較得出最佳的預測方式,幀間還是幀內;
5)若選出的是幀內,則結束當前宏塊的幀間操作,準備下一個宏塊的幀間操作;若選出的是幀間,則接收IME或FME的亮度和色度值,進行求殘差操作,送給DCT以備后面重建。
5、總結及展望
本文對幀間編碼中IME運算所需數據進行探討和分析,并提出一套架構設計方案,時序和資源使用都比較優化。設計方案在空間上具有較高的并行度,處理能力高,非常適合實現高清視頻編碼。目前市場上對于H.264的研究開發一般都是基于PC或者DSP解決,很少有基于硬件實現的開發,功能上還不足以實現高清實時信號的編碼和解碼。本設計能夠實現幀間預測的關鍵部分,在后續的研究中如果能使用H.264標準在幀間預測所帶來的高壓縮率,如果能將其帶來的復雜度的增加限制在可容忍的范圍內,支持幀間預測的高清實時視頻編解碼的芯片實現是非常有意義的,應用前景很廣闊。
參考文獻
[1]新一代視頻壓縮編碼標準——H.264/AVC 畢厚杰 人民郵電出版社
[2]Iain E.G.Richardson.H.264 and MPEG-4 Video Compression: VideoCoding for Next Generation Multimedia. U.S: Wiley Press, 2003.
[3]Tung-Chien Chen, Chung-JrLian, and Liang-Gee Chen. Hardware Architecture Design of an H.264/AVC VideoCodec. Asia and South Pacific Conference on. Design Automation, 2006.
[4]Renxiang Li, Bing Zeng, and Ming L. Liou. A new three-stepsearch algorithm for block motion estimation. IEEE Trans.Circuits Syst.Video Technol., vol. 4, No. 4,Aug 1994
《職業時空》,主管部門:河北省教育廳,主辦單位:河北職業技術學院,國內統一刊號:CN13-1349/C,國際標準刊號:ISSN1672-8963,郵發代號18-347,半月刊,正刊。創刊于1995.ASPT來源刊中國期刊網來源刊,該刊是04年度北大中文核心期刊,《中國知網》、《中國學術期刊(光盤版)》全文收錄期刊,中國學術期刊綜合評價數據庫來源期刊
主要欄目:現代職業新理念、職場宏觀管理、職業政策研究、職業心理研究、職業教育研究、法制建設、主題論壇、高管論壇、爭鳴、觀點輯要、國外研究與借鑒、調查與探索等
1.來稿要求論點明確、數據可靠、邏輯嚴密、文字精煉,每篇論文必須包括題目、作者姓名、作者單位、單位所在地及郵政編碼、摘要和關鍵詞、正文、參考文獻和第一作者及通訊作者簡介(包括姓名、性別、職稱、出生年月、所獲學位、目前主要從事的工作和研究方向),并請在文稿的首頁地腳處注明論文屬何項目、何基金(編號)資助,沒有的不注明。
2.論文摘要盡量寫成報道性文摘,包括目的、方法、結果、結論4方面內容(100字左右),應具有獨立性與自含性,關鍵詞選擇貼近文義的規范性單詞或組合詞(3~5個)。
3.文稿篇幅(含圖表)一般不超過4000字,一個版面2400字內。文中量和單位的使用請參照中華人民共和國法定計量單位最新標準。外文字符必須分清大、小寫,正、斜體,黑、白體,上下角標應區別明顯.
4.文中的圖、表應有自明性。圖片不超過2幅,圖像要清晰,層次要分明。
5.參考文獻的著錄格式采用順序編碼制,請按文中出現的先后順序編號。所引文獻必須是作者直接閱讀參考過的、最主要的、公開出版的文獻。未公開發表的、且很有必要引用的,請采用腳注方式標明,參考文獻不少于3條。
來稿特別約定
1來稿勿一稿多投,收到稿件之后,7個工作日內共同審稿,電子郵件回復作者。重點稿件將送同行專家審閱。如果10日內沒有收到擬用稿通知(特別需要者可寄送紙質錄用通知),則請與我們聯系確認。
2.來稿文責自負。所有作者應對稿件內容和署名無異議,稿件內容不得抄襲或重復發表。對來稿有權作技術性和文字性修改,作者需要安排版面數,出刊日期,是否加急等情況,請在郵件投稿時作特別說明
3.請作者自留備份稿,不退稿。
4.論文一經發表,贈送當期樣刊1冊。
關鍵詞:Ad Hoc網絡;智能手機;語音通信系統
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2012)01-0081-03
Design of a Smart Phone Voice Communication System Based on Ad Hoc Networks
LIN Qiu-peng
(College of Computer Science and Technology, Shandong Jianzhu University, Jinan 250101, China)
Abstract: Mobile flexibility of ad hoc network lead to a broad prospect of application,currently,smart phones develop rapidly and support wifi,which formed ad hoc networks will convenient and affordable. This paper analyzes the problems and key technology in the ad hoc networks famed by smart phones ,and build a ad hoc network architecture by the voice communication features in the smart phones.And I pro? posed a design of smart mobile voice communication system based on the system architecture and the characteristics of smart phones.
Key words: Ad Hoc Network; Smart Phone; Voice Communication System
Ad hoc網絡是一種分布式的無線移動網絡,它不依賴固定的基礎通信設施,沒有中心節點,具有自組織能力,抗毀性強,網絡中的各節點地位平等,且具有轉發報文的功能。一般適用于軍事通信、搶險救災、應對突發事件等無法得到有線網絡支持或者臨時需要通信的環境。
隨著wlan技術及手機應用的迅速發展,越來越多的智能手機加入了WI-FI功能,諸如主流的iOS、Android、Windows Mobile、Sym? bian等手機操作系統都支持無線網絡的接入,為手機終端組建ad hoc網絡提供了支持。在應對自然災害等緊急場合中,固定網絡往往受損,導致人們之間無法通信,此時利用手機組建Ad Hoc網絡進行通信就變的必要可行。同時,隨著手機的應用發展,人們希望降低手機的各項費用,尤其對于學生這樣的低消費人群,在小范圍內如果可以組建Ad Hoc網絡通信,便可以節省通信費用,因此,提出一種基于Ad Hoc網絡的智能手機語音通信系統方案,以實現智能手機終端間無需借助運營商網絡支持的自組織語音通信。
1國內外發展現狀
國內外對無線Ad Hoc網絡已經有了比較廣泛的研究并取得了大量的成果,但已有研究絕大多數針對介質訪問控制(MAC)[18]、路由系統[17]、拓撲管理、功率控制、服務質量控制[9][12][16]、安全[11]等領域來開展,且通常以無線Ad Hoc網絡作為一種網絡基礎設施支持多樣性應用為研究背景,研究的理論成分較重。
從公開發表的文獻看,利用智能手機內置的IEEE802.11構建Ad Hoc網絡并實現節點之間語音數據傳輸的成果不多。P.B. Vel? loso等人利用仿真實驗研究了移動性和QoS提供等對Ad Hoc網絡語音通信容量問題進行了研究[1];HuiYao Zahng等人研究了不同路由協議對語音應用系統性能的影響[2];C.H.Saleem等人研究了利用Ad Hoc組建對等網絡支持緊急情況下指揮控制系統的語音通信問題[4]; Feng GAO等人構建了Symbian平臺下基于藍牙無線Ad Hoc網絡語音通信的中間件系統[3]。清華大學的陳萍萍在“手機終端的自組織通信協議的實現”[5]一文中基于Symbian智能手機終端實現了一種基于藍牙和WiFi的Ad Hoc網絡語音通信系統,但其測試網絡規模過小。同時董梅也在Symbian平臺下實現了流媒體即時通信系統[7],但同樣存在質量保證跟網絡規模問題,鑒于小規模網絡和大規模網絡的問題迥異程度較高,其實現方法在較大規模網絡中的可行性和性能需要進一步研究;李振宇等在“一種移動Ad Hoc網絡中實時語音通信方法的研究”[6]一文中從網絡層面和應用層面兩個方面討論了機遇As Hoc網絡的語音通信方法,包括QoS控制機制等,但相關討論建立在仿真實驗基礎上,并沒有構建實驗驗證網絡。
可以看出,盡管對Ad Hoc網絡和VoIP[10][13]技術的研究已經取得了大量成果,但公開發表文獻未見關于“基于無線Ad Hoc網絡的智能手機終端語音通信系統”可以實用的成果發表。
2關鍵技術
由于Ad Hoc網絡獨有的無中心,自組織,多跳路由,動態拓撲,特殊的無線信道特征,安全性差等特點,所以需要考慮路由協議、服務質量保證、語音編碼技術、安全性等多個方面的問題,其中主要對路由協議與服務質量、語音編碼技術進行重點研究。2.1 VOIP技術
VOIP技術是將語音電話建立在IP技術上的語音傳輸技術,其基本原理是將普通電話的模擬信號轉換為數字語音信號,通過語音壓縮算法將語音數據進行壓縮編碼處理,然后把這些語音數據按相關協議進行打包封裝處理,通過IP網絡把數據包傳輸到目的地接收端,再把這些語音數據包重新裝配,經過解碼解壓縮處理后,恢復成原來的模擬語音信號,從而達到利用IP網絡進行語音通信的目的。我們可以利用此技術在ad hoc網絡上實現手機的語音通信,通信模型如圖1。
2.2語音編碼方案
通過網絡傳輸實時語音與傳輸普通數據不同,應用網絡的組成必須符合這種實時傳輸的需要。語音的分組傳送通常要求網絡提供充足的帶寬。但是Ad Hoc網絡帶寬資源有限,在這種情況下,我們可以通過編碼壓縮技術來減少對帶寬的使用
目前,語音編碼方案較多,主要包括G.711(64kbps)、G.723(5.3kbps~6.3kbps)、G.728(16kbps/8kbps)、G.729(8kbps)、MP3(128-112kb? ps)等,不同編碼方案的編碼碼率不同。目前智能手機中應用的802.11b/g協議的標準數據速率分別是11/54Mbps,而實際應用中可能遠達不到此標準。手機中GSM語音通話是采用G.711編碼,由于無線Ad Hoc網絡的鏈路容量較低,加之由于移動性導致的傳輸路徑的變化,采用固定的編碼方案和編碼速率可能無法較好的在語音質量和應用系統性能之間進行折中,所以可以采用G.729與G.711相結合的動態語音編碼方案。在鏈路狀況好的情況下優先考慮語音質量,采用G.711編碼,當網絡中發生擁堵斷路等影響傳輸速率的時候,選用低速率的G.729編碼方案。
2.3 QoS路由協議
在Ad Hoc網絡中,隨著節點移動,網絡拓撲結構在不斷變化。如何快速準確地選擇到達目的節點的路由是一個重要和核心的問題,路由協議分類如圖2。
語音通信系統對傳輸性能要求較高,延遲抖動要小、丟包率要低,在Ad Hoc語音通信系統中,Ad Hoc網絡中的節點在不斷移動,這樣就會引起網絡拓撲結構的動態變化,從而出現路由中斷,節點或鏈路擁塞,傳輸鏈路故障等問題,同時手機作為網絡節點能量有限,所以基于QoS/基于能量考慮的路由協議更適合于該系統。
QoS路由協議是一種基于數據流QoS請求和網絡可用資源進行路由的機制。一般QoS路由協議有兩個目標:一個是找到滿足QOS要求的路徑;另一個是充分利用全局網絡資對現有路由協議的分析。結合Ad Hoc網絡的特殊性,通過兩個節點之間可能存在的多條路徑傳輸語音數據能夠更好地滿足需求。針對目前Ad Hoc路由協議的研究現狀,按需多路徑距離矢量(AOMDV)路由協議更適用于本系統,如何找多多條路徑、如何維護多條路徑、如何實現多條路徑的負載平衡等問題是關鍵。
3 Ad Hoc網絡體系結構
根據Ad Hoc網絡中手機通信的特性,構建語音通信系統的Ad Hoc網絡體系結構。將整個網絡分成五層。針對各層的功能,將所用協議進行分層劃分,詳細結構如圖3。
應用層根據voip協議原理采用自適應編碼方案,根據網絡負載情況,當網絡負載輕時選用語音通信質量好的G.711編碼方案,當網絡出現擁塞等情況導致網絡傳輸下降時選用G.729編碼方案。
傳輸層根據voip原理將包進行封裝,為了更好的實現語音通信的實時傳輸,需要加入實時控制協議RTP頭,將數據進行RTP封裝后加入UDP頭等信息進行UDP封裝,然后交由ad hoc網絡進行傳輸。網絡層根據ad hoc網絡特性采用AOMDV協議進行路由選 路。鏈路層MAC協議采用DCF可以避免隱藏終端與暴露終端的問題。目前主流手機采用的無線協議多是802.11b/g兩種協議。
4系統概要設計
因為Ad Hoc網絡中的每一個節點都是獨立平等的,所以系統每一個模塊都應包含客戶端和服務器端兩部分的功能。根據語音通信過程將系統分為以下四個模塊,具體如下圖4。
4.1語音處理模塊
手機作為客戶端,利用麥克風對語音信號進行采集,并對采集的信號進行數字化,用合適的編碼方式對數據進行壓縮;作為服務器端,對接收到的數據進行解壓,將解壓后的語音信號在手機上通過話筒播放。
4.2實時控制模塊
源節點將語音模塊處理的數據進行封裝處理(RTP封裝、IP封裝),將數據通過合適的端口發送到網絡中;中間節點對接收到的數據包進行轉發;目的節點將接收到的數據包按照正確的順序排列,去掉報頭等交給語音模塊進行處理。
4.3路由模塊
客戶端(源節點)發起路由的查詢與建立,并對路由信息進行維護;服務器端(中間節點、目的節點)對源節點進行響應,建立源節點到目的節點之間的數據通信線路,實現語音數據的雙向通信,根據網絡變化狀況對路由進行控制維護。
4.4無線傳輸模塊
對系統的wifi進行配置管理,獲得接入Ad Hoc覆蓋范圍內手機終端的信息(SSID、MAC、IP等),網絡周期性的更新與維護,根據路由模塊選擇的路徑發送數據包。
5結束語
本文根據目前智能手機的發展情況,結合ad hoc網絡的特性,提出一個基于ad hoc網絡的智能手機語音通信系統的設計方案,該方案只是一個概要設計,對于路由協議、編碼方案、信令協議等問題可以進一步研究改進。
參考文獻:
[1] Pedro Braconnot Velloso,Marcel0 G. Rubinstein,Otto Carlos M. B. Duarte. Analyzing voice transmission capacity on ad hoc networks. Pro? ceedings of ICCT,2003,1254-1257.
[2] HuiYao Zhang, Marek Bialkowski, Garry Einicke, John Homer. An Extended AODV Protocol for VoIP Application in Mobile Ad Hoc Net? work. 2007 International Symposium on Communications and Information Technologies ,2007,836- 841
[3] Gao Feng, Weiwei Wang, Jun Cai.Reliable Busy Tone Multiple Access Protocol for Safety Applications in Vehicular Ad Hoc Networks. IEEE Communications Society subject matter experts for publication in the IEEE ICC 2010 proceedings.
[4] Choudhry Humayun Saleem, Khadim Hussain . Using Peer to Peer Voice Over Wireless Ad Hoc Networks as an Emergency Command and Control System. Technical report, IDE0903, February 2009.
[5]陳萍萍.手機終端的自組織通信協議的實現,[D].清華大學綜合論文,2008,6.
[6]李振宇,李思敏.一種移動Ad Hoc網絡中實時語音通信方案的研究[J].電子測量與儀器學報,2009,23(5):40-45.
[7]董梅,Symbian平臺下基于移動Ad Hoc網絡的流媒體實時共享系統[D].北京郵電大學碩士論文,2009,2.
[8]張楠.基于Ad Hoc網絡技術的無線通信網絡平臺研究[J].科學技術與工程,2007,7(20):5043-5048.
[9]馮欣,尹方超,賀麗柏,韓永林.Ad Hoc網中經典路由協議QoS性能研究[J].長春理工大學學報,2010,33(4):131-133.
[10]顧瑋奇,Ad Hoc網絡中VOIP應用的研究][D].南京郵電大學碩士論文,2009,6.
[11]余旺科,馬文平,嚴亞俊,陳和風.AdHoc網絡單向安全路由協議[Jl.吉林大學學報(工學版),2011,41(1):193-197.
[12]殷脂,葉春明,溫蜜.移動Ad Hoc網絡QoS路由的閉環DNA計算模型[J].上海理工大學學報,2010,32(6):593-601.
[13]孫毅,方更法,石晶林.移動自組織網絡上VoIP的實現方法研究[J].計算機工程,2005,31(18):99-101.
[14]李曉濤.基于Ad-hoc網絡的短距離語音通話系統的設計與實現,中國科學論文在線,[DB/Ol].ttp://paper.省略
[15]蔣維華.多跳Ad Hoc網絡中實現語音通信的技術研究[D].北京科技大學碩士論文,2009,5.
[16]錢琛.Ad Hoc網絡語音通信Qos研究及模擬分析[D].南京郵電學碩士論文,2008,4.
主要欄目
綜述與評論、綜合自動化系統、過程控制及應用、智能控制技術及應用、優化控制技術及應用、企業資源計劃系統、制造執行系統、計算機控制系統及軟件
投稿須知
1、來稿要求論點明確、數據可靠、邏輯嚴密、文字精煉,每篇論文必須包括題目、作者姓名、作者單位、單位所在地及郵政編碼、摘要和關鍵詞、正文、參考文獻和第一作者及通訊作者(一般為導師)簡介(包括姓名、性別、職稱、出生年月、所獲學位、目前主要從事的工作和研究方向),在文稿的首頁地腳處注明論文屬何項目、何基金(編號)資助,沒有的不注明。
2、論文摘要盡量寫成報道性文摘,包括目的、方法、結果、結論4方面內容(100字左右),應具有獨立性與自含性,關鍵詞選擇貼近文義的規范性單詞或組合詞(3~5個)。
3、文稿篇幅(含圖表)一般不超過5000字,一個版面2500字內。文中量和單位的使用請參照中華人民共和國法定計量單位最新標準。外文字符必須分清大、小寫,正、斜體,黑、白體,上下角標應區別明顯。
4、文中的圖、表應有自明性。圖片不超過2幅,圖像要清晰,層次要分明。
5、參考文獻的著錄格式采用順序編碼制,請按文中出現的先后順序編號。所引文獻必須是作者直接閱讀參考過的、最主要的、公開出版文獻。未公開發表的、且很有必要引用的,請采用腳注方式標明,參考文獻不少于3條。
6、來稿勿一稿多投。收到稿件之后,5個工作日內審稿,電子郵件回復作者。重點稿件將送同行專家審閱。如果10日內沒有收到擬用稿通知(特別需要者可寄送紙質錄用通知),則請與本部聯系確認。
7、來稿文責自負。所有作者應對稿件內容和署名無異議,稿件內容不得抄襲或重復發表。對來稿有權作技術性和文字性修改,雜志一個版面2500字,二個版面5000字左右。作者需要安排版面數,出刊日期,是否加急等情況,請在郵件投稿時作特別說明。
8、請作者自留備份稿,本部不退稿。
9、論文一經發表,贈送當期樣刊1-2冊,需快遞的聯系本部。
關鍵詞: 藏文編碼; 搜索引擎; 倒排索引; 網頁爬蟲
中圖分類號:TP393.4 文獻標志碼:A 文章編號:1006-8228(2017)06-22-04
Research on key technologies of Tibetan web search
Zhang Yunyang
(Library of Tibet University, Lhasa, Tibet 850000, China)
Abstract: Through analyzing the characteristics of the Tibetan characters' coding in Tibetan website, and introducing the characteristics of the search engine, this paper studies the key technologies of Tibetan web search. The technologies of URL processing, the qualified crawler, inverted index, words' retrieval, sorting for results and the others for Tibetan web are discussed in detail. This paper proposes a relatively complete method for Tibetan web search, which has certain practical value for Tibetan web's information search and use.
Key words: Tibetan coding; search engine; inverted index; Web crawler
0 引言
藏族是我民族大家庭的重要成員,藏語言文字是藏族同胞在日常工作/生活中廣泛使用的文字。幾千年以來,藏文字作為信息文化的傳播載體,對于傳承藏民族傳統文化、傳播現代科技知識和促進地區經濟的發展都發揮著重要的作用。在計算機世界中,藏文字區別于漢字和英文的最主要特征是字符編碼,目前國內網站多數使用GBK編碼存儲信息,使用基于GBK的字體顯示文字。而目前的藏文網站,為了方便兼容和統一檢索,主要使用基于國際標準編碼的Microsoft Himalaya字體和珠穆朗瑪系列字體。
1 藏文網站字符編碼技術
藏文在計算機和國際互聯網的使用,在輸入法和字體方面采用基于Unicode字符集的方法較為合理,方便信息共享,方便藏文廣泛交流?;ヂ摼W世界的藏文網站和網頁,現在都傾向于使用基于Unicode的藏文字體。
通過對國內比較著名的藏文網站源碼分析發現,主要的藏文網站均采用utf-8編碼,即藏文字符采用國際標準編碼Unicode字符集,而藏文字體采用基于Unicode的珠穆朗瑪系列字體和 Microsoft Himalaya字體。國內部分藏文網站和網站的字符編碼及字體分析如下。
2 網頁URL處理
2.1 URL簡述
URI:Universal Resource Identifier,通用資源標志符。URI通常由三個部分組成:訪問資源的命名機制,存放資源的主機名,資源自身的名稱[1]。
URL是URI的一個子集,它是Uniform Resource Locator的縮寫,譯為“統一資源定位符”,即通常說的網址。URL是Internet上描述信息資源的字符串,主要用在各種WWW客戶程序和服務器程序上。采用URL可以用統一的格式來描述各種信息資源,包括文件、服務器地址和目錄等[2]。URL的格式由三部分組成:第一部分是協議(或稱為服務方式);第二部分是存有該資源的主機IP地址(有時也包括端口號);第三部分是主機資源的具體地址,如目錄和文件名等。
2.2 URL處理流程
網頁搜索并不是對實時的網站信息進行檢索,在用戶提交檢索提問詞后,實際上是轉入搜索引擎的索引數據庫檢索,這些索引數據庫通常是由網絡搜索引擎的爬蟲進行采集、更新從而建立起來的。爬蟲最主要的處理對象是URL,它根據URL地址取得所需要的文件內容,然后對它進一步處理,網頁爬蟲URL處理流程如圖2所示。
3 藏文網頁爬蟲
3.1 爬蟲“黑洞”
爬蟲在搜集藏文網頁的過程中,必須考慮可能出現的“黑洞”情況。爬蟲黑洞是指,在抓取一張網頁的鏈接時,鏈接本身是一個無限循環,導致爬蟲抓取時跟著循環,浪費資源。有時一些URL看起來不同,但實際指向同一張網頁,也會使爬蟲陷入重復抓取的境地。
為了避免爬蟲誤入黑洞,一般采取兩種策略。一是爬蟲回避動態網頁,因為動態網頁常常會把爬蟲帶入黑洞。識別動態網頁時,只需要判斷URL中是否出現問題,含問號的就是動態網頁。二是使用Visited表記錄已經訪問過的URL,凡是遇到新的URL存在于Visited表,就放棄對該URL的繼續處理。例如:當遇到abcdce這樣的環路鏈接,爬蟲就會掉進去,反復抓取c、d對應的頁面。使用Visited表,就能避免這個問題。
3.2 限定爬蟲
藏文網頁搜索使用的爬蟲,是一種限定爬蟲,在爬蟲的功能定位上只抓取藏文的網頁,本質是對網頁文本所用語言的限定。藏文網頁的限定爬蟲,表面上是限定語言,具體操作層面需要通過限定IP、限定URL、限定charset來實現。
限定爬蟲就是對爬蟲所爬取的主機的范圍做一些限制,通常,限定爬蟲包含以下幾個方面[3]:①限定域名的爬蟲。比如,只抓取結尾的域名;②限定爬取層數的爬蟲。比如,限定只抓取2層的數據;③限定IP的抓取。比如,只抓取自治區內的IP;④限定語言的抓取。比如,只抓取中文漢字頁面。
抓取藏文網頁一方面要設計限定爬蟲,另一方面建立動態更新的藏文網站域名庫、藏文網站主機IP庫,配合限定爬蟲工作。目前已有部分藏文網站在頁面中加入了標記,如中國藏學網采用的是,IT網采用的是,瓊邁藏族文學網采用的是??梢愿鶕W頁代碼中的標記來識別判斷藏文網站。藏文網站域名庫和藏文網站主機IP庫,需要人工操作,人為添加一些地址,這方面參照現在互聯網廣泛使用的“純真IP數據庫”實現。
3.3 藏文網頁倒排索引
藏文網頁倒排索引的建立流程如下。
第一步:抽取網頁正文。網頁正文是相對網頁噪聲而言。當今的互聯網網頁上,頁面的很多篇幅用在廣告、搜索推薦和其他鏈接上。網頁搜索工具關注的是網頁本身要表達的信息,所以在通過爬蟲獲取到頁面源碼之后,要去除那些與本文無關的噪聲,抽取到網頁正文。
第二步:分字。藏文文字區別于漢文,漢文是一個字使用一個編碼,而藏文是對組成字的基字編碼,一個完整的藏文字可能存在多個編碼,這些編碼按組成藏文字的方法順序排列。藏文的分字通過藏文字分隔符 ‘ ’ 來實現,如這段藏文字,中間有四個分隔符,句末有一個斷句符。在分字過程中,需要去掉一些無實際意義的字和符號,只留下有明確表意的字進行網頁的檢索。
第三步:對全文以字建索引。以字建索引,雖然檢索過程的匹配計算量會更大,但考慮到目前藏文網頁總體數量不大,應該是一種可行的提高查全率的辦法。根據上一步得到的字,記錄每個字在文中出現的位置,計算每個字出現的次數,建立鏈表。位置用于檢索時的準確定位,次數用于計算字對文檔的重要性,也用于相關性排序計算。
第四步:對標題建索引。大部分的Web文檔有文檔標題TITLE,標題反映了文檔的主要內容,是搜索和導航的重要依據。標題索引以詞、短語或句子為索引單位,具體根據詞表匹配情況確定,如果標題匹配詞表中的規范詞則使用規范詞,如果沒有則直接以標題建索引。藏文規范詞表是動態更新的。檢索時以匹配標題索引為優先策略,先查詢標題索引庫,再查詢全文索引庫。
第五步:索引旄新。網站的頁面信息是動態更新的,由網絡爬蟲抓取得到的藏文網頁倒排索引庫也需要更新。搜索引擎的倒排索引更新有多種方式,包括修改更新、覆蓋更新和添加更新。鑒于目前上線的藏文網站數量少,網絡爬蟲工作周期短,藏文網頁的倒排索引庫更新可以采取添加更新加覆蓋更新的策略。每次爬蟲工作完成后,建立新的索引庫,將查詢引擎鏈接指向新的索引庫,同時保留近兩期的索引庫,將更早的索引庫刪除。每次添加新的索引庫后,先將之前近兩期的索引庫保留一段時間備用。
4 檢索
藏文網頁搜索工具為用戶提供檢索藏文網頁信息,先根據用戶提交的檢索提問標識,去匹配索引庫中的網頁信息標引標識[4],然后將匹配上的結果按相關系數降序排列,匹配出的每一項條目直接指向網頁源地址,同時在結果頁顯示每條結果的網頁快照,以高亮顯示匹配字符。
4.1 檢索詞審閱
我國于2004年和2008年先后通過的《藏文編碼字符集擴充集A》、《藏文編碼字符集擴充集B》兩套國家標準,收錄藏文字符7205個,包括現代藏文、古藏文和梵音轉寫的藏文字符,藏文覆蓋率達到99.99%[5]。在藏文網頁搜索過程中,有必要對用戶輸入的藏文字進行拼寫檢查,確認輸入的每個字是正確的藏文字。將這兩套國家標準收錄的藏文字逐一列出,查出對應的國際編碼,建立藏文國際編碼字表,在用戶輸入檢索詞時使用此表來進行文字審閱。
4.2 文字匹配
藏文網頁搜索,實質是將用戶輸入的檢索提問標識與索引庫中的網頁標引標識進行比對,找出匹配的條目?,F有的字符編碼體系,對漢字是以整字編碼,如“漢”的GBK編碼是“BABA”,“漢”的unicode編碼是“6C49”;藏文字是對構成字的每個構件進行編碼,因此一個藏文字的編碼實際是由一個或多個構件的性,藏文字符匹配相對漢文和英文需要更大的計算量,比對一個字實際需要比對多個編碼。
文字匹配采取精確匹配和模糊匹配兩種策略。優先采用精確匹配,將理論上最相關的結果反饋給檢索用戶。如果精確匹配命中條目很少或者沒有命中條目,采取模糊匹配策略,將近似相關的結果反饋給檢索用戶。精確匹配是找出完全包含檢索詞的結果集,模糊匹配是找出語義上近似的相關結果集。應用檢索理論中的縮檢與擴檢,當命中結果很多時,篩選最相關結果集;當命中結果很少或完全沒有時,逐步減小相關系數閾值,或多或少地為用戶提供一些近似相關結果集,盡量滿足用戶的檢索需求。
4.3 結果排序
檢索結果排序是網頁搜索的重要一環,一般的全文檢索系統,是按更新時間和點擊率對結果集排序,如利用文獻管理系統查閱圖書時,查詢結果根據圖書出版時間降序排列,或者根據外借次數降序排列,突出顯示熱門圖書。但是,用戶的網頁搜索需求不完全是將時效性排在第一位,網頁爬蟲在抓取網頁更新索引時對每個網站的更新周期不一樣,等級高的網站被爬取的頻次高,等級低的小型網站被爬取的頻次低。因此,網頁搜索結果不能按網頁時間排序,用戶普遍更關注的是相關度[6]。
Google等大型搜索引擎使用復雜的PageRank算法進行鏈接分析,遞歸地計算網絡上的全部站點排名[7]。藏文網頁搜索的規模較小,可以采取簡單的策略。以檢索詞的匹配程度作為主列排序,以信息時間作為次列排序,按相關度從大到小排序,相關度相同的按更新日期從晚到早排序。
5 結論
互聯網世界的藏文字符已經趨向于使用基于Unicode的字符集和基于utf-8編碼的字體,這有利于人們更多地使用藏文進行交流。目前,Google搜索已經開發了針對藏文網頁的搜索功能,國內多家單位也正在研發本地化的藏文網頁搜索引擎??傮w來講,藏文網頁搜索還處在探索階段,究其原因,主要有三個方面:一是多年來藏文字符編碼不統一,一些藏文軟件還沿用著基于國家標準的藏文字體,不兼容當前國際標準編碼;二是藏文網頁/網站數量較少,用藏文記述的文獻信息體量巨大,但目前“搬”上網的還很少;三是藏文與漢文的混排、混檢技術還處于發展中,最直接的解決辦法是平臺上的藏文和漢文都使用基于Unicode的字符編碼,但會額外增加大量的漢文字符存儲開銷和網絡流量開銷,這也是一些大型站點保持使用GBK的原因。目前針對藏文信息處理的研究有很多,我們期待將來藏文在互聯網世界更廣泛更靈活的應用。
參考文獻(References):
[1] 謝玉開.基于JAX-RS的面向資源架構應用研究[D].浙江理
工大學碩士學位論文,2011.
[2] 范劍波.網絡數據庫技術及應用[M].西安電子科技大學出版
社,2004.
[3] 王娟,吳金鵬.網絡爬蟲的設計與實現[J].軟件導刊,2012.4:
136-137
[4] 王灃.運用信息技術保護莽人語言文化的研究[J]. 科技情報
開發與經濟,2014.11:144-145
[5] 普頓.移動電話上實現藏文信息處理的方法研究[D].大
學碩士學位論文,2009.
[6] 呂月娥,李信利.基于信息類別的網頁過濾算法[J].福建電腦,
2007.2:99,122