import html2text from nltk.stem import PorterStemmer import pymysql from os import listdir from os.path import isfile, isdir, join # 指定要列出所有檔案的目錄 mypath = "D:/資料擷取/CACM_dataset/cacm/" # 以列表取得所有檔案與子目錄名稱 files = listdir(mypath) # 以迴圈處理 for f in files: # 產生檔案的絕對路徑 fullpath = join(mypath, f) # 判斷 fullpath 是檔案還是目錄 if isfile(fullpath): # 為檔案 cacm_file = open("cacm/CACM-0001.html", 'r', encoding='utf-8') # elif isdir(fullpath): # 為子目錄,不管它 # file I/O cacm_file = open("cacm/CACM-0001.html", 'r', encoding='utf-8') f_content = cacm_file.read() print(f_content) # 原文 # file.html transfer to file.txt h2t = html2text.HTML2Text() f_content = h2t.handle(f_content) print(f_content) # tokenizing 分離每個字,去掉標點符號及空白鍵等 f_content = f_content.split() print(f_content) print(type(len(f_content))) print() # stemming 還原字根 stemmer = PorterStemmer() for index in range(len(f_content)): print(stemmer.stem(f_content[index])) # 第一組是title # 然後CACM之前是abstract # CACM是日期 # 下面再看有沒有作者 # 打开数据库连接 db = pymysql.connect("localhost", "root", "", "paper") # 使用 cursor() 方法创建一个游标对象 cursor cursor = db.cursor() # 使用 execute() 方法执行 SQL 查询 cursor.execute("SELECT VERSION()") # 使用 fetchone() 方法获取单条数据. data = cursor.fetchone() print("Database version : %s " % data) # 关闭数据库连接 db.close()
- Apr 16 Mon 2018 03:59
資料擷取
- Jun 01 Thu 2017 10:06
多媒體筆記(七)2017/6/1
- May 25 Thu 2017 10:09
多媒體系統(六)2017/5/25
- May 25 Thu 2017 10:08
多媒體筆記(五)2017/5/18
- May 25 Thu 2017 10:07
多媒體筆記(四)2017/5/11
- May 25 Thu 2017 10:05
多媒體筆記(三)2017/5/4
- May 25 Thu 2017 10:02
多媒體筆記(二)2017/04/27
- May 25 Thu 2017 09:28
多媒體系統筆記(一)
- Apr 17 Mon 2017 20:58
國家高速研究網路參訪內容整理
參訪行程內容 [參訪行程綱要,106/4/12]
- 國家高速網路簡介:
- 隸屬國家實驗研究院
- 高速計算服務
- TWAREN 學研網路
- 大資料分析平台服務
- 儲存服務
- 網路規劃架構 :
- 架構圖
- (架構圖)布建: 有A,B兩條布建,透過公開競標,選定兩間固網業者,以達到備源,目前一條為亞太電信,一條為中華電信
- 工程師必須記住所有佈網架構圖,以利於排除障礙,因為每個區網所對應到的網路設備是上百台,每一台又有不同的IP,每一台設備中更是有許多介面,所以必須在網路障礙發生時,二分法 :
- 設備問題 : 何處的設備問題?哪一層設備?
- 線路問題
- 架構主要有五個節點:中研院,台北,國網中心三個
- 點對點10G 目前提升至 100G,且改為「光傳輸」設備
- 同一處會有兩個功能相同的主節點,以提升可用性(一地雙中心的主節點,同一點有兩條線延伸出去)
- 若要排除障礙時,透過SSH連接設備
- 在國外洛杉磯、芝加哥、紐約(國際骨幹)皆有布放 L3路由器(9006i ,I = internal 國際 路由器),路由器數字越高(目前使用高研院N9K,9系列;學校一般使用3750,3系列;以往10G網路時,使用7系列),功能越好,價錢也越高
- (架構圖上的圓圈)各地機房,通常是與中華或亞太租用,而國網與教育部、科技不將自己的設備配置進去
- ASR系列
- (先建後拆)建置過程,是先建置新的,建置與測試完成後,才進行線路移轉
- 監控維運中心位於台南高研網內,監控每一層網路設備24小時監控(一人12小時換班,4人輪班)
- 維運中心做駭客入侵監控時,比較正常情況下每五分鐘平均值(通常為10%以下),CPU異常飄高,代表可能駭客入侵,(若是值會飄高,代表電路目前是活著的,尚無問題,是一種預警性的監控維運) ,工程師必須進行處理
- 當學校申請網段,位運中心會做監測,若往段有缺貨有問題,中心會與學校詢問
- 監控系統是透過很多標的做交叉比對,例如:流量、電壓、CPU使用率等
- 早期維運是網路斷了,阻斷服務了,才做處理,現在為預警性維運
- NOC官網上下載專區存放許多技術的文件與開會內容,提供研究
- NOC尚可對網路連外狀況做檢測報告(主要為學術網路),可藉由顯示的IP做反查,得到管理其IP網段的管理者/單位
- 家中的ADSL不是使用一條獨立的線,而是電信業者在機房中做切換。當ADSL線從家中出來,會到馬路旁電信箱,進到馬路下(一束一束,100對或500對)
- ADSL並不是走純光纖,廣告中光纖到府除非進到家中是光纖的線,否則通常為銅心線
- 但學術與研究網路不同,必定是走純光到最終端設備
- 真正國際骨幹為12條,因為台灣承租海纜各10G(實體曾),
- 台灣海纜最遠到歐洲捷克,目前台灣控制範圍內往美洲歐洲方向所能到達最遠範圍;亞洲來講是從中研院出去(此處無介紹)
- BGP
- TW LINK發放台灣IP (26:07)
- 因IPv4、IPv6是美國的系統,我們是透過美國發放IP網段以使用全球網路服務,IP網段由TW LINK做發放
- APG:海纜系統由不同的單位與國家共同建置
- 台灣有四個海纜站上岸點:八里、頭城、淡水、仿山(鵝鑾鼻公園往南走左手邊,或是往回走右手邊)
- 焦土政策:佔領地方,且不使用此處資源,癱瘓掉這個地方
- 若戰爭了,攻擊主節點或區網,系統會自動化進行匹配或工程師購過筆電進行手動匹配
- 若對四個海纜戰攻擊,代表軍事網路、民生網路、醫學網路學術網路等等,台灣對被隔離
- 但海纜站的重建及其困難(需要許多國家協議),若攻擊海纜站做佔領,被佔領之處也廢掉了
- 海纜在海底時是鋪著的,但上岸附近是在土裡埋著,以免被漁船勾到損壞
- 中華電信國際分公司進行海纜的收容
- 互聯網是透過海纜建置
- Mar 21 Tue 2017 14:40
GCC ON LINUX