采集提取時間-來源-作者及入庫的方法
以http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187這個頁面為例進(jìn)行說明,,目標(biāo)將時間信息轉(zhuǎn)化為國微的時間格式 2015-03-09 17:55:26
一、采集時間方法
1,、打開http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187這個頁面,點(diǎn)擊右鍵查看代碼,,在頁面中,,時間的特征代碼如下:
2、在火車頭采集器中,,使用“正則提取”的方式來編輯標(biāo)簽,如下所示:
圖1
在“發(fā)布日期:”后面,,將原來的時間信息2015/3/9 17:55:26分成四段來進(jìn)行提取,,將年、月,、日和后面的小時分鐘秒數(shù)分開提取,,由于每個頁面中來源也是變化的,所以來源后面也需要用一個參數(shù),,具體的設(shè)置如下所示:
<td height="28" align="center" valign="middle" bgcolor="#E6EEF9" class="font32"> 來源:[參數(shù)] 發(fā)布日期:[參數(shù)]/[參數(shù)]/[參數(shù)] [參數(shù)] 點(diǎn)擊數(shù):[參數(shù)] 【字體:(*)
圖2
對應(yīng)地在組合結(jié)果當(dāng)中,,我們只需要發(fā)布日期信息,所以我們只需要使用上圖紅色[參數(shù)]中的第2,、3,4,5幾個參數(shù),,第一個參數(shù)不使用,將參數(shù)組合變成國微的時間格式,,如下所示:
圖3
注意:[參數(shù)4] [參數(shù)5]中間有一個空格
3 如果你想要采集來源的方法采集時間一樣,,只是右邊組合結(jié)果參數(shù)名字不同如下圖所示
(采集作者或者其他的方法類似,只要把想要的第幾個參數(shù)的名字對應(yīng)的填在右邊就行了)
4,、最后,,測試是否能采集到時間,來源 類似如下:
圖4
二,、入庫發(fā)布時間,,作者或者其他參數(shù)的方法
要使用發(fā)布時間能采集后放入數(shù)據(jù)庫中保留原來的發(fā)布時間,必須在發(fā)布模塊中進(jìn)行配置時間,。
1,、點(diǎn)擊“第三步:發(fā)布內(nèi)容設(shè)置“中的”Web發(fā)布配置管理“鏈接,如下圖所示:
圖5
2,、第一步從國微采集壓縮包中找到國微php168發(fā)布模塊導(dǎo)入,,第二步選擇下圖中的紅框中的發(fā)布模塊“國微PHP168“模塊,,第三步點(diǎn)擊“編輯”按鈕。
圖6
3,、點(diǎn)擊“編輯”按鈕后,,彈出的編輯對話框如下圖所示,,選擇“內(nèi)容發(fā)布參數(shù)”,雙擊timestamp,進(jìn)行編輯,。
圖7
4、在彈出的框中,,表單值中寫入[標(biāo)簽:時間],,并保存,list_order也類似,,如下圖所示,。
圖8
5 來源跟作者的發(fā)布模塊配置也是一樣(source代表來源,author代表作者),,如下圖所示
6 最后一步就是保存入庫,,如下所示
提醒注意:以上圖中[標(biāo)簽:時間][標(biāo)簽:來源][標(biāo)簽:作者]并不是隨意寫的,是與圖2中采集內(nèi)容規(guī)則中的標(biāo)簽名“時間,,來源,,作者”是對應(yīng)的。如下圖所示,。
圖9