[心得] 自由格式的另一選擇 MHT(比 PDF 更好) [論壇 - Ubuntu 哈啦]


正在瀏覽:   1 名遊客


 到底部   前一個主題   下一個主題  [無發表權] 請登錄或者註冊

(1) 2 3 4 »


[心得] 自由格式的另一選擇 MHT(比 PDF 更好)
會員四級
註冊日期:
2008/11/20 21:32
所屬群組:
已註冊使用者
等級: 20
HP : 0 / 487
MP : 163 / 8434
EXP: 48
離線
[心得] 自由格式的另一選擇 MHT(比 PDF 更好)

前言:

*.mht 檔,就是 IE 在網頁存檔時,那個「網頁封存-單一檔案」

請放心,這篇不是講 IE 的,個人痛恨 IE。


我一直以為 *.mht 是微軟 IE 專屬的格式,因為別的瀏覽器都沒有內建可以存這種檔,但最近發現這是錯誤觀念。

.mht, .mhtml(MHTML,MIME HTML)
是 RFC 2557 標準,是一種自由格式
是 HTML 的擴展格式,其編碼是純文字檔,用文字編輯器就可打開看源碼

參見 WIKI 資料:
http://zh.wikipedia.org/wiki/MHTML



如何使用:

Firefox 和 Chrome 都可以支援 mht 檔的「儲存」和「讀取」,內建無此功能,但安裝附加元件即可支援。


Firefox 附加元件 - UnMHT:(評價五顆星)
https://addons.mozilla.org/zh-TW/firefox/addon/unmht/?src=search

看到有用資料的網頁,可以直接存成 *.mht 檔(單一檔案封裝)

讀取時,指定讓 Firefox 或 Chrome 去開啟即可。

不需額外的軟體,瀏覽器就可以看,且開啟速度很快,比 PDF 需要額外軟體好太多。



建議的設定:



上圖:存檔時,在文件頂端加註「來源網址」、「封裝時間」

因為 mht 檔是瀏覽器去開的,容易混淆以為在上網,在檔案的前面加註來源和時間,以便識別這是本機檔案。

若有需要更進一步了解資料,也可點擊來源的連結。
日期時間標記則有助於幫助了解這是何時建立的資料。




上圖:可以設定預設儲存到哪裡,才不用每次都選目錄,選老半天。



上圖:將那個按鈕拖到工具列,以方便點擊存 MHT 檔。


************************************************************

平常在上網的時候,看到有用的資料,想做個紀錄或留存,大家都怎麼做?


我來說說各種方法的缺點:


● 將網址存書籤 temp 目錄,稍後再看,或以後有需要查詢

這個應該是最多人用的方法,但是這個方法有幾個缺點:

1.想看時,網站已經消失了,或是 404 網頁不存在。
2.一直往書籤裡,塞一堆 temp 暫存書籤,會愈來愈亂,肥大,整理分類困難。
3.資料仍是在網路上,需要連接網路去讀取,下載,花時間。



● 安裝附加元件 Red It Later,分隔另一組書籤

Read It Later 這個附加元件,允許使用者有另一組書籤,且與遠端伺服器同步。

這元件是不錯用,然而如果拿來紀錄有用網頁資料,缺點和直接存書籤沒兩樣,就是上面說的那3個缺點。



● 使用「列印到 PDF」的軟體(虛擬印表機),將網頁存成 PDF

這類的軟體,其實都無法 100% 正確轉換 PDF,都會有漏東西,光是這一點就不建議使用了。且轉換速度非常慢。

此外它們轉出來的 PDF,都會一頁一頁的,非連續,雖然列印紙張方便,但觀看時不方便。



● 使用抓圖附加元件,比如 Pixlr Grabber,直接將整個網頁存成圖片

這方法適合存證網頁,但不適合用來保留資料。

因為:
1.抓整個網頁,圖片長度會非常長,容量會很大,一張都好幾 MB。
2.圖片無法複製文字,只能看。
3.需要一個優良的看圖軟體,不然看這種很長的圖片,會很麻煩。



● 使用附加元件 ScrapBook,擷取並管理網頁

這個在火狐正體中文站長期位居 TOP 15 的附加元件,老實說,我個人覺得不好用。

它其實就是用目錄存 HTML,和 Firefox 直接存檔沒兩樣,只不過它兼具管理的功能,能快速調出已儲存的網頁。

最大缺點是:打包分享給別人,會很麻煩。

因為它是一個目錄,裡面很多 htm + 圖片 的小檔,打包頂多就壓縮起來,分享給別人後解壓縮。沒有 "單一檔案封裝" 那麼直覺和好整理。

這就是為什麼幾乎沒人分享 ScrapBook 存的資料的原因,因為分享、共享,很麻煩。



********************************************************


將網頁封裝打包,存成 mht 檔,有什麼好處(優點)?


● 收納、整理方便。一個檔案,就是一份資料。

● 開啟速度極快。

● 不需要額外軟體,只需瀏覽器便可開啟。任何電腦都有瀏覽器。且跨平台,跨 OS。

● 自由格式。


● 分享、共享時,很方便。

舉例比方說:

如果有人問:Ubuntu 怎麼改軟體來源?怎麼改語言為中文?....等等

我就將相關解決方法的 mht 檔,直接用論壇附件上傳,或傳到免空、網路硬碟,一個字也不用打,問的人自己下載去看。y( ̄▽ ̄)y

想像一下,這是多麼的便利。

當我們收集很多常見 Q&A 解決方法的資料,都是一個個 mht 檔在硬碟裡,找的時很快,可以分門別類去找,或者搜尋檔名關鍵字。

這對於推廣 Ubuntu 很方便,省時、省力。


● 可取代 PDF 文件

PDF 文件並不是不好,它是比較適合書籍、電子書,因為它有索引目錄的功能,類似 ePUB 電子書檔。

但是在分享一些簡單的內容,或資料時,當不需要索引頁數的時候,PDF 就顯得有些累贅。

HTML 網頁可以呈現很多內容,並不比辦公文書軟體差,文書軟體能打出來的內容,網頁絕對做得出來。

因此,其實很多文書檔案,若不是需要列印,只是單純要看的,用 mht 檔來取代是相當不錯的。

現代人其實很少在列印了,平板電腦流行後,都看電子檔,不必列印省紙救地球,省墨水、省碳粉救荷包。

像 OpenOffice 之類的辦公軟體,另存新檔時,都可以存成 html 文件,再用 UnMHT 之類的工具,去轉成(封裝) mht 檔即可。如此一來就沒有軟體的問題,因為瀏覽器即可以開啟。

另外像很多 部落格 blog程式,論壇程式,WIKI 程式,也都是不錯的網頁編輯軟體。在本機電腦 LAMP 裝個一套,編輯發表後,另轉 mht檔,就可以很方便的分享給別人。架設 LAMP 網站不是要對外開放的,而是自己私底下用來編輯網頁的,算是另類的簡易網頁編輯器,有何不可呢。



總結來說,MHT 檔是非常不錯的自由格式,可用來取代 PDF,值得多多推廣使用。

若您也有 "整理網頁資料"、"分享資料" 的困擾,這篇也許能幫到,獲得一些靈感。

以上一點點心得,參考看看 XD


***********************************************


補充:

Firefox 存 mht 檔,附加元件還有另一個選擇:

感謝網友 Vdragon 提供信息


附加元件-Mozilla Archive Format(MAFF):
https://addons.mozilla.org/zh-TW/firefox/addon/mozilla-archive-format/?src=search

它可以存 .mht(跨瀏覽器)或 .maff(僅有 Firefox 能開啟)


如何使用:



(上圖)安裝後,在分頁標籤,滑鼠右鍵,會出現新的選項,另存分頁為...



(上圖)選擇要存哪個分頁



(上圖)可以選「存檔格式」,.maff 或 .mht



說明:

Q.什麼是 .maff 檔?

A.
maff 檔,實際上就是 zip 封裝的網頁目錄

將副檔名 *.maff 改成 *.zip,即可解壓縮
解開後,會看到一個目錄,裡面包含網頁的 .htm + 圖片 + .js + .css

根據附加元件的說明頁,它無法抓嵌入式的視頻和音頻,但是它可以抓到 HTML5 型態的影片和聲音檔。

以這種方式來儲存、封裝網頁,相容性最高,因為完全沒有變動網頁原始碼的組成,僅是 zip 壓縮起來而已。

不過 maff 檔案,目前只有 Firefox 可以直接開啟。

其它瀏覽器無法直接開 .maff 檔,但是可以副檔名改 .zip,解開後,點擊裡面的 index.htm 來看。

如果要研究別人的網頁如何寫的,抓下來存 maff,是不錯的主意。將 .maff,改副檔名為 zip,解壓縮後,裡面有網頁組成的所有內容。



.maff vs. .mht 格式比較,大亂鬥,熟優熟劣:(下圖)


2012/6/7 1:16
應用擴展 工具箱
回覆: [心得] 自由格式的另一選擇 MHT(比 PDF 更好)
會員五級
註冊日期:
2008/10/7 21:19
所屬群組:
已註冊使用者
等級: 36
HP : 177 / 886
MP : 643 / 15662
EXP: 46
離線
個人原本也以為那是IE專有的格式,不說不知道呢...學習了

2012/6/7 2:08
I′m UGP
應用擴展 工具箱
回覆: [心得] 自由格式的另一選擇 MHT(比 PDF 更好)
會員二級
註冊日期:
2012/4/3 1:22
所屬群組:
已註冊使用者
等級: 5
HP : 0 / 100
MP : 13 / 753
EXP: 2
離線
請問 Chrome 上支援 mht 檔的附加元件是?

2012/6/7 6:36
應用擴展 工具箱
回覆: [心得] 自由格式的另一選擇 MHT(比 PDF 更好)
會員三級
註冊日期:
2011/8/16 11:15
所屬群組:
已註冊使用者
等級: 11
HP : 0 / 274
MP : 55 / 2560
EXP: 96
離線
UGP 寫到:
個人原本也以為那是IE專有的格式,不說不知道呢...學習了

+1
以前用MS Office製作MHT時,只有IE能開。

2012/6/7 7:16
應用擴展 工具箱
回覆: [心得] 自由格式的另一選擇 MHT(比 PDF 更好)
會員三級
註冊日期:
2009/10/14 18:43
所屬群組:
已註冊使用者
等級: 9
HP : 0 / 206
MP : 35 / 3031
EXP: 25
離線
[心得]自由格式的另一選擇 DOCX(比 PDF 更好)

前言:

*.docx 檔,就是 M$ Office 在存檔時,那個預設的存檔格式

請放心,這篇不是講 M$ Office 的,個人痛恨 M$ Office。


我一直以為 *.docx 是 M$ Office 專屬的格式,因為別的文書處理軟體都沒有辦法正確的顯示其內容,但最近發現這是錯誤觀念。

.docx(Office Open XML)
是 ECMA-376 / ISO/IEC 29500 標準,是一種自由格式
是 XML 的擴展格式,其實體是包含一堆 .xml 檔跟其他所需資源檔案的壓縮檔,用一般的解壓縮程式就可解壓縮並編輯

參見 WIKI 資料:
http://zh.wikipedia.org/wiki/Docx

...<後略>

2012/6/7 9:16
應用擴展 工具箱
回覆: [心得] 自由格式的另一選擇 MHT(比 PDF 更好)
會員三級
註冊日期:
2009/10/14 18:43
所屬群組:
已註冊使用者
等級: 9
HP : 0 / 206
MP : 35 / 3031
EXP: 25
離線
有RCF、ECMA、ISO 編號並不代表那就是自由格式,充其量也只是說這是有送去當建議標準的格式
況且以我舉的例子來說,連 M$ Office 都不遵守自己推的標準了...(不然為什麼M$ Office編輯的文件在其他文書軟體開啟,文件格式會跑掉?)
千萬別跟我說 RCF 不一樣唷~
所謂的自由格式,並不代表我有什麼 RCF、ECMA、ISO 等等的編號,而是把我怎麼呈現的都告訴你了,讓同一種描述,你的呈現可以跟我的呈現幾乎一致,才叫做自由格式
M$可從來沒有公開說他們怎麼呈現 MHTML 格式,如果有其他瀏覽器的呈現可以跟IE的幾乎一致那絕對是那些努力以黑箱測試來撰寫 MHTML 格式呈現的工程師的功勞

2012/6/7 9:31
應用擴展 工具箱
回覆: [心得] 自由格式的另一選擇 MHT(比 PDF 更好)
版主
註冊日期:
2011/12/5 14:04
所屬群組:
網站管理員
已註冊使用者
討論區管理群
等級: 17
HP : 0 / 423
MP : 123 / 3574
EXP: 93
離線
不好意思,多謝您這麼熱心分享這些東西,可是關於 MHT 是不是自由格式這件事情,我想請問一下,是在哪裡有說到關於 MHT 是個開放檔案格式或者是自由格式這件事情呢?

不論是您給的 wikipedia http://zh.wikipedia.org/wiki/MHTML

還是裡面延伸的MIME格式 http://zh.wikipedia.org/wiki/MIME

甚至是各種國外對於 MIME 格式的介紹 https://www.google.com.tw/search?hl=zh-TW&newwindow=1&safe=off&client=firefox-a&rls=org.mozilla%3Aen-US%3Aunofficial&channel=fflb&q=Multipurpose+Internet+Mail+Extensions&oq=Multipurpose+Internet+Mail+Extensions&aq=f&aqi=&aql=&gs_l=serp.12...0.0.0.24190.0.0.0.0.0.0.0.0..0.0...0.0.kf4k2Vx9aSw

我一時都找不到說他是開放檔案格式的語句出現耶?可以請您解惑一下,您是在哪裡看到他是自由格式或者是開放檔案格式的嗎?

看得到『使用者的撰寫內容的原始碼』和『該檔案格式本身的原始碼』這兩件事情應該是不同的喔....

2012/6/7 11:28
我可以接受罵人,但是我不能接受不尊重人的罵人。如果有任何問題,歡迎通知我來處理!

我的噗浪:http://www.plurk.com/aa33002
我的部落格:http://way3sec.blogspot.com/
我的Email:3secway@ubuntu-tw.org
應用擴展 工具箱
回覆: [心得] 自由格式的另一選擇 MHT(比 PDF 更好)
版主
註冊日期:
2008/7/14 0:03
來自 螢幕的另一端
所屬群組:
網站管理員
已註冊使用者
討論區管理群
等級: 30
HP : 149 / 747
MP : 423 / 13713
EXP: 89
離線
你可以參考一下它的英文資料,它有寫的更完整一些。
http://en.wikipedia.org/wiki/MHTML

太長了,所以我還沒看

2012/6/7 14:22
應用擴展 工具箱
回覆: [心得] 自由格式的另一選擇 MHT(比 PDF 更好)
版主
註冊日期:
2008/11/21 9:18
所屬群組:
網站管理員
已註冊使用者
討論區管理群
等級: 20
HP : 0 / 489
MP : 165 / 8467
EXP: 56
離線
感謝作者的用心。
不過,試了一下,不好用耶。
就以眼前這一頁為例,
存成 .mht 或 .mhtml 後
完全失真,
而且,若用 ie 去開的話,還會跳出 Active X 的警告列

再者,開啟的速度也很慢
遠遠比不上存成 htm 的速度

2012/6/7 17:02
應用擴展 工具箱
回覆: [心得] 自由格式的另一選擇 MHT(比 PDF 更好)
會員四級
註冊日期:
2008/11/20 21:32
所屬群組:
已註冊使用者
等級: 20
HP : 0 / 487
MP : 163 / 8434
EXP: 48
離線
jtmh 寫到:

請問 Chrome 上支援 mht 檔的附加元件是?


Chrome 擴充元件:SingleFile



安裝 SingleFile:

Chrome 線上應用程式商店:
https://chrome.google.com/webstore/category/home?hl=zh-TW

左上角,搜尋:SingleFile




(上圖)搜尋結果,前兩個就是了,兩個都要裝


**************************************

如何使用:



(上圖)安裝 SingFile 後,工具列那邊,會冒出一個新的按鈕

1.點擊它來存網頁

2.點了後,會跳出一個黃色標籤,可以改檔名

3.檔名若滿意後,點擊 click here to save the page 存檔




(上圖)Chrome 底部會出現一個警示的訊息框

說:是否真的要儲存 htm 檔?
選:保留


儲存後,可到 chrome 預設的下載目錄,找檔案。


說明:

Q.為何會出現那個底部警示訊息框?

A.
因為 SingleFile 擴充元件在存檔時,副檔名會存成 .htm

但實際用文書編輯器,例如 gedit 打開來看,裡面是 MHTML 編碼的

也就是說:它實際上是存成 mht 檔(單一檔案封裝),但是它存的時候,副檔名卻是定為 *.htm

而 chrome 認為使用者在下載 htm 檔,可能會損害電腦,因此跑出那個訊息框。


至於 SingleFile 能否改成:存檔時,預設副檔名 .mht?

或者設定 chrome 不要在跑出那個訊息框?

Chrome 我不熟,這個有待 chrome 高手解答

2012/6/7 17:02
應用擴展 工具箱

(1) 2 3 4 »

 [無發表權] 請登錄或者註冊


可以查看帖子.
不可發帖.
不可回覆.
不可編輯自己的帖子.
不可刪除自己的帖子.
不可發起投票調查.
不可在投票調查中投票.
不可上傳附件.
不可不經審核直接發帖.