命令行程式分享 - tf- 基於詞關聯度搜尋檔案 [論壇 - Ubuntu 與工具程式及軟體推薦]
正在瀏覽:
1 名遊客
命令行程式分享 - tf- 基於詞關聯度搜尋檔案 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員三級
![]() ![]() 註冊日期:
2008/12/10 7:19 所屬群組:
已註冊使用者 等級: 15
HP : 0 / 369
![]() |
最近寫了一支程式,可以計算檔案與特定詞組之間的相關程度,叫 tf。
https://github.com/visig9/tf 這程式的主要設計目標,是在無索引、無分詞器、目標語言未知、什麼都沒有的狀況下搜尋檔案,並可依照關聯性排序用的。換言之,有點像是語言中立的全文檢索。 如果只是想搜尋檔案,純用 grep 或 find 就可以了。但若想計算關聯度,以類似全文檢索的方式模糊找出相關度較高的檔案,我這幾年來一直沒能找到類似工具。所以動手搞了這個。 搭配管線,用法很簡單: find . -iname '*.txt' | tf "魔王" "勇者" | sort -n 現階段唯一的假設,是被分析的檔案應採用 utf8 編碼,否則搜不到。編碼偵測功能或許會在未來被添加,也歡迎 PR。 因為沒有 Mac 環境無法測試,所以當前沒有提供預編譯的 Mac 版本。但考慮代碼寫法應該可以用沒問題,有興趣的用戶可以自己編譯一下試試。
2018/12/23 15:42
|
||||||||||
![]() |
您可以查看帖子.
您不可發帖.
您不可回覆.
您不可編輯自己的帖子.
您不可刪除自己的帖子.
您不可發起投票調查.
您不可在投票調查中投票.
您不可上傳附件.
您不可不經審核直接發帖.