命令行程式分享 - tf- 基於詞關聯度搜尋檔案 [論壇 - Ubuntu 與工具程式及軟體推薦]


正在瀏覽:   1 名遊客


 到底部   前一個主題   下一個主題  [無發表權] 請登錄或者註冊



命令行程式分享 - tf- 基於詞關聯度搜尋檔案
會員三級
註冊日期:
2008/12/10 7:19
所屬群組:
已註冊使用者
等級: 15
HP : 0 / 369
MP : 94 / 11786
EXP: 76
離線
最近寫了一支程式,可以計算檔案與特定詞組之間的相關程度,叫 tf。

https://github.com/visig9/tf

這程式的主要設計目標,是在無索引、無分詞器、目標語言未知、什麼都沒有的狀況下搜尋檔案,並可依照關聯性排序用的。換言之,有點像是語言中立的全文檢索。

如果只是想搜尋檔案,純用 grep 或 find 就可以了。但若想計算關聯度,以類似全文檢索的方式模糊找出相關度較高的檔案,我這幾年來一直沒能找到類似工具。所以動手搞了這個。

搭配管線,用法很簡單:

find . -iname '*.txt' | tf "魔王" "勇者" | sort -n

現階段唯一的假設,是被分析的檔案應採用 utf8 編碼,否則搜不到。編碼偵測功能或許會在未來被添加,也歡迎 PR。

因為沒有 Mac 環境無法測試,所以當前沒有提供預編譯的 Mac 版本。但考慮代碼寫法應該可以用沒問題,有興趣的用戶可以自己編譯一下試試。

2018/12/23 15:42
應用擴展 工具箱


 [無發表權] 請登錄或者註冊


可以查看帖子.
不可發帖.
不可回覆.
不可編輯自己的帖子.
不可刪除自己的帖子.
不可發起投票調查.
不可在投票調查中投票.
不可上傳附件.
不可不經審核直接發帖.