Zju ads homework:mini search engine
.
├── README.md
├── img
│ └── image-20240930084300631.png # 要求图片
├── includes
│ ├── stmr.h
│ └── utils.h
├── src
│ ├── getfile.cpp # 内容抓取(直接使用 ./data/shakespeare)
│ ├── parser.cpp #
│ ├── stmr.cpp
│ └── utils.cpp
├── data
│ ├── shakespeare # 内容数据原根目录
│ └── stopwords.txt # 停用词(TXT)
├── .gitignore
├── CMakeLists.txt
├── run.bat
└── main.cpp
这里直接使用 github 上开源的文件目录 shakespeare。
done.
这里使用提供的 stemmer。注意其无法进行 ran -> run 等变化。
先认为内存大小足够。
先直接处理完 file-word 向量之后直接插入倒排索引
done.
处理文件和单词以计算 TF-IDF。
文件处理完之后,可以将其存储到磁盘上。
TODO:需要定义存储/读取方式。
先直接查询倒排索引,找到对应文档之后直接按权重排序
如果 data 目录下没有 shakespeare 文件夹,先运行 updata.bat 模拟数据抓取;
然后运行 run.bat,会自动编译并启动程序。
Cpp standard: c++17
使用 cmake 构建。
使用 windows11 系统,如果 .bat 脚本无法运行可以直接修改。
