MongoDB丰富文档的全文search

我正在开发一个将HTML文档存储在MongoDB数据库中的Node.js应用程序,并希望提供全文searchfunction。 从我可以看到,包含在MongoDB中的全文search期望文档是纯文本,因此不适合索引我的html文档。 这个假设是否正确?如果是这样的话,人们会推荐什么呢?

从阅读其他SOpost弹性search似乎是最有效的path。 我不能说我很高兴把Java应用程序带入图片。 还有一个完全独立的应用程序不是我的理想场景。

你可以在HTML中引入一些正则expression式,并尝试从HTML中去掉标记 。 输出可以被MongoDB索引。

这可能比使用ES或Solr这样的search工具更容易开发(这确实超出了范围),但是它不会让你走得太远:简单地剥离HTML就意味着上下文信息丢失了,而且无效的HTML会导致麻烦。