泰国按摩群

新视频导航

发布日期:2025-12-17 15:04    点击次数:58

全球好新视频导航,我是 同学小张,抓续学习C++进阶学问和AI大模子垄断实战案例,抓续共享,接待全球点赞+关切,共同学习和跨越。

上篇著述咱们通过一个浅易的例子,学习了LlamaIndex的装配和基本使用,使用 LlamaIndex 构建了一个浅易的RAG问答系统。今天咱们驱动系统化学习,率先看一下LlamaIndex的Load部分。Load部分细腻文献数据连接。

0. 文献类型加载器:SimpleDirectoryReader

上篇著述代码的一驱动,咱们就使用了这个Reader:

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader# 使用SimpleDirectoryReader从指定旅途加载数据documents = SimpleDirectoryReader("D:\GitHub\LEARN_LLM\LlamaIndex\data").load_data()

这是 LlamaIndex 中最容易使用的一个文献夹加载器。它会读取传入的文献夹旅途中的扫数文献,不错读取多样步地,包括Markdown、PDF、Word、PowerPoint、图像、音频和视频等。

来看下其具体集成的类型:

参考:https://llamahub.ai/l/readers/llama-index-readers-file?from=

from llama_index.core import SimpleDirectoryReaderfrom llama_index.readers.file import (    DocxReader,    HWPReader,    PDFReader,    EpubReader,    FlatReader,    HTMLTagReader,    ImageCaptionReader,    ImageReader,    ImageVisionLLMReader,    IPYNBReader,    MarkdownReader,    MboxReader,    PptxReader,    PandasCSVReader,    VideoAudioReader,    UnstructuredReader,    PyMuPDFReader,    ImageTabularChartReader,    XMLReader,    PagedCSVReader,    CSVReader,    RTFReader,)# PDF Reader with `SimpleDirectoryReader`parser = PDFReader()file_extractor = {".pdf": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# Docx Reader exampleparser = DocxReader()file_extractor = {".docx": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# HWP Reader exampleparser = HWPReader()file_extractor = {".hwp": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# Epub Reader exampleparser = EpubReader()file_extractor = {".epub": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# Flat Reader exampleparser = FlatReader()file_extractor = {".txt": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# HTML Tag Reader exampleparser = HTMLTagReader()file_extractor = {".html": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# Image Reader exampleparser = ImageReader()file_extractor = {    ".jpg": parser,    ".jpeg": parser,    ".png": parser,}  # Add other image formats as neededdocuments = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# IPYNB Reader exampleparser = IPYNBReader()file_extractor = {".ipynb": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# Markdown Reader exampleparser = MarkdownReader()file_extractor = {".md": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# Mbox Reader exampleparser = MboxReader()file_extractor = {".mbox": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# Pptx Reader exampleparser = PptxReader()file_extractor = {".pptx": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# Pandas CSV Reader exampleparser = PandasCSVReader()file_extractor = {".csv": parser}  # Add other CSV formats as neededdocuments = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# PyMuPDF Reader exampleparser = PyMuPDFReader()file_extractor = {".pdf": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# XML Reader exampleparser = XMLReader()file_extractor = {".xml": parser}documents = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# Paged CSV Reader exampleparser = PagedCSVReader()file_extractor = {".csv": parser}  # Add other CSV formats as neededdocuments = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()# CSV Reader exampleparser = CSVReader()file_extractor = {".csv": parser}  # Add other CSV formats as neededdocuments = SimpleDirectoryReader(    "./data", file_extractor=file_extractor).load_data()
1. LlamaHub 中的加载器

除了上头的读取文献以外,推行活命中还有好多方位不错获得数据,举例GitHub,网页,数据库等。这些数据加载器在 LlamaHub 中终了,不错按需使用。下图是 LlamaHub 中加载器列表:

图片新视频导航

1.1 使用样貌

率先得装配相应的包,举例使用DatabaseReader:

pip install llama-index-readers-google# 或者在使用之前加底下这一滑应该也行:# from llama_index.core import download_loader

不然会报错:

图片

然后就不错平素使用了:

from llama_index.core import download_loaderfrom llama_index.readers.database import DatabaseReaderreader = DatabaseReader(    scheme=os.getenv("DB_SCHEME"),    host=os.getenv("DB_HOST"),    port=os.getenv("DB_PORT"),    user=os.getenv("DB_USER"),    password=os.getenv("DB_PASS"),    dbname=os.getenv("DB_NAME"),)query = "SELECT * FROM users"documents = reader.load_data(query=query)
2. 不错平直将翰墨支援成 LlamaIndex 需要的 Document 结构
from llama_index.core import Documentdoc = Document(text="text")
3. 文档内容支援

加载数据后,下一步是将数据进行处罚和支援。这些支援包括分块、索求元数据和对每个块进行向量化,泰国按摩群从而确保大模子概况检索数据。

3.1 一步到位的浅易步地

其中最浅易的支援作念法,是上篇著述中咱们使用的:from_documents步地。

from llama_index.core import VectorStoreIndexvector_index = VectorStoreIndex.from_documents(documents)vector_index.as_query_engine()

from_documents()步地,收受一个Document对象数组,并自动领路和拆分它们。

3.2 自界说支援

或然分咱们需要我方为止分块等这些支援的逻辑。有以下两种样貌:

(1)使用 from_documents 的 transformations 参数,传入一个自界说的分块器。

from llama_index.core.node_parser import SentenceSplittertext_splitter = SentenceSplitter(chunk_size=512, chunk_overlap=10)# per-indexindex = VectorStoreIndex.from_documents(    documents, transformations=[text_splitter])

(2)使用全局修复,修复默许的分块器。

from llama_index.core.node_parser import SentenceSplittertext_splitter = SentenceSplitter(chunk_size=512, chunk_overlap=10)# globalfrom llama_index.core import SettingsSettings.text_splitter = text_splitter# per-indexindex = VectorStoreIndex.from_documents(documents)
4. 转头

本文咱们先容了 LlamaIndex 中加载器,以及怎样使用它们。LlamaIndex提供了内置的文献加载器,同期也因循 LlamHub 中提供的多样其它类型加载器。

著述临了,浅易先容了下 LlamaIndex 中怎样将加载到的文档数据支援成索引。

5. 参考

· https://docs.llamaindex.ai/en/stable/understanding/loading/loading/

· https://docs.llamaindex.ai/en/stable/understanding/loading/llamahub/

若是以为本文对你有匡助,艰涩点个赞和关切呗 ~~~点击上方公众号,关切↑↑↑

· 全球好,我是 同学小张,日常共享AI学问和实战案例

· 接待 点赞 + 关切 👏,抓续学习,抓续干货输出。

公众号内著述一览

图片

本站仅提供存储做事,扫数内容均由用户发布,如发现存害或侵权内容,请点击举报。




Powered by 泰国按摩群 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2025