[wip] rs: sharded fusefilter v2 by AskAlexSharov · Pull Request #20644 · erigontech/erigon

AskAlexSharov · 2026-04-18T09:31:51Z

No description provided.

Copilot

Pull request overview

Adds support for a new RecSplit index format (v2) that uses a sharded fusefilter existence filter to reduce false positives and potentially improve lookup efficiency, while extending test coverage to exercise the new version.

Changes:

Introduce sharded fusefilter writer/reader (256 shards by top byte of hash) and wire it into RecSplit/Index for dataStructureVersion ≥ 2.
Refactor fusefilter blob header handling and add regression tests around header field offsets and sharded round-trips.
Extend RecSplit tests to run the existing two-layer index test suite against v2.

Reviewed changes

Copilot reviewed 6 out of 6 changed files in this pull request and generated 2 comments.

Show a summary per file

File	Description
db/recsplit/recsplit_test.go	Runs the two-layer index test for RecSplit version 2.
db/recsplit/recsplit.go	Creates/uses a sharded existence filter writer for v2 and closes it on cleanup.
db/recsplit/index.go	Adds sharded existence filter reader initialization and lookup gating for v2+.
db/datastruct/fusefilter/fusefilter_writer_test.go	Adds round-trip, truncation, and regression tests for sharded writer/reader and header parsing.
db/datastruct/fusefilter/fusefilter_writer.go	Adds sharded writer implementation and refactors header serialization helpers.
db/datastruct/fusefilter/fusefilter_reader.go	Adds sharded reader implementation and refactors header parsing.

Comments suppressed due to low confidence (1)

db/datastruct/fusefilter/fusefilter_reader.go:101

NewReaderOnBytes slices m into header/data without checking len(m) >= filterBlobHeaderSize, and then slices data[:fingerprintsLen] without validating fingerprintsLen against len(data). With truncated/corrupt input this will panic instead of returning an error; please add explicit bounds checks and return a descriptive error.

func NewReaderOnBytes(m []byte, fName string) (*Reader, int, error) {
	filter := &xorfilter.BinaryFuse[uint8]{}

	const headerSize = filterBlobHeaderSize
	header, data := m[:headerSize], m[headerSize:]

	v, features, err := parseHeaderFeatures(header, fName)
	if err != nil {
		return nil, 0, err
	}

	filter.SegmentCount = binary.BigEndian.Uint32(header[4:])
	filter.SegmentCountLength = binary.BigEndian.Uint32(header[4+4:])
	filter.Seed = binary.BigEndian.Uint64(header[4+4+4:])
	filter.SegmentLength = binary.BigEndian.Uint32(header[4+4+4+8:])
	filter.SegmentLengthMask = binary.BigEndian.Uint32(header[4+4+4+8+4:])
	fingerprintsLen := int(binary.BigEndian.Uint64(header[4+4+4+8+4+4:]))

	filter.Fingerprints = data[:fingerprintsLen]
	return &Reader{inner: filter, version: v, features: features, m: m}, headerSize + fingerprintsLen, nil
}

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

Copilot

Pull request overview

This PR extends RecSplit’s “less false positives” existence filtering by adding a sharded fusefilter implementation and wiring it into RecSplit/Index for data structure version 2.

Changes:

Add v2 existence filter plumbing in recsplit (writer side) and index (reader side) using a new sharded fusefilter format.
Implement WriterSharded / ReaderSharded for fusefilter blobs and refactor common header/feature parsing.
Expand test coverage to exercise RecSplit v2 and the new sharded fusefilter round-trips.

Reviewed changes

Copilot reviewed 6 out of 6 changed files in this pull request and generated 2 comments.

Show a summary per file

File	Description
db/recsplit/recsplit_test.go	Adds TestTwoLayerIndex coverage for version 2.
db/recsplit/recsplit.go	Adds v2 existence filter writer and writes it during build.
db/recsplit/index.go	Adds v2 existence filter reader and uses it during Lookup/ForceInMem.
db/datastruct/fusefilter/fusefilter_writer_test.go	Adds new sharded writer/reader tests and a regression test for segment count fields.
db/datastruct/fusefilter/fusefilter_writer.go	Refactors header feature init; implements `WriterSharded` and shared serialization helper.
db/datastruct/fusefilter/fusefilter_reader.go	Refactors header parsing; implements `ReaderSharded`.

Comments suppressed due to low confidence (1)

db/datastruct/fusefilter/fusefilter_reader.go:100

NewReaderOnBytes slices m[:headerSize] and later data[:fingerprintsLen] without any length checks. A truncated/corrupted fusefilter blob (or a shard blob inside NewReaderShardedOnBytes) will panic with an out-of-bounds slice instead of returning an error. Please add upfront bounds checks (len(m) >= headerSize, and headerSize+fingerprintsLen <= len(m)) and return a descriptive error when the blob is too small or claims an impossible fingerprints length.

func NewReaderOnBytes(m []byte, fName string) (*Reader, int, error) {
	filter := &xorfilter.BinaryFuse[uint8]{}

	const headerSize = filterBlobHeaderSize
	header, data := m[:headerSize], m[headerSize:]

	v, features, err := parseHeaderFeatures(header, fName)
	if err != nil {
		return nil, 0, err
	}

	filter.SegmentCount = binary.BigEndian.Uint32(header[4:])
	filter.SegmentCountLength = binary.BigEndian.Uint32(header[4+4:])
	filter.Seed = binary.BigEndian.Uint64(header[4+4+4:])
	filter.SegmentLength = binary.BigEndian.Uint32(header[4+4+4+8:])
	filter.SegmentLengthMask = binary.BigEndian.Uint32(header[4+4+4+8+4:])
	fingerprintsLen := int(binary.BigEndian.Uint64(header[4+4+4+8+4+4:]))

	filter.Fingerprints = data[:fingerprintsLen]
	return &Reader{inner: filter, version: v, features: features, m: m}, headerSize + fingerprintsLen, nil

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

AskAlexSharov added 11 commits April 18, 2026 14:01

save

731bf48

save

567454c

save

e791d9e

save

c115749

save

58642e3

save

0e457b2

save

c5aee04

save

73cdc2c

save

0feced0

save

18cfed7

Merge remote-tracking branch 'origin/main' into alex/sharded_fuse2_35

c3554c7

AskAlexSharov requested a review from sudeepdino008 as a code owner April 18, 2026 09:31

AskAlexSharov requested review from Copilot and removed request for sudeepdino008 April 18, 2026 09:32

Copilot started reviewing on behalf of AskAlexSharov April 18, 2026 09:32 View session

Copilot AI reviewed Apr 18, 2026

View reviewed changes

Comment thread db/recsplit/index.go Outdated

Comment thread db/datastruct/fusefilter/fusefilter_reader.go

AskAlexSharov added 3 commits April 18, 2026 17:02

save

fdd36a8

save

6f07469

Merge remote-tracking branch 'origin/main' into alex/sharded_fuse2_35

9218f8d

AskAlexSharov requested a review from Copilot April 18, 2026 10:08

Copilot started reviewing on behalf of AskAlexSharov April 18, 2026 10:08 View session

Copilot AI reviewed Apr 18, 2026

View reviewed changes

Comment thread db/datastruct/fusefilter/fusefilter_reader.go Outdated

Comment thread db/datastruct/fusefilter/fusefilter_reader.go Outdated

AskAlexSharov added 4 commits April 18, 2026 17:26

save

7700b37

save

565fe41

Merge branch 'main' into alex/sharded_fuse2_35

2ec478a

save

27e9a64

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[wip] rs: sharded fusefilter v2#20644

[wip] rs: sharded fusefilter v2#20644
AskAlexSharov wants to merge 18 commits intomainfrom
alex/sharded_fuse2_35

AskAlexSharov commented Apr 18, 2026

Uh oh!

Copilot AI left a comment

Uh oh!

Uh oh!

Uh oh!

Copilot AI left a comment

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

AskAlexSharov commented Apr 18, 2026

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

Uh oh!

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants